menu
close

Systemy AI w medycynie nie rozumieją zaprzeczeń w analizie obrazów

Naukowcy z MIT odkryli, że modele wizualno-językowe wykorzystywane w obrazowaniu medycznym nie rozumieją słów zaprzeczających, takich jak „nie” czy „brak”, co może prowadzić do niebezpiecznych błędów diagnostycznych. W testach dotyczących zaprzeczeń systemy te radziły sobie nie lepiej niż losowe zgadywanie, co budzi poważne obawy związane z ich stosowaniem w ochronie zdrowia. Badacze opracowali nowy benchmark o nazwie NegBench i zaproponowali rozwiązania, które mogą poprawić rozumienie zaprzeczeń nawet o 28%.
Systemy AI w medycynie nie rozumieją zaprzeczeń w analizie obrazów

Poważna wada systemów sztucznej inteligencji wykorzystywanych do analizy obrazów medycznych może zagrażać pacjentom – wynika z najnowszych badań MIT opublikowanych w tym tygodniu.

Badanie, prowadzone przez doktoranta Kumaila Alhamouda oraz profesor nadzwyczajną Marzyeh Ghassemi, ujawnia, że modele wizualno-językowe (VLM) – szeroko stosowane w placówkach medycznych systemy AI – zasadniczo nie rozumieją słów zaprzeczających, takich jak „nie” czy „brak”, podczas analizy obrazów medycznych.

„Te słowa zaprzeczające mogą mieć ogromne znaczenie, a jeśli będziemy korzystać z tych modeli bezrefleksyjnie, możemy doprowadzić do katastrofalnych konsekwencji” – ostrzega Alhamoud, główny autor badania.

Naukowcy zilustrowali ten problem na przykładzie klinicznym: jeśli radiolog analizuje zdjęcie rentgenowskie klatki piersiowej, na którym widoczne jest obrzmienie tkanek, ale nie powiększone serce, system AI może błędnie wyszukać przypadki z obiema cechami, prowadząc do zupełnie innej diagnozy. W testach formalnych modele AI radziły sobie z zadaniami dotyczącymi zaprzeczeń nie lepiej niż losowe zgadywanie.

Aby rozwiązać ten poważny problem, zespół opracował NegBench – kompleksowe narzędzie oceny obejmujące 18 wariantów zadań i 79 000 przykładów z różnych zbiorów obrazów, wideo i danych medycznych. Zaproponowane przez nich rozwiązanie polega na ponownym trenowaniu modeli VLM na specjalnie przygotowanych zbiorach danych zawierających miliony podpisów z zaprzeczeniami, co przyniosło obiecujące rezultaty – poprawiając skuteczność wyszukiwania zaprzeczeń o 10% oraz zwiększając dokładność odpowiedzi na pytania wielokrotnego wyboru z zaprzeczonymi podpisami aż o 28%.

„Jeśli coś tak fundamentalnego jak rozumienie zaprzeczeń jest wadliwe, nie powinniśmy wykorzystywać dużych modeli wizualno-językowych w taki sposób, jak robimy to obecnie – bez gruntownej oceny” – podkreśla Ghassemi, wskazując na konieczność dokładnej weryfikacji przed wdrożeniem tych systemów w środowiskach medycznych o wysokim ryzyku.

Badania, w których uczestniczyli także współpracownicy z OpenAI i Uniwersytetu Oksfordzkiego, zostaną zaprezentowane na nadchodzącej konferencji Computer Vision and Pattern Recognition. Zespół udostępnił swój benchmark oraz kod źródłowy publicznie, aby pomóc w rozwiązaniu tego kluczowego problemu bezpieczeństwa AI.

Source:

Latest News