Poważna wada systemów sztucznej inteligencji wykorzystywanych do analizy obrazów medycznych może zagrażać pacjentom – wynika z najnowszych badań MIT opublikowanych w tym tygodniu.
Badanie, prowadzone przez doktoranta Kumaila Alhamouda oraz profesor nadzwyczajną Marzyeh Ghassemi, ujawnia, że modele wizualno-językowe (VLM) – szeroko stosowane w placówkach medycznych systemy AI – zasadniczo nie rozumieją słów zaprzeczających, takich jak „nie” czy „brak”, podczas analizy obrazów medycznych.
„Te słowa zaprzeczające mogą mieć ogromne znaczenie, a jeśli będziemy korzystać z tych modeli bezrefleksyjnie, możemy doprowadzić do katastrofalnych konsekwencji” – ostrzega Alhamoud, główny autor badania.
Naukowcy zilustrowali ten problem na przykładzie klinicznym: jeśli radiolog analizuje zdjęcie rentgenowskie klatki piersiowej, na którym widoczne jest obrzmienie tkanek, ale nie powiększone serce, system AI może błędnie wyszukać przypadki z obiema cechami, prowadząc do zupełnie innej diagnozy. W testach formalnych modele AI radziły sobie z zadaniami dotyczącymi zaprzeczeń nie lepiej niż losowe zgadywanie.
Aby rozwiązać ten poważny problem, zespół opracował NegBench – kompleksowe narzędzie oceny obejmujące 18 wariantów zadań i 79 000 przykładów z różnych zbiorów obrazów, wideo i danych medycznych. Zaproponowane przez nich rozwiązanie polega na ponownym trenowaniu modeli VLM na specjalnie przygotowanych zbiorach danych zawierających miliony podpisów z zaprzeczeniami, co przyniosło obiecujące rezultaty – poprawiając skuteczność wyszukiwania zaprzeczeń o 10% oraz zwiększając dokładność odpowiedzi na pytania wielokrotnego wyboru z zaprzeczonymi podpisami aż o 28%.
„Jeśli coś tak fundamentalnego jak rozumienie zaprzeczeń jest wadliwe, nie powinniśmy wykorzystywać dużych modeli wizualno-językowych w taki sposób, jak robimy to obecnie – bez gruntownej oceny” – podkreśla Ghassemi, wskazując na konieczność dokładnej weryfikacji przed wdrożeniem tych systemów w środowiskach medycznych o wysokim ryzyku.
Badania, w których uczestniczyli także współpracownicy z OpenAI i Uniwersytetu Oksfordzkiego, zostaną zaprezentowane na nadchodzącej konferencji Computer Vision and Pattern Recognition. Zespół udostępnił swój benchmark oraz kod źródłowy publicznie, aby pomóc w rozwiązaniu tego kluczowego problemu bezpieczeństwa AI.