Nowe badanie przeprowadzone przez naukowców z MIT ujawniło fundamentalną wadę modeli wizualno-językowych (VLM), która może mieć poważne konsekwencje dla diagnostyki medycznej i innych kluczowych zastosowań.
Zespół badawczy pod kierownictwem Kumaila Alhamouda oraz głównej autorki Marzyeh Ghassemi z Wydziału Elektrotechniki i Informatyki MIT odkrył, że te systemy AI – coraz częściej wykorzystywane do analizy obrazów medycznych – nie rozumieją słów negujących, takich jak 'nie' czy 'brak', pojawiających się w zapytaniach.
To ograniczenie staje się szczególnie problematyczne w kontekście medycznym. Na przykład, gdy radiolog analizuje zdjęcie rentgenowskie klatki piersiowej pokazujące obrzęk tkanek, ale bez powiększonego serca, użycie systemu AI do znalezienia podobnych przypadków może prowadzić do błędnych diagnoz, jeśli model nie potrafi odróżnić obecności i braku konkretnych schorzeń.
„Słowa negujące mogą mieć bardzo duży wpływ, a jeśli ślepo korzystamy z tych modeli, możemy doprowadzić do katastrofalnych skutków” – ostrzega główny autor, Alhamoud. W testach polegających na rozpoznawaniu negacji w podpisach obrazów modele radziły sobie nie lepiej niż losowe zgadywanie.
Aby rozwiązać ten problem, naukowcy opracowali NegBench – kompleksowy benchmark zawierający 79 000 przykładów w 18 wariantach zadań, obejmujących zbiory obrazów, wideo i medyczne. Benchmark ocenia dwie kluczowe umiejętności: wyszukiwanie obrazów na podstawie zapytań z negacją oraz odpowiadanie na pytania wielokrotnego wyboru z podpisami zawierającymi negację.
Zespół stworzył także zbiory danych z przykładami specyficznymi dla negacji, aby ponownie wytrenować modele, uzyskując 10-procentową poprawę skuteczności w wyszukiwaniu na zapytania z negacją oraz 28-procentowy wzrost trafności odpowiedzi na pytania wielokrotnego wyboru z podpisami negującymi. Badacze podkreślają jednak, że konieczne są dalsze prace nad rozwiązaniem źródłowych przyczyn tego problemu.
„Jeśli coś tak podstawowego jak negacja nie działa, nie powinniśmy używać dużych modeli wizualno-językowych w taki sposób, jak robimy to obecnie – bez gruntownej oceny” – podkreśla Ghassemi.
Wyniki badań zostaną zaprezentowane na nadchodzącej konferencji Computer Vision and Pattern Recognition, co podkreśla pilną potrzebę tworzenia bardziej niezawodnych systemów AI do zastosowań krytycznych, takich jak opieka zdrowotna.