Modele wizji AI nie rozumieją negacji, co grozi błędami medycznymi

Naukowcy z MIT odkryli, że modele łączące analizę obrazu i języka (VLM) nie rozumieją słów negujących, takich jak 'nie' czy 'brak', osiągając wyniki na poziomie losowego zgadywania w testach. Ta podstawowa wada może prowadzić do poważnych błędów diagnostycznych w opiece zdrowotnej, gdzie kluczowe jest rozróżnianie obecności i braku objawów. Zespół badawczy pod kierownictwem Kumaila Alhamouda i Marzyeh Ghassemi opracował benchmark NegBench do oceny i ulepszania tych modeli.

Przełomowe badania MIT ujawniły poważną wadę modeli wizji-języka (VLM), która może mieć istotne konsekwencje dla ich zastosowań w opiece zdrowotnej i innych obszarach wymagających wysokiej precyzji.

W badaniu naukowcy z MIT stwierdzili, że VLM są wyjątkowo podatne na błędy w rzeczywistych sytuacjach, ponieważ nie rozumieją negacji — słów takich jak "nie" czy "brak", które określają, co jest fałszywe lub nieobecne. "Te słowa negujące mogą mieć bardzo duży wpływ, a jeśli będziemy korzystać z tych modeli bezrefleksyjnie, możemy napotkać katastrofalne konsekwencje" – mówi Kumail Alhamoud, doktorant MIT i główny autor badania.

Naukowcy ilustrują problem przykładem medycznym: wyobraźmy sobie radiologa analizującego zdjęcie rentgenowskie klatki piersiowej i zauważającego obrzęk tkanek, ale brak powiększonego serca. W takiej sytuacji modele wizji-języka prawdopodobnie nie odróżnią tych stanów. Jeśli model błędnie zidentyfikuje raporty jako zawierające oba stany, konsekwencje diagnostyczne mogą być poważne: pacjent z obrzękiem tkanek i powiększonym sercem prawdopodobnie cierpi na schorzenie kardiologiczne, natomiast bez powiększonego serca przyczyny mogą być zupełnie inne.

Podczas testowania zdolności modeli wizji-języka do rozpoznawania negacji w podpisach obrazów, naukowcy odkryli, że modele często osiągają wyniki na poziomie losowego zgadywania. Na podstawie tych obserwacji zespół stworzył zbiór danych obrazów z podpisami zawierającymi słowa negujące, opisującymi brakujące obiekty. Wykazano, że ponowne trenowanie modelu na tym zbiorze poprawia jego skuteczność w zadaniach wyszukiwania obrazów nie zawierających określonych obiektów. Zwiększa to także trafność odpowiedzi na pytania wielokrotnego wyboru z negowanymi podpisami. Naukowcy podkreślają jednak, że do rozwiązania problemu potrzebne są dalsze badania.

"To nie dotyczy tylko słów takich jak 'nie' czy 'brak'. Bez względu na to, jak wyrazimy negację lub wykluczenie, modele po prostu to ignorują" – mówi Alhamoud. Było to spójne we wszystkich testowanych VLM. Podstawowy problem wynika ze sposobu trenowania tych modeli. "Podpisy opisują to, co znajduje się na obrazach — są pozytywną etykietą. I to właśnie jest sedno problemu. Nikt nie patrzy na zdjęcie psa skaczącego przez płot i nie podpisuje go: 'pies skaczący przez płot, bez helikopterów'" – wyjaśnia Marzyeh Ghassemi, współautorka badania. Ponieważ zbiory danych obraz-podpis nie zawierają przykładów negacji, modele VLM nigdy się jej nie uczą.

"Jeśli coś tak fundamentalnego jak negacja nie działa, nie powinniśmy używać dużych modeli wizji/języka w taki sposób, w jaki robimy to obecnie — bez gruntownej oceny" – mówi Ghassemi, profesor nadzwyczajna na Wydziale Elektrotechniki i Informatyki oraz członkini Instytutu Inżynierii Biomedycznej MIT. Badania, które zostaną zaprezentowane na konferencji Computer Vision and Pattern Recognition, przeprowadził zespół z udziałem naukowców z MIT, OpenAI i Uniwersytetu Oksfordzkiego.

To odkrycie ma istotne znaczenie dla dziedzin o wysokim ryzyku, takich jak monitorowanie bezpieczeństwa czy opieka zdrowotna. Praca badaczy, obejmująca stworzenie NegBench — kompleksowego benchmarku do oceny modeli wizji-języka pod kątem zadań związanych z negacją — stanowi ważny krok w kierunku bardziej niezawodnych systemów AI, zdolnych do subtelnego rozumienia języka, co ma kluczowe znaczenie dla diagnostyki medycznej i wyszukiwania treści semantycznych.

Source: Mit

Modele wizji AI nie rozumieją negacji, co grozi błędami medycznymi

Latest News

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Fundusz Norwegii o wartości 1,8 biliona dolarów czyni AI obowiązkowym narzędziem dla pracowników

OpenTools.ai prezentuje AI News Hub dla profesjonalistów z branży technologicznej

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania

Modele wizji AI nie rozumieją negacji, co grozi błędami medycznymi

Related Articles

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Latest News

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Fundusz Norwegii o wartości 1,8 biliona dolarów czyni AI obowiązkowym narzędziem dla pracowników

OpenTools.ai prezentuje AI News Hub dla profesjonalistów z branży technologicznej

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania