Modelele de viziune AI nu înțeleg negația, riscând erori medicale

Cercetătorii de la MIT au descoperit că modelele de tip viziune-limbaj (VLM) nu pot înțelege cuvinte de negație precum „nu” și „nicio”, având rezultate similare cu o alegere aleatorie în teste. Această deficiență fundamentală poate duce la erori grave de diagnostic în domeniul medical, unde diferențierea dintre condițiile prezente și absente este esențială. Echipa de cercetare, condusă de Kumail Alhamoud și Marzyeh Ghassemi, a dezvoltat un benchmark numit NegBench pentru a evalua și îmbunătăți aceste modele.

Un studiu revoluționar realizat de MIT a scos la iveală o deficiență critică a modelelor de tip viziune-limbaj (VLM), care ar putea avea implicații serioase pentru utilizarea acestora în domeniul sănătății și în alte contexte cu miză ridicată.

În cadrul studiului, cercetătorii de la MIT au constatat că VLM-urile sunt extrem de predispuse la erori în situații reale deoarece nu înțeleg negația — cuvinte precum „nu” și „nicio”, care specifică ceea ce este fals sau absent. „Aceste cuvinte de negație pot avea un impact foarte semnificativ, iar dacă folosim aceste modele fără discernământ, ne putem confrunta cu consecințe catastrofale”, afirmă Kumail Alhamoud, doctorand la MIT și autor principal al studiului.

Cercetătorii ilustrează problema printr-un exemplu medical: imaginați-vă un radiolog care examinează o radiografie toracică și observă că un pacient are umflături ale țesutului, dar nu are inimă mărită. Într-un astfel de scenariu, modelele viziune-limbaj ar eșua probabil să distingă între aceste condiții. Dacă modelul identifică eronat rapoarte cu ambele condiții, implicațiile pentru diagnostic pot fi semnificative: un pacient cu umflături ale țesutului și inimă mărită are probabil o afecțiune cardiacă, însă fără inimă mărită, pot exista mai multe cauze posibile.

Testând capacitatea modelelor viziune-limbaj de a identifica negația în descrierile imaginilor, cercetătorii au descoperit că modelele au performat adesea la fel de bine ca o alegere aleatorie. Pe baza acestor rezultate, echipa a creat un set de date cu imagini și descrieri asociate care includ cuvinte de negație ce descriu obiecte absente. Au demonstrat că reantrenarea unui model viziune-limbaj cu acest set de date duce la îmbunătățiri de performanță atunci când modelul trebuie să identifice imagini care nu conțin anumite obiecte. De asemenea, crește acuratețea la întrebări de tip alegere multiplă cu descrieri negate. Totuși, cercetătorii avertizează că este nevoie de mai multă muncă pentru a aborda cauzele de bază ale acestei probleme.

„Aceasta nu se întâmplă doar pentru cuvinte precum «nu» și «nicio». Indiferent cum exprimi negația sau excluderea, modelele pur și simplu o ignoră”, spune Alhamoud. Acest comportament a fost constant la toate VLM-urile testate. Problema de bază provine din modul în care aceste modele sunt antrenate. „Descrierile exprimă ceea ce se află în imagini — sunt etichete pozitive. Și aici este, de fapt, întreaga problemă. Nimeni nu privește o imagine cu un câine care sare peste un gard și nu o descrie spunând «un câine care sare peste un gard, fără elicoptere»”, explică Marzyeh Ghassemi, autoare principală. Deoarece seturile de date imagine-descriere nu conțin exemple de negație, VLM-urile nu învață niciodată să o identifice.

„Dacă ceva atât de fundamental precum negația este defect, nu ar trebui să folosim modelele mari viziune/lbaj în multe dintre modurile în care le folosim acum — fără evaluare intensivă”, afirmă Ghassemi, profesor asociat la Departamentul de Inginerie Electrică și Știința Calculatoarelor și membru al Institutului de Științe Medicale și Inginerie. Cercetarea, care va fi prezentată la Conferința pentru Viziune Computerizată și Recunoaștere a Pattern-urilor, a fost realizată de o echipă ce include cercetători de la MIT, OpenAI și Universitatea Oxford.

Această descoperire are implicații semnificative pentru domenii cu miză ridicată, precum monitorizarea siguranței și sănătatea. Munca cercetătorilor, care include dezvoltarea NegBench — un benchmark cuprinzător pentru evaluarea modelelor viziune-limbaj pe sarcini specifice de negație — reprezintă un pas important către sisteme AI mai robuste, capabile de o înțelegere nuanțată a limbajului, cu implicații critice pentru diagnosticarea medicală și regăsirea semantică a conținutului.

Modelele de viziune AI nu înțeleg negația, riscând erori medicale

Latest News

Doubao AI de la ByteDance Oferă Acum Asistență Video în Timp Real

OnePlus renunță la Alert Slider în favoarea butonului Plus Key alimentat de AI

Giganții tehnologici germani se unesc pentru o gigafabrică de inteligență artificială susținută de UE

Procurorii americani au investigat Builder.ai înainte ca startup-ul AI de 1,5 miliarde de dolari să se prăbușească

Fondul de 1,8 trilioane de dolari al Norvegiei face din inteligența artificială o cerință obligatorie pentru angajați

OpenTools.ai lansează un hub de știri AI pentru profesioniștii din tehnologie

Google extinde controlul AI asupra computerului pentru dezvoltatori prin Gemini

Google îmbunătățește modelele Gemini cu rezumate transparente ale procesului de gândire

Modelele de viziune AI nu înțeleg negația, riscând erori medicale

Related Articles

OnePlus renunță la Alert Slider în favoarea butonului Plus Key alimentat de AI

Giganții tehnologici germani se unesc pentru o gigafabrică de inteligență artificială susținută de UE

Procurorii americani au investigat Builder.ai înainte ca startup-ul AI de 1,5 miliarde de dolari să se prăbușească

Latest News

Doubao AI de la ByteDance Oferă Acum Asistență Video în Timp Real

OnePlus renunță la Alert Slider în favoarea butonului Plus Key alimentat de AI

Giganții tehnologici germani se unesc pentru o gigafabrică de inteligență artificială susținută de UE

Procurorii americani au investigat Builder.ai înainte ca startup-ul AI de 1,5 miliarde de dolari să se prăbușească

Fondul de 1,8 trilioane de dolari al Norvegiei face din inteligența artificială o cerință obligatorie pentru angajați

OpenTools.ai lansează un hub de știri AI pentru profesioniștii din tehnologie

Google extinde controlul AI asupra computerului pentru dezvoltatori prin Gemini

Google îmbunătățește modelele Gemini cu rezumate transparente ale procesului de gândire