Un studiu revoluționar realizat de MIT a scos la iveală o deficiență critică a modelelor de tip viziune-limbaj (VLM), care ar putea avea implicații serioase pentru utilizarea acestora în domeniul sănătății și în alte contexte cu miză ridicată.
În cadrul studiului, cercetătorii de la MIT au constatat că VLM-urile sunt extrem de predispuse la erori în situații reale deoarece nu înțeleg negația — cuvinte precum „nu” și „nicio”, care specifică ceea ce este fals sau absent. „Aceste cuvinte de negație pot avea un impact foarte semnificativ, iar dacă folosim aceste modele fără discernământ, ne putem confrunta cu consecințe catastrofale”, afirmă Kumail Alhamoud, doctorand la MIT și autor principal al studiului.
Cercetătorii ilustrează problema printr-un exemplu medical: imaginați-vă un radiolog care examinează o radiografie toracică și observă că un pacient are umflături ale țesutului, dar nu are inimă mărită. Într-un astfel de scenariu, modelele viziune-limbaj ar eșua probabil să distingă între aceste condiții. Dacă modelul identifică eronat rapoarte cu ambele condiții, implicațiile pentru diagnostic pot fi semnificative: un pacient cu umflături ale țesutului și inimă mărită are probabil o afecțiune cardiacă, însă fără inimă mărită, pot exista mai multe cauze posibile.
Testând capacitatea modelelor viziune-limbaj de a identifica negația în descrierile imaginilor, cercetătorii au descoperit că modelele au performat adesea la fel de bine ca o alegere aleatorie. Pe baza acestor rezultate, echipa a creat un set de date cu imagini și descrieri asociate care includ cuvinte de negație ce descriu obiecte absente. Au demonstrat că reantrenarea unui model viziune-limbaj cu acest set de date duce la îmbunătățiri de performanță atunci când modelul trebuie să identifice imagini care nu conțin anumite obiecte. De asemenea, crește acuratețea la întrebări de tip alegere multiplă cu descrieri negate. Totuși, cercetătorii avertizează că este nevoie de mai multă muncă pentru a aborda cauzele de bază ale acestei probleme.
„Aceasta nu se întâmplă doar pentru cuvinte precum «nu» și «nicio». Indiferent cum exprimi negația sau excluderea, modelele pur și simplu o ignoră”, spune Alhamoud. Acest comportament a fost constant la toate VLM-urile testate. Problema de bază provine din modul în care aceste modele sunt antrenate. „Descrierile exprimă ceea ce se află în imagini — sunt etichete pozitive. Și aici este, de fapt, întreaga problemă. Nimeni nu privește o imagine cu un câine care sare peste un gard și nu o descrie spunând «un câine care sare peste un gard, fără elicoptere»”, explică Marzyeh Ghassemi, autoare principală. Deoarece seturile de date imagine-descriere nu conțin exemple de negație, VLM-urile nu învață niciodată să o identifice.
„Dacă ceva atât de fundamental precum negația este defect, nu ar trebui să folosim modelele mari viziune/lbaj în multe dintre modurile în care le folosim acum — fără evaluare intensivă”, afirmă Ghassemi, profesor asociat la Departamentul de Inginerie Electrică și Știința Calculatoarelor și membru al Institutului de Științe Medicale și Inginerie. Cercetarea, care va fi prezentată la Conferința pentru Viziune Computerizată și Recunoaștere a Pattern-urilor, a fost realizată de o echipă ce include cercetători de la MIT, OpenAI și Universitatea Oxford.
Această descoperire are implicații semnificative pentru domenii cu miză ridicată, precum monitorizarea siguranței și sănătatea. Munca cercetătorilor, care include dezvoltarea NegBench — un benchmark cuprinzător pentru evaluarea modelelor viziune-limbaj pe sarcini specifice de negație — reprezintă un pas important către sisteme AI mai robuste, capabile de o înțelegere nuanțată a limbajului, cu implicații critice pentru diagnosticarea medicală și regăsirea semantică a conținutului.