Un nou studiu realizat de cercetătorii de la MIT a scos la iveală o deficiență fundamentală a modelelor de tip viziune-limbaj (VLM), care ar putea avea implicații serioase pentru diagnosticarea medicală și alte aplicații critice.
Echipa de cercetare, condusă de Kumail Alhamoud și autoarea principală Marzyeh Ghassemi din cadrul Departamentului de Inginerie Electrică și Știința Calculatoarelor de la MIT, a constatat că aceste sisteme AI — tot mai des folosite pentru analiza imaginilor medicale — nu reușesc să înțeleagă cuvinte de negație precum „nu” și „fără” în interogări.
Această limitare devine deosebit de problematică în contexte medicale. De exemplu, atunci când un radiolog examinează o radiografie toracică ce prezintă umflarea țesuturilor fără o inimă mărită, utilizarea unui sistem AI pentru a găsi cazuri similare ar putea duce la diagnostice incorecte dacă modelul nu poate distinge între prezența și absența unor anumite afecțiuni.
„Aceste cuvinte de negație pot avea un impact foarte semnificativ, iar dacă folosim aceste modele orbește, am putea ajunge la consecințe catastrofale”, avertizează autorul principal, Alhamoud. Testate pentru abilitatea de a identifica negația în descrierile imaginilor, modelele nu au avut rezultate mai bune decât o alegere aleatorie.
Pentru a aborda această problemă, cercetătorii au dezvoltat NegBench, un benchmark cuprinzător ce conține 79.000 de exemple în 18 variații de sarcini, acoperind imagini, videoclipuri și seturi de date medicale. Benchmark-ul evaluează două capacități de bază: recuperarea imaginilor pe baza unor interogări negate și răspunsul la întrebări cu variante multiple, având descrieri cu negație.
Echipa a creat, de asemenea, seturi de date cu exemple specifice de negație pentru a reantrena aceste modele, obținând o îmbunătățire de 10% la recall pentru interogările negate și o creștere de 28% a acurateței la întrebările cu variante multiple și descrieri negate. Totuși, cercetătorii avertizează că este nevoie de mai multă muncă pentru a aborda cauzele profunde ale acestei probleme.
„Dacă ceva atât de fundamental precum negația este defect, nu ar trebui să folosim modelele mari de viziune/limbaj în multe dintre modurile în care le folosim acum — fără o evaluare intensivă”, subliniază Ghassemi.
Cercetarea va fi prezentată la viitoarea Conferință privind Viziunea Computerizată și Recunoașterea Tiparelor, subliniind nevoia urgentă de sisteme AI mai robuste pentru aplicații critice precum sănătatea.