MIT:n uraauurtava tutkimus on paljastanut vakavan puutteen näkö-kielimalleissa (VLM), mikä voi vaikuttaa merkittävästi niiden käyttöön terveydenhuollossa ja muissa korkean riskin ympäristöissä.
Tutkimuksessa MIT:n tutkijat havaitsivat, että VLM:t tekevät erittäin todennäköisesti virheitä tosielämän tilanteissa, koska ne eivät ymmärrä kieltoa – sanoja kuten "ei" ja "ei ole", jotka ilmaisevat jonkin olevan väärin tai puuttuvan. "Nämä kieltosanat voivat vaikuttaa merkittävästi, ja jos käytämme näitä malleja sokeasti, saatamme kohdata katastrofaalisia seurauksia", sanoo Kumail Alhamoud, MIT:n jatko-opiskelija ja tutkimuksen pääkirjoittaja.
Tutkijat havainnollistavat ongelmaa lääketieteellisellä esimerkillä: Kuvitellaan radiologi, joka tarkastelee keuhkoröntgenkuvaa ja huomaa, että potilaalla on kudosturvotusta mutta ei suurentunutta sydäntä. Tällaisessa tilanteessa näkö-kielimallit epäonnistuvat todennäköisesti näiden tilojen erottamisessa toisistaan. Jos malli tunnistaa virheellisesti raportit, joissa esiintyy molemmat tilat, diagnoosin seuraukset voivat olla merkittäviä: potilaalla, jolla on sekä kudosturvotusta että suurentunut sydän, on todennäköisesti sydänperäinen sairaus, mutta ilman suurentunutta sydäntä taustalla voi olla useita muita syitä.
Testatessaan näkö-kielimallien kykyä tunnistaa kieltoa kuvateksteissä tutkijat havaitsivat, että mallien suorituskyky oli usein satunnaisen arvauksen tasolla. Näiden havaintojen pohjalta tiimi loi aineiston, jossa on kuvia ja niihin liittyviä kuvatekstejä, jotka sisältävät kieltosanoja ja kuvaavat puuttuvia kohteita. He osoittivat, että kun näkö-kielimalli koulutetaan tällä aineistolla uudelleen, sen suorituskyky paranee, kun mallilta pyydetään hakemaan kuvia, joissa tiettyjä kohteita ei ole. Se parantaa myös tarkkuutta monivalintakysymyksissä, joissa käytetään kiellettyjä kuvatekstejä. Tutkijat kuitenkin korostavat, että ongelman perimmäisiin syihin tarvitaan vielä lisää tutkimusta.
"Tämä ei koske vain sanoja kuten 'ei' ja 'ei ole'. Riippumatta siitä, miten kieltoa tai poissulkemista ilmaistaan, mallit yksinkertaisesti jättävät sen huomiotta", Alhamoud sanoo. Tämä havaittiin kaikissa testatuissa VLM-malleissa. Ongelman taustalla on tapa, jolla näitä malleja koulutetaan. "Kuvatekstit ilmaisevat, mitä kuvissa on – ne ovat positiivisia merkintöjä. Ja siinä on koko ongelman ydin. Kukaan ei katso kuvaa koirasta hyppäämässä aidan yli ja kirjoita kuvatekstiksi 'koira hyppää aidan yli, ilman helikoptereita'," selittää vanhempi kirjoittaja Marzyeh Ghassemi. Koska kuva-kuvateksti-aineistoissa ei ole esimerkkejä kiellosta, VLM:t eivät koskaan opi tunnistamaan sitä.
"Jos jokin näin perustavanlaatuinen asia kuin kielto on rikki, meidän ei pitäisi käyttää suuria näkö-/kielimalleja monissa nykyisissä käyttötarkoituksissa – ilman perusteellista arviointia", sanoo Ghassemi, sähkötekniikan ja tietojenkäsittelytieteen apulaisprofessori ja Institute of Medical Engineering Sciences -instituutin jäsen. Tutkimus, joka esitellään Computer Vision and Pattern Recognition -konferenssissa, toteutettiin MIT:n, OpenAI:n ja Oxfordin yliopiston tutkijoiden yhteistyönä.
Tämä havainto on merkittävä etenkin korkean riskin aloilla, kuten turvallisuusvalvonnassa ja terveydenhuollossa. Tutkijoiden työ, johon sisältyy NegBench-nimisen, kieltoon liittyvien tehtävien arviointiin tarkoitetun kattavan vertailuaineiston kehittäminen, on tärkeä askel kohti kestävämpiä tekoälyjärjestelmiä, jotka kykenevät hienovaraisempaan kielen ymmärtämiseen – erityisesti lääketieteellisen diagnostiikan ja semanttisen sisällön haun kannalta.