MIT:n tutkijat ovat tehneet merkittävän läpimurron ymmärtäessään, miksi suuret kielimallit (LLM:t) osoittavat vinoumaa – mikä voi avata tietä luotettavammille tekoälyjärjestelmille.
Tutkimusryhmä havaitsi, että LLM:t kärsivät niin sanotusta positionaalisesta vinoumasta: niillä on taipumus painottaa liikaa tietoa dokumenttien alussa ja lopussa, samalla kun ne laiminlyövät keskiosan sisältöä. Tällä vinoumalla on käytännön vaikutuksia – esimerkiksi kun lakimies käyttää LLM-avusteista työkalua 30-sivuisen dokumentin läpikäymiseen, järjestelmä löytää todennäköisemmin relevanttia tietoa, jos se sijaitsee dokumentin alku- tai loppusivuilla.
Läpimurrosta tekee merkittävän se, että tutkijat pystyivät paikantamaan vinouman juurisyyn itse mallin arkkitehtuuriin. "Nämä mallit ovat mustia laatikoita, joten LLM:n käyttäjänä et todennäköisesti tiedä, että positionaalinen vinouma voi aiheuttaa mallillesi epäjohdonmukaisuutta", selittää Xinyi Wu, MIT:n jatko-opiskelija ja tutkimuksen pääkirjoittaja.
Ryhmän kehittämä graafipohjainen teoreettinen viitekehys analysoi, miten tieto kulkee LLM-arkkitehtuurin läpi. Analyysi osoitti, että tietyt suunnitteluratkaisut – erityisesti kausaalinen maskaus ja huomiointimekanismit – aiheuttavat malleihin sisäänrakennetun vinouman kohti syötteen alkua, vaikka tällaista vinoumaa ei esiintyisi opetusaineistossa.
"Vaikka usein onkin totta, että lauseen alku- ja loppusanat ovat tärkeämpiä, LLM:ää käytettäessä tehtävissä, jotka eivät ole luonnollisen kielen tuottamista, kuten järjestyksen määrittelyssä tai tiedonhakutehtävissä, nämä vinoumat voivat olla erittäin haitallisia", Wu huomauttaa.
Tämä tutkimus täydentää muita tuoreita havaintoja, joiden mukaan LLM:t sisältävät monenlaisia vinoumia. Princetonin yliopiston erillisessä tutkimuksessa havaittiin, että jopa eksplisiittisesti puolueettomiksi suunnitellut LLM:t muodostavat silti implisiittisiä vinoumia – samankaltaisia kuin ihmisillä, jotka tietoisesti torjuvat stereotypioita mutta tiedostamattaan ylläpitävät niitä. Psykologiasta inspiroituneilla mittareilla tutkijat havaitsivat laajalle levinneitä stereotypiavinoomia rodun, sukupuolen, uskonnon ja terveyden osa-alueilla kahdeksassa arvojohdetussa mallissa.
MIT:n löydökset tarjoavat sen, mitä Stanfordin professori Amin Saberi kutsuu "harvinaiseksi teoreettiseksi näkökulmaksi transformer-mallin huomiointimekanismin ytimeen", tarjoten sekä matemaattista selkeyttä että käytännön oivalluksia todellisiin järjestelmiin. Kun LLM-mallit integroituvat yhä tärkeämpiin sovelluksiin, näiden sisäänrakennettujen vinoumien ymmärtäminen ja korjaaminen on olennaista reilujen ja luotettavien tekoälyteknologioiden kehittämiseksi.