MIT:n tutkijaryhmä on paljastanut, että neuroverkkojen komponentit, joita aiemmin pidettiin pelkkinä koodereina, kykenevät itsenäisesti monimutkaisiin kuvien generointi- ja muokkaustehtäviin.
Vancouverissa järjestetyssä International Conference on Machine Learning (ICML 2025) -konferenssissa esitelty tutkimus osoittaa, että yksidimensionaaliset (1D) tokenisaattorit—neuroverkot, jotka tiivistävät visuaalisen informaation diskreeteiksi token-jonoiksi—sisältävät hyödyntämättömiä generatiivisia kykyjä, jotka poistavat tarpeen perinteisille kuvageneraattoreille.
MIT:n Laboratory for Information and Decision Systems (LIDS) -laboratoriossa jatko-opiskelija Lukas Lao Beyerin johdolla toiminut tiimi havaitsi, että yksittäisten tokenien manipulointi näissä tiivistetyissä esityksissä tuottaa tarkkoja ja ennustettavia muutoksia lopullisiin kuviin. "Tämä oli ennen näkemätön tulos, sillä kukaan ei ollut aiemmin havainnut visuaalisesti tunnistettavia muutoksia tokenien manipuloinnista", Lao Beyer selitti.
Tutkijat havaitsivat, että yksittäisten tokenien vaihtaminen saattoi muuttaa kuvan laatua matalasta korkearesoluutioiseksi, säätää taustan sumeutta, kirkkaustasoa tai jopa muuttaa kuvassa olevien objektien asentoa. Tämä löytö avaa uusia mahdollisuuksia tehokkaaseen kuvien editointiin suoran token-manipulaation avulla.
Merkittävämpää on, että MIT:n tiimi esitteli uudenlaisen lähestymistavan kuvien generointiin, jossa tarvitaan vain 1D-tokenisaattori ja dekooderi (eli detokenisaattori), joita ohjaa valmis neuroverkko nimeltä CLIP. Järjestelmä kykenee muuttamaan yhden kuvatyypin toiseksi—esimerkiksi muuntamaan punapandan tiikeriksi—tai generoimaan täysin uusia kuvia satunnaisista token-arvoista, joita optimoidaan iteratiivisesti.
Lähestymistapa pohjautuu Münchenin teknillisen yliopiston ja ByteDancen tutkijoiden vuonna 2024 tekemään läpimurtoon, jossa kehitettiin menetelmä tiivistää 256×256 pikselin kuvat vain 32 tokeniin, kun aiemmat tokenisaattorit käyttivät tyypillisesti 256 tokenia. MIT:n innovaatio osoittaa, että nämä erittäin tiivistetyt esitykset sisältävät runsaasti semanttista informaatiota, jota voidaan hyödyntää luovissa sovelluksissa.
Tutkimusryhmään kuuluvat Tianhong Li MIT:n Computer Science and Artificial Intelligence Laboratory (CSAIL) -laboratoriosta, Xinlei Chen Facebook AI Researchista, MIT:n professori Sertac Karaman sekä MIT:n apulaisprofessori Kaiming He. Heidän löydöksensä viittaa laskennallisesti tehokkaampaan tulevaisuuteen tekoälypohjaisessa kuvageneroinnissa, jonka odotetaan kasvavan miljardiluokan teollisuudeksi tämän vuosikymmenen loppuun mennessä.