Isang pangkat ng mga mananaliksik mula sa MIT ang nagbunyag na ang mga bahagi ng neural network na dati'y inakalang nagsisilbing encoder lamang ay may kakayahan palang magsagawa ng masalimuot na image generation at manipulation nang mag-isa.
Ang pananaliksik, na ipinresenta sa International Conference on Machine Learning (ICML 2025) sa Vancouver, ay nagpapakita na ang mga one-dimensional (1D) tokenizer—mga neural network na nagko-compress ng visual na impormasyon sa mga sunod-sunod na discrete na token—ay may nakatagong generative na kakayahan na nag-aalis ng pangangailangan sa tradisyonal na image generators.
Pinangunahan ni Lukas Lao Beyer, isang graduate student mula sa Laboratory for Information and Decision Systems (LIDS) ng MIT, natuklasan ng grupo na ang pagmamanipula ng mga indibidwal na token sa mga compressed na representasyon ay nagdudulot ng tiyak at predictable na pagbabago sa mga larawang nabubuo. "Ito ay isang hindi pa nakikitang resulta, dahil wala pang nakapansin ng malinaw na pagbabago sa imahe mula sa pagmamanipula ng mga token," paliwanag ni Lao Beyer.
Nalaman ng mga mananaliksik na ang pagpapalit ng isang token ay maaaring magbago ng kalidad ng larawan mula mababa tungo sa mataas na resolusyon, mag-adjust ng kalabuan ng background, magpalit ng antas ng liwanag, o kahit baguhin ang posisyon ng mga bagay sa loob ng larawan. Binubuksan ng diskubreng ito ang mga bagong posibilidad para sa episyenteng pag-edit ng larawan sa pamamagitan ng direktang pagmamanipula ng token.
Mas mahalaga pa rito, ipinakita ng MIT team ang isang makabagong paraan ng image generation na nangangailangan lamang ng 1D tokenizer at decoder (tinatawag ding detokenizer), na ginagabayan ng isang neural network na tinatawag na CLIP. Kayang mag-convert ng sistemang ito ng isang uri ng larawan tungo sa iba—halimbawa, mula red panda patungong tigre—o lumikha ng ganap na bagong mga larawan mula sa random na mga token value na unti-unting ino-optimize.
Ang pamamaraang ito ay nakabatay sa isang breakthrough noong 2024 mula sa Technical University of Munich at ByteDance researchers, na nakabuo ng paraan upang i-compress ang 256×256-pixel na mga larawan sa 32 token lamang, kumpara sa 256 token na karaniwang ginagamit ng mga naunang tokenizer. Ipinapakita ng inobasyon ng MIT na ang mga highly compressed na representasyon ay naglalaman ng masaganang semantic na impormasyon na maaaring gamitin para sa malikhaing aplikasyon.
Kabilang sa research team sina Tianhong Li mula sa Computer Science and Artificial Intelligence Laboratory (CSAIL) ng MIT, Xinlei Chen mula sa Facebook AI Research, Propesor Sertac Karaman ng MIT, at Associate Professor Kaiming He ng MIT. Ipinapahiwatig ng kanilang mga natuklasan ang mas episyenteng hinaharap para sa AI image generation, na inaasahang magiging bilyong-dolyar na industriya bago matapos ang dekadang ito.