menu
close

MIT odhaľuje skrytý potenciál tokenizérov neurónových sietí

Výskumníci z MIT objavili, že tokenizéry neurónových sietí dokážu generovať a upravovať obrázky bez tradičných generátorov, ako oznámili 22. júla 2025. Prelomový výskum, predstavený na ICML 2025, ukazuje, že manipulácia s jednotlivými tokenmi v jednorozmerných tokenizéroch vedie k vizuálne rozpoznateľným zmenám v obrázkoch, čo umožňuje efektívnu úpravu obrázkov s výrazne nižšími výpočtovými nákladmi. Tento prístup využíva systém tokenizér-dekodér riadený modelom CLIP na dosiahnutie úprav a generovania obrázkov na základe textu.
MIT odhaľuje skrytý potenciál tokenizérov neurónových sietí

Tím výskumníkov z MIT odhalil, že komponenty neurónových sietí, ktoré boli doteraz považované len za enkodéry, môžu samostatne vykonávať sofistikované úlohy generovania a manipulácie s obrázkami.

Výskum, predstavený na Medzinárodnej konferencii o strojovom učení (ICML 2025) vo Vancouveri, dokazuje, že jednorozmerné (1D) tokenizéry—neurónové siete, ktoré komprimujú vizuálne informácie do sekvencií diskrétnych tokenov—majú nevyužitý generačný potenciál, ktorý eliminuje potrebu tradičných generátorov obrázkov.

Pod vedením doktoranda Lukasa Lao Beyera z Laboratória pre informačné a rozhodovacie systémy (LIDS) na MIT tím zistil, že manipulácia s jednotlivými tokenmi v týchto komprimovaných reprezentáciách vedie ku konkrétnym, predvídateľným zmenám vo výsledných obrázkoch. „Toto je bezprecedentný výsledok, keďže nikto predtým nepozoroval vizuálne rozpoznateľné zmeny pri manipulácii s tokenmi,“ vysvetlil Lao Beyer.

Výskumníci zistili, že nahradenie jediného tokenu môže zmeniť kvalitu obrázka z nízkeho na vysoké rozlíšenie, upraviť rozmazanosť pozadia, zmeniť úroveň jasu alebo dokonca pozíciu objektov na obrázku. Tento objav otvára nové možnosti efektívnej úpravy obrázkov priamou manipuláciou s tokenmi.

Ešte významnejšie je, že tím z MIT demonštroval nový prístup k generovaniu obrázkov, ktorý vyžaduje iba 1D tokenizér a dekodér (nazývaný aj detokenizér), riadený bežnou neurónovou sieťou CLIP. Tento systém dokáže prevádzať jeden typ obrázka na iný—napríklad premeniť červenú pandu na tigra—alebo generovať úplne nové obrázky z náhodných hodnôt tokenov, ktoré sa postupne optimalizujú.

Prístup nadväzuje na prelomový objav z roku 2024 od výskumníkov z Technickej univerzity v Mníchove a spoločnosti ByteDance, ktorí vyvinuli metódu na kompresiu obrázkov s rozlíšením 256×256 pixelov do iba 32 tokenov, v porovnaní s 256 tokenmi používanými predchádzajúcimi tokenizérmi. Inovácia MIT ukazuje, že tieto vysoko komprimované reprezentácie obsahujú bohaté sémantické informácie, ktoré je možné využiť na kreatívne aplikácie.

Výskumný tím tvoria Tianhong Li z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen z Facebook AI Research, profesor Sertac Karaman z MIT a docent Kaiming He z MIT. Ich zistenia naznačujú efektívnejšiu budúcnosť generovania obrázkov pomocou umelej inteligencie, ktoré má do konca tohto desaťročia potenciál stať sa miliardovým odvetvím.

Source: Techxplore

Latest News