menu
close

MIT otkriva skrivenu moć tokenizatora neuronskih mreža

Istraživači s MIT-a otkrili su da tokenizatori neuronskih mreža mogu generirati i uređivati slike bez tradicionalnih generatora, kako je objavljeno 22. srpnja 2025. Revolucionarno istraživanje, predstavljeno na ICML-u 2025, pokazuje kako manipulacija pojedinačnim tokenima u 1D tokenizatorima može dovesti do vizualno prepoznatljivih promjena na slikama, omogućujući učinkovitu obradu slika uz znatno smanjene računalne troškove. Ovaj pristup koristi sustav tokenizator-dekoder vođen CLIP-om za uređivanje i generiranje slika prema tekstualnim uputama.
MIT otkriva skrivenu moć tokenizatora neuronskih mreža

Tim istraživača s MIT-a otkrio je da komponente neuronskih mreža, za koje se dosad smatralo da služe isključivo kao enkoderi, zapravo mogu samostalno izvoditi sofisticirane zadatke generiranja i manipulacije slikama.

Istraživanje, predstavljeno na Međunarodnoj konferenciji o strojnom učenju (ICML 2025) u Vancouveru, pokazuje da jednodimenzionalni (1D) tokenizatori—neuronske mreže koje komprimiraju vizualne informacije u nizove diskretnih tokena—posjeduju neiskorištene generativne sposobnosti koje uklanjaju potrebu za tradicionalnim generatorima slika.

Pod vodstvom doktoranda Lukasa Lao Beyera iz MIT-ovog Laboratorija za informacijske i odlučivačke sustave (LIDS), tim je otkrio da manipulacija pojedinačnim tokenima unutar ovih komprimiranih prikaza dovodi do specifičnih, predvidljivih promjena na rezultirajućim slikama. "Ovo je rezultat koji dosad nije bio viđen, jer nitko nije opažao vizualno prepoznatljive promjene manipulacijom tokenima," objasnio je Lao Beyer.

Istraživači su ustanovili da zamjena pojedinog tokena može transformirati kvalitetu slike iz niske u visoku rezoluciju, prilagoditi zamućenost pozadine, promijeniti razinu svjetline ili čak izmijeniti položaj objekata na slici. Ovo otkriće otvara nove mogućnosti za učinkovito uređivanje slika izravnom manipulacijom tokenima.

Još značajnije, MIT-ov tim demonstrirao je novi pristup generiranju slika koji zahtijeva samo 1D tokenizator i dekoder (također nazvan detokenizator), vođen gotovom neuronskom mrežom CLIP. Ovaj sustav može pretvoriti jednu vrstu slike u drugu—na primjer, crvenu pandu u tigra—ili generirati potpuno nove slike iz nasumičnih vrijednosti tokena koje se iterativno optimiziraju.

Pristup se nadovezuje na proboj iz 2024. godine istraživača s Tehničkog sveučilišta u Münchenu i ByteDancea, koji su razvili metodu za komprimiranje slika od 256×256 piksela u samo 32 tokena, u usporedbi s 256 tokena koliko su koristili prethodni tokenizatori. MIT-ova inovacija pokazuje da ovako visoko komprimirani prikazi sadrže bogate semantičke informacije koje se mogu iskoristiti za kreativne primjene.

Istraživački tim uključuje Tianhong Li iz MIT-ovog Laboratorija za računalne znanosti i umjetnu inteligenciju (CSAIL), Xinlei Chena iz Facebook AI Researcha, profesora Sertaca Karamana s MIT-a i izvanrednog profesora Kaiminga Hea s MIT-a. Njihovi rezultati sugeriraju računalno učinkovitiju budućnost generiranja slika umjetnom inteligencijom, industrije za koju se predviđa da će do kraja ovog desetljeća vrijediti milijarde dolara.

Source: Techxplore

Latest News