menu
close

MIT Descoperă Puterea Ascunsă a Tokenizerelor Rețelelor Neuronale

Cercetătorii de la MIT au descoperit că tokenizerele rețelelor neuronale pot genera și edita imagini fără a folosi generatori tradiționali, conform unui anunț din 22 iulie 2025. Studiul revoluționar, prezentat la ICML 2025, arată că manipularea tokenilor individuali în tokenizere 1D produce modificări vizuale identificabile în imagini, permițând editarea eficientă a imaginilor cu costuri computaționale semnificativ reduse. Această abordare utilizează un sistem tokenizer-decoder ghidat de CLIP pentru editare și generare de imagini pe baza textului.
MIT Descoperă Puterea Ascunsă a Tokenizerelor Rețelelor Neuronale

O echipă de cercetători de la MIT a dezvăluit că anumite componente ale rețelelor neuronale, considerate anterior doar encodere, pot realiza de fapt sarcini sofisticate de generare și manipulare a imaginilor pe cont propriu.

Cercetarea, prezentată la Conferința Internațională de Învățare Automată (ICML 2025) din Vancouver, demonstrează că tokenizerele unidimensionale (1D)—rețele neuronale care comprimă informația vizuală în secvențe de tokeni discreți—dețin capacități generative neexploatate, eliminând necesitatea unor generatoare de imagini tradiționale.

Sub conducerea doctorandului Lukas Lao Beyer de la Laboratory for Information and Decision Systems (LIDS) al MIT, echipa a descoperit că manipularea tokenilor individuali din aceste reprezentări comprimate produce schimbări specifice și previzibile în imaginile rezultate. „Este un rezultat fără precedent, deoarece nimeni nu observase până acum modificări vizuale identificabile prin manipularea tokenilor”, a explicat Lao Beyer.

Cercetătorii au constatat că înlocuirea unui singur token poate transforma calitatea imaginii de la rezoluție scăzută la înaltă, poate ajusta gradul de blur al fundalului, modifica nivelul de luminozitate sau chiar schimba poziția obiectelor din imagine. Această descoperire deschide noi posibilități pentru editarea eficientă a imaginilor prin manipularea directă a tokenilor.

Mai mult, echipa MIT a demonstrat o abordare inovatoare de generare a imaginilor care necesită doar un tokenizer 1D și un decoder (numit și detokenizer), ghidate de o rețea neuronală standard numită CLIP. Acest sistem poate converti un tip de imagine în altul—de exemplu, transformând un panda roșu într-un tigru—sau poate genera imagini complet noi pornind de la valori aleatorii ale tokenilor, optimizate iterativ.

Abordarea se bazează pe o descoperire din 2024 a cercetătorilor de la Universitatea Tehnică din München și ByteDance, care au dezvoltat o metodă de comprimare a imaginilor de 256×256 pixeli în doar 32 de tokeni, comparativ cu cei 256 de tokeni folosiți de tokenizerele anterioare. Inovația MIT demonstrează că aceste reprezentări extrem de comprimate conțin informații semantice bogate, ce pot fi exploatate pentru aplicații creative.

Echipa de cercetare îi include pe Tianhong Li de la Computer Science and Artificial Intelligence Laboratory (CSAIL) al MIT, Xinlei Chen de la Facebook AI Research, profesorul MIT Sertac Karaman și profesorul asociat MIT Kaiming He. Concluziile lor sugerează un viitor mai eficient computațional pentru generarea de imagini cu ajutorul inteligenței artificiale, domeniu care se estimează că va deveni o industrie de miliarde de dolari până la sfârșitul acestui deceniu.

Source: Techxplore

Latest News