menu
close

Il MIT Sblocca il Potenziale Nascosto dei Tokenizer nelle Reti Neurali

I ricercatori del MIT hanno scoperto che i tokenizer delle reti neurali possono generare ed editare immagini senza i generatori tradizionali, come annunciato il 22 luglio 2025. La ricerca rivoluzionaria, presentata all’ICML 2025, dimostra che la manipolazione dei singoli token nei tokenizer 1D può produrre cambiamenti visivi identificabili nelle immagini, consentendo un’editing efficiente con costi computazionali notevolmente ridotti. Questo approccio utilizza un sistema tokenizer-decoder guidato da CLIP per ottenere editing e generazione di immagini guidate dal testo.
Il MIT Sblocca il Potenziale Nascosto dei Tokenizer nelle Reti Neurali

Un team di ricercatori del MIT ha rivelato che componenti delle reti neurali precedentemente considerati esclusivamente come encoder possono in realtà svolgere in autonomia sofisticati compiti di generazione e manipolazione di immagini.

La ricerca, presentata all’International Conference on Machine Learning (ICML 2025) a Vancouver, dimostra che i tokenizer monodimensionali (1D)—reti neurali che comprimono le informazioni visive in sequenze di token discreti—possiedono capacità generative inesplorate che eliminano la necessità dei generatori di immagini tradizionali.

Guidato dallo studente laureando Lukas Lao Beyer del Laboratory for Information and Decision Systems (LIDS) del MIT, il team ha scoperto che la manipolazione dei singoli token all’interno di queste rappresentazioni compresse produce cambiamenti specifici e prevedibili nelle immagini risultanti. «Questo è un risultato mai visto prima, poiché nessuno aveva osservato cambiamenti visivi identificabili manipolando i token», ha spiegato Lao Beyer.

I ricercatori hanno riscontrato che la sostituzione di un singolo token può trasformare la qualità dell’immagine da bassa ad alta risoluzione, regolare la sfocatura dello sfondo, modificare i livelli di luminosità o persino alterare la posa degli oggetti nell’immagine. Questa scoperta apre nuove possibilità per l’editing efficiente delle immagini tramite la manipolazione diretta dei token.

Ancora più significativamente, il team del MIT ha dimostrato un nuovo approccio alla generazione di immagini che richiede solo un tokenizer 1D e un decoder (detto anche detokenizer), guidati da una rete neurale pre-addestrata chiamata CLIP. Questo sistema può convertire un tipo di immagine in un altro—ad esempio trasformando un panda rosso in una tigre—oppure generare immagini completamente nuove a partire da valori di token casuali ottimizzati iterativamente.

L’approccio si basa su una scoperta del 2024 dei ricercatori della Technical University of Munich e di ByteDance, che hanno sviluppato un metodo per comprimere immagini da 256×256 pixel in soli 32 token, rispetto ai 256 token tipicamente utilizzati dai tokenizer precedenti. L’innovazione del MIT dimostra che queste rappresentazioni altamente compresse contengono informazioni semantiche ricche, sfruttabili per applicazioni creative.

Il team di ricerca comprende Tianhong Li del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT, Xinlei Chen di Facebook AI Research, il Professor Sertac Karaman del MIT e il Professore Associato Kaiming He del MIT. I loro risultati suggeriscono un futuro più efficiente dal punto di vista computazionale per la generazione di immagini tramite IA, un settore destinato a diventare un’industria da miliardi di dollari entro la fine di questo decennio.

Source: Techxplore

Latest News