Ett forskarlag vid MIT har avslöjat att neurala nätverkskomponenter som tidigare ansågs endast fungera som kodare faktiskt kan utföra avancerad bildgenerering och manipulation på egen hand.
Forskningen, som presenterades vid International Conference on Machine Learning (ICML 2025) i Vancouver, visar att endimensionella (1D) tokenizers—neurala nätverk som komprimerar visuell information till sekvenser av diskreta tokens—besitter outnyttjade generativa egenskaper som eliminerar behovet av traditionella bildgeneratorer.
Under ledning av doktoranden Lukas Lao Beyer från MIT:s Laboratory for Information and Decision Systems (LIDS) upptäckte teamet att manipulering av enskilda tokens i dessa komprimerade representationer ger specifika, förutsägbara förändringar i de resulterande bilderna. "Detta var ett aldrig tidigare skådat resultat, eftersom ingen tidigare hade observerat visuellt identifierbara förändringar från manipulation av tokens," förklarade Lao Beyer.
Forskarna fann att utbyte av enskilda tokens kunde förändra bildkvaliteten från låg till hög upplösning, justera bakgrundens oskärpa, ändra ljusstyrka eller till och med ändra posen på objekt i bilden. Denna upptäckt öppnar nya möjligheter för effektiv bildredigering genom direkt tokenmanipulation.
Ännu mer betydelsefullt är att MIT-teamet demonstrerade ett nytt tillvägagångssätt för bildgenerering som endast kräver en 1D-tokenizer och en avkodare (även kallad detokenizer), styrd av ett färdigt neuralt nätverk kallat CLIP. Systemet kan konvertera en bildtyp till en annan—till exempel förvandla en röd panda till en tiger—eller generera helt nya bilder från slumpmässiga tokenvärden som optimeras iterativt.
Metoden bygger vidare på ett genombrott från 2024 av forskare vid Tekniska universitetet i München och ByteDance, som utvecklade en metod för att komprimera 256×256-pixelsbilder till endast 32 tokens, jämfört med de 256 tokens som tidigare tokenizers använde. MIT:s innovation visar att dessa mycket komprimerade representationer innehåller rik semantisk information som kan utnyttjas för kreativa tillämpningar.
Forskarteamet inkluderar Tianhong Li från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen från Facebook AI Research, MIT-professorn Sertac Karaman och MIT:s biträdande professor Kaiming He. Deras resultat pekar på en mer beräkningseffektiv framtid för AI-bildgenerering, som förväntas bli en miljardindustri innan decenniets slut.