MIT Låser Upp Dolda Krafter hos Neurala Nätverks-Tokenizers

Forskare vid MIT har upptäckt att neurala nätverks-tokenizers kan utföra bildgenerering och redigering utan traditionella generatorer, enligt ett tillkännagivande den 22 juli 2025. Det banbrytande forskningsarbetet, som presenterades på ICML 2025, visar hur manipulering av enskilda tokens i endimensionella tokenizers kan ge visuellt identifierbara förändringar i bilder, vilket möjliggör effektiv bildmanipulation med avsevärt minskade beräkningskostnader. Metoden använder ett tokenizer-decoder-system styrt av CLIP för att uppnå textstyrd redigering och generering.

Ett forskarlag vid MIT har avslöjat att neurala nätverkskomponenter som tidigare ansågs endast fungera som kodare faktiskt kan utföra avancerad bildgenerering och manipulation på egen hand.

Forskningen, som presenterades vid International Conference on Machine Learning (ICML 2025) i Vancouver, visar att endimensionella (1D) tokenizers—neurala nätverk som komprimerar visuell information till sekvenser av diskreta tokens—besitter outnyttjade generativa egenskaper som eliminerar behovet av traditionella bildgeneratorer.

Under ledning av doktoranden Lukas Lao Beyer från MIT:s Laboratory for Information and Decision Systems (LIDS) upptäckte teamet att manipulering av enskilda tokens i dessa komprimerade representationer ger specifika, förutsägbara förändringar i de resulterande bilderna. "Detta var ett aldrig tidigare skådat resultat, eftersom ingen tidigare hade observerat visuellt identifierbara förändringar från manipulation av tokens," förklarade Lao Beyer.

Forskarna fann att utbyte av enskilda tokens kunde förändra bildkvaliteten från låg till hög upplösning, justera bakgrundens oskärpa, ändra ljusstyrka eller till och med ändra posen på objekt i bilden. Denna upptäckt öppnar nya möjligheter för effektiv bildredigering genom direkt tokenmanipulation.

Ännu mer betydelsefullt är att MIT-teamet demonstrerade ett nytt tillvägagångssätt för bildgenerering som endast kräver en 1D-tokenizer och en avkodare (även kallad detokenizer), styrd av ett färdigt neuralt nätverk kallat CLIP. Systemet kan konvertera en bildtyp till en annan—till exempel förvandla en röd panda till en tiger—eller generera helt nya bilder från slumpmässiga tokenvärden som optimeras iterativt.

Metoden bygger vidare på ett genombrott från 2024 av forskare vid Tekniska universitetet i München och ByteDance, som utvecklade en metod för att komprimera 256×256-pixelsbilder till endast 32 tokens, jämfört med de 256 tokens som tidigare tokenizers använde. MIT:s innovation visar att dessa mycket komprimerade representationer innehåller rik semantisk information som kan utnyttjas för kreativa tillämpningar.

Forskarteamet inkluderar Tianhong Li från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen från Facebook AI Research, MIT-professorn Sertac Karaman och MIT:s biträdande professor Kaiming He. Deras resultat pekar på en mer beräkningseffektiv framtid för AI-bildgenerering, som förväntas bli en miljardindustri innan decenniets slut.

MIT Låser Upp Dolda Krafter hos Neurala Nätverks-Tokenizers

Latest News

Trump presenterar djärv AI-strategi för att säkra USA:s globala dominans

NVIDIA förändrar marknadsföring med OpenUSD och agentiska AI-verktyg

Google utökar Gemini 2.5-familjen med nya modeller och utvecklarverktyg

Googles AI-satellitsystem avslöjar de första bilderna av skogsbränder

Trump presenterar AI-nav för 92 miljarder dollar för att omvandla Pennsylvania

DeepMinds AI avkodar DNA:s dolda reglerande kod

NetClass lanserar nav i Singapore för att accelerera global expansion inom AI-utbildning

AI-drivet satellitsystem upptäcker små skogsbränder osynliga för andra system

H-Net: AI-genombrott eliminerar rigida tokeniseringsregler

AWS lanserar AgentCore-plattform för att omvandla AI-agenter i företag

MIT Låser Upp Dolda Krafter hos Neurala Nätverks-Tokenizers

Related Articles

NVIDIA förändrar marknadsföring med OpenUSD och agentiska AI-verktyg

DeepMinds AI avkodar DNA:s dolda reglerande kod

NetClass lanserar nav i Singapore för att accelerera global expansion inom AI-utbildning

AI-drivet satellitsystem upptäcker små skogsbränder osynliga för andra system

H-Net: AI-genombrott eliminerar rigida tokeniseringsregler

Latest News

Trump presenterar djärv AI-strategi för att säkra USA:s globala dominans

NVIDIA förändrar marknadsföring med OpenUSD och agentiska AI-verktyg

Google utökar Gemini 2.5-familjen med nya modeller och utvecklarverktyg

Googles AI-satellitsystem avslöjar de första bilderna av skogsbränder

Trump presenterar AI-nav för 92 miljarder dollar för att omvandla Pennsylvania

DeepMinds AI avkodar DNA:s dolda reglerande kod

NetClass lanserar nav i Singapore för att accelerera global expansion inom AI-utbildning

AI-drivet satellitsystem upptäcker små skogsbränder osynliga för andra system

H-Net: AI-genombrott eliminerar rigida tokeniseringsregler

AWS lanserar AgentCore-plattform för att omvandla AI-agenter i företag