MIT Låser Op for Skjult Kraft i Neurale Netværks-Tokenizere

Forskere fra MIT har opdaget, at neurale netværks-tokenizere kan udføre billedgenerering og -redigering uden traditionelle generatorer, som annonceret den 22. juli 2025. Det banebrydende forskningsarbejde, præsenteret på ICML 2025, viser, hvordan manipulation af individuelle tokens i 1D-tokenizere kan skabe visuelt genkendelige ændringer i billeder, hvilket muliggør effektiv billedmanipulation med markant lavere beregningsomkostninger. Tilgangen benytter et tokenizer-decoder-system styret af CLIP til tekstbaseret redigering og generering.

Et hold af MIT-forskere har afsløret, at neurale netværkskomponenter, der tidligere blev anset for kun at fungere som encodere, faktisk selvstændigt kan udføre avancerede opgaver inden for billedgenerering og -manipulation.

Forskningen, der blev præsenteret på International Conference on Machine Learning (ICML 2025) i Vancouver, demonstrerer, at endimensionelle (1D) tokenizere—neurale netværk, der komprimerer visuel information til sekvenser af diskrete tokens—besidder uopdagede generative evner, som eliminerer behovet for traditionelle billedgeneratorer.

Under ledelse af ph.d.-studerende Lukas Lao Beyer fra MIT's Laboratory for Information and Decision Systems (LIDS) fandt teamet ud af, at manipulation af enkelte tokens i disse komprimerede repræsentationer fører til specifikke, forudsigelige ændringer i de resulterende billeder. "Dette var et hidtil uset resultat, da ingen tidligere havde observeret visuelt genkendelige ændringer ved manipulation af tokens," forklarede Lao Beyer.

Forskerne opdagede, at udskiftning af enkelte tokens kunne forvandle billedkvalitet fra lav til høj opløsning, justere baggrundens sløring, ændre lysstyrkeniveauer eller endda ændre objekters positur i billedet. Denne opdagelse åbner nye muligheder for effektiv billedredigering gennem direkte token-manipulation.

Endnu mere bemærkelsesværdigt demonstrerede MIT-holdet en ny tilgang til billedgenerering, der kun kræver en 1D-tokenizer og en decoder (også kaldet en detokenizer), styret af et standard-neuralt netværk kaldet CLIP. Dette system kan konvertere én billedtype til en anden—for eksempel forvandle en rød panda til en tiger—eller generere helt nye billeder ud fra tilfældige token-værdier, der optimeres iterativt.

Tilgangen bygger videre på et gennembrud fra 2024 af forskere fra Technische Universität München og ByteDance, som udviklede en metode til at komprimere 256×256-pixel billeder til blot 32 tokens, sammenlignet med de 256 tokens, der typisk blev brugt af tidligere tokenizere. MIT's innovation viser, at disse stærkt komprimerede repræsentationer indeholder rige semantiske informationer, der kan udnyttes til kreative formål.

Forskerholdet inkluderer Tianhong Li fra MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen fra Facebook AI Research, MIT-professor Sertac Karaman og MIT-lektor Kaiming He. Deres resultater peger på en mere beregningseffektiv fremtid for AI-billedgenerering, som forventes at blive en milliardindustri inden udgangen af dette årti.

MIT Låser Op for Skjult Kraft i Neurale Netværks-Tokenizere

Latest News

Trump lancerer dristig AI-strategi for at sikre USA’s globale dominans

NVIDIA revolutionerer markedsføring med OpenUSD og agentiske AI-værktøjer

Google udvider Gemini 2.5-familien med nye modeller og udviklerværktøjer

Googles AI-satellitsystem afslører de første billeder af naturbrande

Trump lancerer AI-hub til 630 milliarder kroner for at transformere Pennsylvania

DeepMinds AI afkoder DNA'ets skjulte reguleringskode

NetClass lancerer Singapore-hub for at accelerere global AI-uddannelsesekspansion

AI-drevet satellit opdager små naturbrande usynlige for andre systemer

H-Net AI-gennembrud eliminerer stive tokeniseringsregler

AWS lancerer AgentCore-platform for at transformere AI-agenter i virksomheder

MIT Låser Op for Skjult Kraft i Neurale Netværks-Tokenizere

Related Articles

NVIDIA revolutionerer markedsføring med OpenUSD og agentiske AI-værktøjer

DeepMinds AI afkoder DNA'ets skjulte reguleringskode

NetClass lancerer Singapore-hub for at accelerere global AI-uddannelsesekspansion

AI-drevet satellit opdager små naturbrande usynlige for andre systemer

H-Net AI-gennembrud eliminerer stive tokeniseringsregler

Latest News

Trump lancerer dristig AI-strategi for at sikre USA’s globale dominans

NVIDIA revolutionerer markedsføring med OpenUSD og agentiske AI-værktøjer

Google udvider Gemini 2.5-familien med nye modeller og udviklerværktøjer

Googles AI-satellitsystem afslører de første billeder af naturbrande

Trump lancerer AI-hub til 630 milliarder kroner for at transformere Pennsylvania

DeepMinds AI afkoder DNA'ets skjulte reguleringskode

NetClass lancerer Singapore-hub for at accelerere global AI-uddannelsesekspansion

AI-drevet satellit opdager små naturbrande usynlige for andre systemer

H-Net AI-gennembrud eliminerer stive tokeniseringsregler

AWS lancerer AgentCore-platform for at transformere AI-agenter i virksomheder