menu
close

MIT Låser Op for Skjult Kraft i Neurale Netværks-Tokenizere

Forskere fra MIT har opdaget, at neurale netværks-tokenizere kan udføre billedgenerering og -redigering uden traditionelle generatorer, som annonceret den 22. juli 2025. Det banebrydende forskningsarbejde, præsenteret på ICML 2025, viser, hvordan manipulation af individuelle tokens i 1D-tokenizere kan skabe visuelt genkendelige ændringer i billeder, hvilket muliggør effektiv billedmanipulation med markant lavere beregningsomkostninger. Tilgangen benytter et tokenizer-decoder-system styret af CLIP til tekstbaseret redigering og generering.
MIT Låser Op for Skjult Kraft i Neurale Netværks-Tokenizere

Et hold af MIT-forskere har afsløret, at neurale netværkskomponenter, der tidligere blev anset for kun at fungere som encodere, faktisk selvstændigt kan udføre avancerede opgaver inden for billedgenerering og -manipulation.

Forskningen, der blev præsenteret på International Conference on Machine Learning (ICML 2025) i Vancouver, demonstrerer, at endimensionelle (1D) tokenizere—neurale netværk, der komprimerer visuel information til sekvenser af diskrete tokens—besidder uopdagede generative evner, som eliminerer behovet for traditionelle billedgeneratorer.

Under ledelse af ph.d.-studerende Lukas Lao Beyer fra MIT's Laboratory for Information and Decision Systems (LIDS) fandt teamet ud af, at manipulation af enkelte tokens i disse komprimerede repræsentationer fører til specifikke, forudsigelige ændringer i de resulterende billeder. "Dette var et hidtil uset resultat, da ingen tidligere havde observeret visuelt genkendelige ændringer ved manipulation af tokens," forklarede Lao Beyer.

Forskerne opdagede, at udskiftning af enkelte tokens kunne forvandle billedkvalitet fra lav til høj opløsning, justere baggrundens sløring, ændre lysstyrkeniveauer eller endda ændre objekters positur i billedet. Denne opdagelse åbner nye muligheder for effektiv billedredigering gennem direkte token-manipulation.

Endnu mere bemærkelsesværdigt demonstrerede MIT-holdet en ny tilgang til billedgenerering, der kun kræver en 1D-tokenizer og en decoder (også kaldet en detokenizer), styret af et standard-neuralt netværk kaldet CLIP. Dette system kan konvertere én billedtype til en anden—for eksempel forvandle en rød panda til en tiger—eller generere helt nye billeder ud fra tilfældige token-værdier, der optimeres iterativt.

Tilgangen bygger videre på et gennembrud fra 2024 af forskere fra Technische Universität München og ByteDance, som udviklede en metode til at komprimere 256×256-pixel billeder til blot 32 tokens, sammenlignet med de 256 tokens, der typisk blev brugt af tidligere tokenizere. MIT's innovation viser, at disse stærkt komprimerede repræsentationer indeholder rige semantiske informationer, der kan udnyttes til kreative formål.

Forskerholdet inkluderer Tianhong Li fra MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen fra Facebook AI Research, MIT-professor Sertac Karaman og MIT-lektor Kaiming He. Deres resultater peger på en mere beregningseffektiv fremtid for AI-billedgenerering, som forventes at blive en milliardindustri inden udgangen af dette årti.

Source: Techxplore

Latest News