Een team van MIT-onderzoekers heeft aangetoond dat neurale netwerkcomponenten die voorheen uitsluitend als encoders werden gezien, in feite zelfstandig geavanceerde taken op het gebied van beeldgeneratie en -manipulatie kunnen uitvoeren.
Het onderzoek, gepresenteerd op de International Conference on Machine Learning (ICML 2025) in Vancouver, laat zien dat eendimensionale (1D) tokenizers—neurale netwerken die visuele informatie comprimeren tot reeksen van discrete tokens—onbenutte generatieve mogelijkheden bezitten die de noodzaak voor traditionele beeldgenerators overbodig maken.
Onder leiding van promovendus Lukas Lao Beyer van het Laboratory for Information and Decision Systems (LIDS) van MIT ontdekte het team dat het manipuleren van individuele tokens binnen deze gecomprimeerde representaties specifieke, voorspelbare veranderingen in de resulterende beelden oplevert. "Dit was een nooit eerder waargenomen resultaat, omdat niemand eerder visueel herkenbare veranderingen had gezien door het manipuleren van tokens," aldus Lao Beyer.
De onderzoekers ontdekten dat het vervangen van enkele tokens de beeldkwaliteit kon veranderen van lage naar hoge resolutie, de achtergrond onscherp kon maken, het helderheidsniveau kon aanpassen of zelfs de houding van objecten in het beeld kon wijzigen. Deze ontdekking opent nieuwe mogelijkheden voor efficiënte beeldbewerking door directe tokenmanipulatie.
Nog belangrijker is dat het MIT-team een nieuwe aanpak voor beeldgeneratie demonstreerde die slechts een 1D-tokenizer en een decoder (ook wel detokenizer genoemd) vereist, aangestuurd door een standaard neuraal netwerk genaamd CLIP. Dit systeem kan het ene type beeld in een ander omzetten—bijvoorbeeld een rode panda veranderen in een tijger—of volledig nieuwe beelden genereren uit willekeurige tokenwaarden die iteratief worden geoptimaliseerd.
Deze methode bouwt voort op een doorbraak uit 2024 van onderzoekers van de Technische Universiteit München en ByteDance, die een techniek ontwikkelden om 256×256-pixelbeelden te comprimeren tot slechts 32 tokens, vergeleken met de 256 tokens die eerdere tokenizers gebruikten. De MIT-innovatie toont aan dat deze sterk gecomprimeerde representaties rijke semantische informatie bevatten die kan worden benut voor creatieve toepassingen.
Het onderzoeksteam bestaat uit Tianhong Li van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van MIT, Xinlei Chen van Facebook AI Research, MIT-hoogleraar Sertac Karaman en MIT-Universitair Hoofddocent Kaiming He. Hun bevindingen wijzen op een toekomst waarin AI-beeldgeneratie veel efficiënter wordt, een markt die naar verwachting tegen het einde van dit decennium miljarden waard zal zijn.