Ein Team von MIT-Forschenden hat gezeigt, dass Komponenten neuronaler Netzwerke, die bislang lediglich als Encoder betrachtet wurden, tatsächlich eigenständig komplexe Aufgaben der Bilderzeugung und -manipulation übernehmen können.
Die auf der International Conference on Machine Learning (ICML 2025) in Vancouver präsentierte Forschung belegt, dass eindimensionale (1D) Tokenizer – neuronale Netzwerke, die visuelle Informationen in Sequenzen diskreter Tokens komprimieren – über bislang ungenutzte generative Fähigkeiten verfügen, die den Einsatz herkömmlicher Bildgeneratoren überflüssig machen.
Unter der Leitung des Doktoranden Lukas Lao Beyer vom Laboratory for Information and Decision Systems (LIDS) am MIT entdeckte das Team, dass die gezielte Manipulation einzelner Tokens innerhalb dieser komprimierten Repräsentationen spezifische, vorhersehbare Veränderungen in den resultierenden Bildern hervorruft. „Dies ist ein bislang nie beobachtetes Ergebnis, da zuvor noch niemand visuell identifizierbare Veränderungen durch die Manipulation von Tokens festgestellt hatte“, erläutert Lao Beyer.
Die Forschenden fanden heraus, dass das Ersetzen einzelner Tokens die Bildqualität von niedrig zu hochauflösend verändern, die Hintergrundunschärfe anpassen, die Helligkeit regulieren oder sogar die Pose von Objekten im Bild modifizieren kann. Diese Entdeckung eröffnet neue Möglichkeiten für eine effiziente Bildbearbeitung durch direkte Token-Manipulation.
Noch bedeutsamer ist, dass das MIT-Team einen neuartigen Ansatz zur Bilderzeugung demonstrierte, der lediglich einen 1D-Tokenizer und einen Decoder (auch Detokenizer genannt) benötigt, gesteuert durch ein Standard-Neuronales Netzwerk namens CLIP. Dieses System kann einen Bildtyp in einen anderen umwandeln – beispielsweise einen Roten Panda in einen Tiger – oder völlig neue Bilder aus zufälligen Tokenwerten erzeugen, die iterativ optimiert werden.
Der Ansatz baut auf einem Durchbruch aus dem Jahr 2024 von Forschenden der Technischen Universität München und ByteDance auf, die eine Methode entwickelten, um 256×256-Pixel-Bilder in nur 32 Tokens zu komprimieren, verglichen mit den 256 Tokens, die bisherige Tokenizer typischerweise verwendeten. Die MIT-Innovation zeigt, dass diese stark komprimierten Repräsentationen reichhaltige semantische Informationen enthalten, die für kreative Anwendungen genutzt werden können.
Zum Forschungsteam gehören Tianhong Li vom Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT, Xinlei Chen von Facebook AI Research, MIT-Professor Sertac Karaman und MIT-Associate Professor Kaiming He. Ihre Ergebnisse deuten auf eine recheneffizientere Zukunft der KI-Bilderzeugung hin, die bis zum Ende dieses Jahrzehnts zu einer milliardenschweren Branche werden dürfte.