Une équipe de chercheurs du MIT a révélé que des composantes de réseaux neuronaux, auparavant considérées uniquement comme des encodeurs, sont en réalité capables d’effectuer des tâches avancées de génération et de manipulation d’images de façon autonome.
La recherche, présentée à la Conférence internationale sur l’apprentissage automatique (ICML 2025) à Vancouver, démontre que les tokenizeurs unidimensionnels (1D)—des réseaux neuronaux qui compressent l’information visuelle en séquences de tokens discrets—possèdent des capacités génératives insoupçonnées, éliminant le besoin de générateurs d’images traditionnels.
Dirigée par Lukas Lao Beyer, étudiant diplômé du Laboratoire des systèmes d’information et de décision (LIDS) du MIT, l’équipe a découvert que la manipulation de tokens individuels dans ces représentations compressées produit des changements spécifiques et prévisibles dans les images générées. « C’est un résultat inédit, car personne n’avait observé de modifications visuellement identifiables en manipulant les tokens », a expliqué Lao Beyer.
Les chercheurs ont constaté que le remplacement d’un seul token pouvait transformer la qualité d’une image de basse à haute résolution, ajuster le flou de l’arrière-plan, modifier la luminosité ou même changer la pose d’objets dans l’image. Cette découverte ouvre de nouvelles possibilités pour l’édition efficace d’images via la manipulation directe des tokens.
Plus encore, l’équipe du MIT a démontré une nouvelle approche de génération d’images nécessitant uniquement un tokenizeur 1D et un décodeur (aussi appelé détokéniseur), guidés par un réseau neuronal pré-entraîné appelé CLIP. Ce système peut convertir un type d’image en un autre—par exemple, transformer un panda roux en tigre—ou générer de nouvelles images à partir de valeurs de tokens aléatoires optimisées de façon itérative.
Cette méthode s’appuie sur une percée réalisée en 2024 par des chercheurs de la Technical University of Munich et de ByteDance, qui ont mis au point une technique pour compresser des images de 256×256 pixels en seulement 32 tokens, contre 256 tokens habituellement utilisés par les tokenizeurs précédents. L’innovation du MIT démontre que ces représentations hautement compressées contiennent une richesse sémantique exploitable pour des applications créatives.
L’équipe de recherche inclut Tianhong Li du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT, Xinlei Chen de Facebook AI Research, le professeur Sertac Karaman du MIT et le professeur associé Kaiming He du MIT. Leurs résultats laissent entrevoir un avenir beaucoup plus efficace sur le plan informatique pour la génération d’images par l’IA, un secteur qui devrait atteindre une valeur de plusieurs milliards de dollars d’ici la fin de la décennie.