Une équipe de chercheurs du MIT a révélé que des composants de réseaux de neurones, jusque-là considérés uniquement comme des encodeurs, sont en réalité capables d’effectuer des tâches sophistiquées de génération et de manipulation d’images de manière autonome.
Les travaux, présentés lors de la Conférence internationale sur l’apprentissage automatique (ICML 2025) à Vancouver, démontrent que les tokenizers unidimensionnels (1D)—des réseaux de neurones qui compressent l’information visuelle en séquences de tokens discrets—possèdent des capacités génératives insoupçonnées, rendant obsolète le recours aux générateurs d’images traditionnels.
Sous la direction de Lukas Lao Beyer, doctorant au Laboratoire des systèmes d’information et de décision (LIDS) du MIT, l’équipe a découvert que la manipulation de tokens individuels au sein de ces représentations compressées entraîne des modifications spécifiques et prévisibles dans les images générées. « C’est un résultat inédit, car personne n’avait observé de changements visuellement identifiables en manipulant des tokens », explique Lao Beyer.
Les chercheurs ont constaté que le simple remplacement d’un token pouvait transformer la qualité d’une image de basse à haute résolution, ajuster le flou de l’arrière-plan, modifier la luminosité ou même changer la pose d’objets dans l’image. Cette découverte ouvre la voie à une édition d’images efficace grâce à la manipulation directe des tokens.
Plus encore, l’équipe du MIT a présenté une nouvelle méthode de génération d’images ne nécessitant qu’un tokenizer 1D et un décodeur (également appelé dé-tokenizer), guidés par un réseau de neurones pré-entraîné appelé CLIP. Ce système est capable de convertir un type d’image en un autre—par exemple, transformer un panda roux en tigre—ou de générer des images entièrement nouvelles à partir de valeurs de tokens aléatoires optimisées de façon itérative.
Cette approche s’appuie sur une avancée réalisée en 2024 par des chercheurs de l’Université technique de Munich et de ByteDance, qui avaient mis au point une méthode pour compresser des images de 256×256 pixels en seulement 32 tokens, contre 256 pour les tokenizers précédents. L’innovation du MIT montre que ces représentations hautement compressées recèlent une richesse sémantique exploitable pour des applications créatives.
L’équipe de recherche inclut Tianhong Li du CSAIL du MIT, Xinlei Chen de Facebook AI Research, le professeur Sertac Karaman du MIT et le professeur associé Kaiming He du MIT. Leurs résultats laissent entrevoir un avenir plus efficace sur le plan computationnel pour la génération d’images par l’IA, un secteur qui devrait peser plusieurs milliards de dollars d’ici la fin de la décennie.