Un equipo de investigadores del MIT ha revelado que componentes de redes neuronales que antes se consideraban meros codificadores pueden, en realidad, realizar tareas sofisticadas de generación y manipulación de imágenes por sí solos.
La investigación, presentada en la Conferencia Internacional sobre Aprendizaje Automático (ICML 2025) en Vancouver, demuestra que los tokenizadores unidimensionales (1D)—redes neuronales que comprimen la información visual en secuencias de tokens discretos—poseen capacidades generativas no explotadas que eliminan la necesidad de generadores de imágenes tradicionales.
Dirigido por el estudiante de posgrado Lukas Lao Beyer del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT, el equipo descubrió que la manipulación de tokens individuales dentro de estas representaciones comprimidas produce cambios específicos y previsibles en las imágenes resultantes. "Este es un resultado nunca antes visto, ya que nadie había observado cambios visualmente identificables al manipular tokens", explicó Lao Beyer.
Los investigadores comprobaron que reemplazar un solo token podía transformar la calidad de la imagen de baja a alta resolución, ajustar el desenfoque del fondo, modificar los niveles de brillo o incluso alterar la pose de los objetos dentro de la imagen. Este hallazgo abre nuevas posibilidades para la edición eficiente de imágenes mediante la manipulación directa de tokens.
Aún más relevante, el equipo del MIT demostró un enfoque novedoso para la generación de imágenes que solo requiere un tokenizador 1D y un decodificador (también llamado detokenizador), guiados por una red neuronal estándar llamada CLIP. Este sistema puede convertir un tipo de imagen en otro—por ejemplo, transformar un panda rojo en un tigre—o generar imágenes completamente nuevas a partir de valores de tokens aleatorios que se optimizan de forma iterativa.
El método se basa en un avance de 2024 logrado por investigadores de la Universidad Técnica de Múnich y ByteDance, quienes desarrollaron una técnica para comprimir imágenes de 256×256 píxeles en solo 32 tokens, frente a los 256 tokens utilizados habitualmente por los tokenizadores anteriores. La innovación del MIT demuestra que estas representaciones altamente comprimidas contienen información semántica rica que puede aprovecharse para aplicaciones creativas.
El equipo de investigación incluye a Tianhong Li del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, Xinlei Chen de Facebook AI Research, el profesor del MIT Sertac Karaman y el profesor asociado del MIT Kaiming He. Sus hallazgos apuntan a un futuro más eficiente computacionalmente para la generación de imágenes por IA, un sector que se prevé que alcance un valor de miles de millones de dólares a finales de esta década.