menu
close

MIT desbloquea el poder oculto de los tokenizadores de redes neuronales

Investigadores del MIT han descubierto que los tokenizadores de redes neuronales pueden generar y editar imágenes sin necesidad de generadores tradicionales, según anunciaron el 22 de julio de 2025. La investigación, presentada en ICML 2025, demuestra que al manipular tokens individuales en tokenizadores unidimensionales se pueden producir cambios visuales identificables en imágenes, permitiendo una manipulación eficiente con costos computacionales significativamente menores. Este enfoque utiliza un sistema de tokenizador-decodificador guiado por CLIP para lograr edición y generación de imágenes guiadas por texto.
MIT desbloquea el poder oculto de los tokenizadores de redes neuronales

Un equipo de investigadores del MIT ha revelado que componentes de redes neuronales que antes se pensaba que solo funcionaban como codificadores, en realidad pueden realizar tareas sofisticadas de generación y manipulación de imágenes por sí mismos.

La investigación, presentada en la Conferencia Internacional sobre Aprendizaje Automático (ICML 2025) en Vancouver, demuestra que los tokenizadores unidimensionales (1D)—redes neuronales que comprimen información visual en secuencias de tokens discretos—poseen capacidades generativas no explotadas que eliminan la necesidad de generadores de imágenes tradicionales.

Liderados por el estudiante de posgrado Lukas Lao Beyer del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT, el equipo descubrió que manipular tokens individuales dentro de estas representaciones comprimidas produce cambios específicos y predecibles en las imágenes resultantes. "Este fue un resultado nunca antes visto, ya que nadie había observado cambios visualmente identificables al manipular tokens", explicó Lao Beyer.

Los investigadores encontraron que reemplazar un solo token podía transformar la calidad de la imagen de baja a alta resolución, ajustar el desenfoque del fondo, cambiar los niveles de brillo o incluso modificar la pose de los objetos dentro de la imagen. Este descubrimiento abre nuevas posibilidades para la edición eficiente de imágenes mediante la manipulación directa de tokens.

Aún más significativo, el equipo del MIT demostró un enfoque novedoso para la generación de imágenes que solo requiere un tokenizador 1D y un decodificador (también llamado detokenizador), guiados por una red neuronal preexistente llamada CLIP. Este sistema puede convertir un tipo de imagen en otro—por ejemplo, transformar un panda rojo en un tigre—o generar imágenes completamente nuevas a partir de valores de tokens aleatorios que se optimizan de manera iterativa.

El enfoque se basa en un avance de 2024 de investigadores de la Universidad Técnica de Múnich y ByteDance, quienes desarrollaron un método para comprimir imágenes de 256×256 píxeles en solo 32 tokens, en comparación con los 256 tokens que usaban los tokenizadores anteriores. La innovación del MIT demuestra que estas representaciones altamente comprimidas contienen información semántica rica que puede aprovecharse para aplicaciones creativas.

El equipo de investigación incluye a Tianhong Li del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, Xinlei Chen de Facebook AI Research, el profesor Sertac Karaman del MIT y el profesor asociado Kaiming He del MIT. Sus hallazgos sugieren un futuro más eficiente computacionalmente para la generación de imágenes con IA, una industria que se proyecta alcanzará un valor de miles de millones de dólares para finales de esta década.

Source: Techxplore

Latest News