El MIT desbloquea el poder oculto de los tokenizadores de redes neuronales

Investigadores del MIT han descubierto que los tokenizadores de redes neuronales pueden generar y editar imágenes sin necesidad de generadores tradicionales, según anunciaron el 22 de julio de 2025. La investigación, presentada en el ICML 2025, demuestra cómo la manipulación de tokens individuales en tokenizadores unidimensionales puede producir cambios visualmente identificables en las imágenes, permitiendo una manipulación eficiente con costes computacionales significativamente reducidos. Este enfoque utiliza un sistema de tokenizador-decodificador guiado por CLIP para lograr edición y generación de imágenes orientadas por texto.

Un equipo de investigadores del MIT ha revelado que componentes de redes neuronales que antes se consideraban meros codificadores pueden, en realidad, realizar tareas sofisticadas de generación y manipulación de imágenes por sí solos.

La investigación, presentada en la Conferencia Internacional sobre Aprendizaje Automático (ICML 2025) en Vancouver, demuestra que los tokenizadores unidimensionales (1D)—redes neuronales que comprimen la información visual en secuencias de tokens discretos—poseen capacidades generativas no explotadas que eliminan la necesidad de generadores de imágenes tradicionales.

Dirigido por el estudiante de posgrado Lukas Lao Beyer del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT, el equipo descubrió que la manipulación de tokens individuales dentro de estas representaciones comprimidas produce cambios específicos y previsibles en las imágenes resultantes. "Este es un resultado nunca antes visto, ya que nadie había observado cambios visualmente identificables al manipular tokens", explicó Lao Beyer.

Los investigadores comprobaron que reemplazar un solo token podía transformar la calidad de la imagen de baja a alta resolución, ajustar el desenfoque del fondo, modificar los niveles de brillo o incluso alterar la pose de los objetos dentro de la imagen. Este hallazgo abre nuevas posibilidades para la edición eficiente de imágenes mediante la manipulación directa de tokens.

Aún más relevante, el equipo del MIT demostró un enfoque novedoso para la generación de imágenes que solo requiere un tokenizador 1D y un decodificador (también llamado detokenizador), guiados por una red neuronal estándar llamada CLIP. Este sistema puede convertir un tipo de imagen en otro—por ejemplo, transformar un panda rojo en un tigre—o generar imágenes completamente nuevas a partir de valores de tokens aleatorios que se optimizan de forma iterativa.

El método se basa en un avance de 2024 logrado por investigadores de la Universidad Técnica de Múnich y ByteDance, quienes desarrollaron una técnica para comprimir imágenes de 256×256 píxeles en solo 32 tokens, frente a los 256 tokens utilizados habitualmente por los tokenizadores anteriores. La innovación del MIT demuestra que estas representaciones altamente comprimidas contienen información semántica rica que puede aprovecharse para aplicaciones creativas.

El equipo de investigación incluye a Tianhong Li del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, Xinlei Chen de Facebook AI Research, el profesor del MIT Sertac Karaman y el profesor asociado del MIT Kaiming He. Sus hallazgos apuntan a un futuro más eficiente computacionalmente para la generación de imágenes por IA, un sector que se prevé que alcance un valor de miles de millones de dólares a finales de esta década.

El MIT desbloquea el poder oculto de los tokenizadores de redes neuronales

Latest News

Trump presenta una audaz estrategia de IA para asegurar la supremacía global de EE. UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta un centro de IA de 92.000 millones de dólares para transformar Pensilvania

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass inaugura un centro en Singapur para acelerar la expansión global de la educación con IA

Satélite impulsado por IA detecta incendios diminutos invisibles para otros sistemas

H-Net: Un avance en IA que elimina las reglas rígidas de tokenización

AWS presenta la plataforma AgentCore para transformar los agentes de IA empresariales

El MIT desbloquea el poder oculto de los tokenizadores de redes neuronales

Related Articles

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass inaugura un centro en Singapur para acelerar la expansión global de la educación con IA

Satélite impulsado por IA detecta incendios diminutos invisibles para otros sistemas

H-Net: Un avance en IA que elimina las reglas rígidas de tokenización

Latest News

Trump presenta una audaz estrategia de IA para asegurar la supremacía global de EE. UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta un centro de IA de 92.000 millones de dólares para transformar Pensilvania

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass inaugura un centro en Singapur para acelerar la expansión global de la educación con IA

Satélite impulsado por IA detecta incendios diminutos invisibles para otros sistemas

H-Net: Un avance en IA que elimina las reglas rígidas de tokenización

AWS presenta la plataforma AgentCore para transformar los agentes de IA empresariales