menu
close

MIT Revela Poder Oculto dos Tokenizadores de Redes Neuronais

Investigadores do MIT descobriram que os tokenizadores de redes neuronais conseguem gerar e editar imagens sem a necessidade de geradores tradicionais, conforme anunciado a 22 de julho de 2025. A investigação inovadora, apresentada na ICML 2025, demonstra que a manipulação de tokens individuais em tokenizadores unidimensionais pode produzir alterações visualmente identificáveis nas imagens, permitindo uma manipulação eficiente com custos computacionais significativamente reduzidos. Esta abordagem utiliza um sistema tokenizador-descodificador orientado pelo CLIP para alcançar edição e geração de imagens guiadas por texto.
MIT Revela Poder Oculto dos Tokenizadores de Redes Neuronais

Uma equipa de investigadores do MIT revelou que componentes de redes neuronais anteriormente considerados apenas como codificadores podem, na verdade, realizar tarefas sofisticadas de geração e manipulação de imagens de forma autónoma.

A investigação, apresentada na Conferência Internacional sobre Aprendizagem Automática (ICML 2025) em Vancouver, demonstra que tokenizadores unidimensionais (1D) — redes neuronais que comprimem informação visual em sequências de tokens discretos — possuem capacidades generativas inexploradas que eliminam a necessidade de geradores de imagens tradicionais.

Liderada pelo estudante de doutoramento Lukas Lao Beyer, do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT, a equipa descobriu que a manipulação de tokens individuais nestas representações comprimidas produz alterações específicas e previsíveis nas imagens resultantes. "Este foi um resultado nunca antes visto, já que ninguém tinha observado alterações visualmente identificáveis ao manipular tokens", explicou Lao Beyer.

Os investigadores verificaram que a substituição de um único token pode transformar a qualidade da imagem de baixa para alta resolução, ajustar o desfoque do fundo, alterar os níveis de brilho ou até modificar a pose de objetos na imagem. Esta descoberta abre novas possibilidades para edição eficiente de imagens através da manipulação direta de tokens.

Mais significativamente, a equipa do MIT demonstrou uma abordagem inovadora para a geração de imagens que requer apenas um tokenizador 1D e um descodificador (também denominado detokenizador), orientados por uma rede neuronal pré-existente chamada CLIP. Este sistema pode converter um tipo de imagem noutro — por exemplo, transformar um panda-vermelho num tigre — ou gerar imagens totalmente novas a partir de valores de tokens aleatórios que são otimizados iterativamente.

A abordagem baseia-se numa descoberta de 2024 da Universidade Técnica de Munique e de investigadores da ByteDance, que desenvolveram um método para comprimir imagens de 256×256 píxeis em apenas 32 tokens, em comparação com os 256 tokens habitualmente usados por tokenizadores anteriores. A inovação do MIT demonstra que estas representações altamente comprimidas contêm informação semântica rica que pode ser explorada para aplicações criativas.

A equipa de investigação inclui Tianhong Li do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, Xinlei Chen da Facebook AI Research, o Professor Sertac Karaman do MIT e o Professor Associado Kaiming He do MIT. As suas conclusões apontam para um futuro mais eficiente do ponto de vista computacional na geração de imagens por IA, uma área que se prevê tornar numa indústria de mil milhões de dólares até ao final desta década.

Source: Techxplore

Latest News