menu
close

MIT Desbloqueia Poder Oculto dos Tokenizers de Redes Neurais

Pesquisadores do MIT descobriram que tokenizers de redes neurais podem realizar geração e edição de imagens sem a necessidade de geradores tradicionais, conforme anunciado em 22 de julho de 2025. A pesquisa inovadora, apresentada na ICML 2025, demonstra como a manipulação de tokens individuais em tokenizers 1D pode produzir mudanças visualmente identificáveis em imagens, permitindo manipulação eficiente com custos computacionais significativamente reduzidos. Essa abordagem utiliza um sistema tokenizer-decodificador guiado pelo CLIP para alcançar edição e geração de imagens orientadas por texto.
MIT Desbloqueia Poder Oculto dos Tokenizers de Redes Neurais

Uma equipe de pesquisadores do MIT revelou que componentes de redes neurais anteriormente considerados apenas como codificadores podem, na verdade, realizar tarefas sofisticadas de geração e manipulação de imagens de forma autônoma.

A pesquisa, apresentada na International Conference on Machine Learning (ICML 2025) em Vancouver, demonstra que tokenizers unidimensionais (1D)—redes neurais que comprimem informações visuais em sequências de tokens discretos—possuem capacidades generativas inexploradas que eliminam a necessidade de geradores de imagens tradicionais.

Liderada pelo estudante de pós-graduação Lukas Lao Beyer, do Laboratory for Information and Decision Systems (LIDS) do MIT, a equipe descobriu que a manipulação de tokens individuais nessas representações comprimidas produz mudanças específicas e previsíveis nas imagens resultantes. "Este foi um resultado inédito, pois ninguém havia observado alterações visualmente identificáveis a partir da manipulação de tokens", explicou Lao Beyer.

Os pesquisadores constataram que a substituição de um único token pode transformar a qualidade da imagem de baixa para alta resolução, ajustar o desfoque do fundo, alterar níveis de brilho ou até modificar a pose de objetos na imagem. Essa descoberta abre novas possibilidades para edição eficiente de imagens por meio da manipulação direta de tokens.

Mais significativamente, a equipe do MIT demonstrou uma abordagem inovadora para geração de imagens que requer apenas um tokenizer 1D e um decodificador (também chamado de detokenizer), guiados por uma rede neural pronta chamada CLIP. Esse sistema pode converter um tipo de imagem em outro—por exemplo, transformar um panda-vermelho em um tigre—ou gerar imagens totalmente novas a partir de valores de tokens aleatórios que são otimizados iterativamente.

A abordagem se baseia em um avanço de 2024 de pesquisadores da Universidade Técnica de Munique e da ByteDance, que desenvolveram um método para comprimir imagens de 256×256 pixels em apenas 32 tokens, em comparação com os 256 tokens normalmente usados por tokenizers anteriores. A inovação do MIT demonstra que essas representações altamente comprimidas contêm informações semânticas ricas que podem ser exploradas para aplicações criativas.

A equipe de pesquisa inclui Tianhong Li, do Computer Science and Artificial Intelligence Laboratory (CSAIL) do MIT, Xinlei Chen do Facebook AI Research, o professor do MIT Sertac Karaman e o professor associado Kaiming He. As descobertas sugerem um futuro mais eficiente computacionalmente para a geração de imagens por IA, setor que deve se tornar uma indústria bilionária até o final desta década.

Source: Techxplore

Latest News