menu
close

Avanço da IA H-Net Elimina Regras Rígidas de Tokenização

Pesquisadores da Carnegie Mellon University apresentaram em 23 de julho de 2025 o H-Net, um sistema de IA revolucionário que aprende automaticamente a segmentação ideal de textos durante o treinamento, dispensando regras de tokenização pré-programadas. O sistema demonstra desempenho quase 4 vezes superior em sequências de DNA e melhorias significativas em diversos idiomas em comparação com métodos tradicionais. Essa abordagem adaptativa representa um avanço fundamental na forma como sistemas de IA compreendem e processam diferentes tipos de dados.
Avanço da IA H-Net Elimina Regras Rígidas de Tokenização

Uma equipe liderada pelo doutorando Sukjun Hwang e pelos professores Brandon Wang e Albert Gu, da Carnegie Mellon University, desenvolveu uma arquitetura de IA inovadora chamada H-Net, que pode transformar a maneira como modelos de linguagem processam textos e outros dados sequenciais.

Modelos de linguagem tradicionais dependem da tokenização — uma etapa de pré-processamento que divide o texto em unidades menores seguindo regras rígidas. Essa abordagem impõe limitações fundamentais, especialmente para idiomas sem fronteiras claras entre palavras e domínios especializados como a genômica. O H-Net elimina essa restrição ao implementar um mecanismo dinâmico de segmentação, que aprende automaticamente a forma mais eficaz de dividir o texto durante o treinamento.

O artigo dos pesquisadores, publicado no arXiv em 10 de julho e atualizado em 15 de julho de 2025, demonstra que o H-Net alcança uma eficiência de dados quase 4 vezes maior ao processar sequências de DNA em comparação com abordagens convencionais. O sistema também apresenta desempenho superior em vários idiomas, com resultados especialmente expressivos para o chinês e códigos de programação.

O que torna o H-Net revolucionário é sua capacidade de aprender estratégias de segmentação dependentes do conteúdo e do contexto sem supervisão explícita. O modelo opera em nível de byte e incorpora uma estrutura de rede hierárquica que pode ser iterada em múltiplos estágios, permitindo modelar diferentes níveis de abstração. Essa abordagem possibilita ao H-Net igualar o desempenho de Transformers baseados em tokens com o dobro do seu tamanho.

Além do processamento de linguagem, o H-Net abre possibilidades para o processamento de sequências de valores contínuos, como áudio e vídeo, potencialmente viabilizando sistemas de IA multimodais mais avançados. Os pesquisadores disponibilizaram o código publicamente no GitHub, permitindo que outros pesquisadores e desenvolvedores expandam o trabalho.

"Superar a tokenização não se trata de tokenizadores, mas de aprender abstrações", escreveu Albert Gu em uma postagem no blog explicando o projeto. "Descobrir uma ferramenta capaz disso desbloqueará novas capacidades." À medida que os sistemas de IA continuam evoluindo, o H-Net representa um passo significativo rumo a modelos mais flexíveis, eficientes e capazes de compreender melhor as complexidades da linguagem humana e de outros dados sequenciais.

Source: Theneuron

Latest News