menu
close

H-Net: Avanço Revolucionário em IA Elimina Regras Rígidas de Tokenização

Investigadores da Universidade Carnegie Mellon apresentaram, a 23 de julho de 2025, o H-Net, um sistema de IA revolucionário que aprende automaticamente a segmentar texto de forma ideal durante o treino, em vez de depender de regras de tokenização pré-programadas. O sistema demonstra uma eficiência quase quatro vezes superior em sequências de ADN e melhorias significativas em várias línguas, comparativamente aos métodos tradicionais. Esta abordagem adaptativa ao processamento de texto representa um avanço fundamental na forma como os sistemas de IA compreendem e processam diferentes tipos de dados.
H-Net: Avanço Revolucionário em IA Elimina Regras Rígidas de Tokenização

Uma equipa liderada pelo estudante de doutoramento Sukjun Hwang e pelos professores Brandon Wang e Albert Gu, da Universidade Carnegie Mellon, desenvolveu uma arquitetura de IA inovadora chamada H-Net, que poderá transformar a forma como os modelos de linguagem processam texto e outros dados sequenciais.

Os modelos de linguagem tradicionais dependem da tokenização — um passo de pré-processamento que divide o texto em unidades mais pequenas segundo regras rígidas. Esta abordagem cria limitações fundamentais, especialmente para línguas sem fronteiras claras entre palavras e domínios especializados como a genómica. O H-Net elimina esta restrição ao implementar um mecanismo dinâmico de segmentação que aprende automaticamente a forma mais eficaz de dividir o texto durante o treino.

O artigo dos investigadores, publicado no arXiv a 10 de julho e atualizado a 15 de julho de 2025, demonstra que o H-Net atinge uma melhoria de quase 4 vezes na eficiência de dados ao processar sequências de ADN, em comparação com abordagens convencionais. O sistema também apresenta desempenhos superiores em várias línguas, com resultados especialmente fortes para chinês e código de programação.

O que torna o H-Net revolucionário é a sua capacidade de aprender estratégias de segmentação dependentes do conteúdo e do contexto, sem supervisão explícita. O modelo opera ao nível do byte e incorpora uma estrutura de rede hierárquica que pode ser iterada em múltiplos estágios, permitindo-lhe modelar diferentes níveis de abstração. Esta abordagem permite ao H-Net igualar o desempenho de Transformers baseados em tokens com o dobro do seu tamanho.

Para além do processamento de linguagem, o H-Net abre possibilidades para o tratamento de sequências com valores contínuos, como áudio e vídeo, potencialmente permitindo sistemas de IA multimodais mais avançados. Os investigadores disponibilizaram o código publicamente no GitHub, permitindo que outros investigadores e programadores desenvolvam o seu trabalho.

"Ultrapassar a tokenização não se trata de tokenizadores, mas sim de aprender abstrações", escreveu Albert Gu num artigo de blogue a explicar o projeto. "Descobrir uma ferramenta capaz disto irá desbloquear novas capacidades." À medida que os sistemas de IA continuam a evoluir, o H-Net representa um passo significativo rumo a modelos mais flexíveis, eficientes e capazes, que melhor compreendem as complexidades da linguagem humana e de outros dados sequenciais.

Source: Theneuron

Latest News