Uma equipa liderada pelo estudante de doutoramento Sukjun Hwang e pelos professores Brandon Wang e Albert Gu, da Universidade Carnegie Mellon, desenvolveu uma arquitetura de IA inovadora chamada H-Net, que poderá transformar a forma como os modelos de linguagem processam texto e outros dados sequenciais.
Os modelos de linguagem tradicionais dependem da tokenização — um passo de pré-processamento que divide o texto em unidades mais pequenas segundo regras rígidas. Esta abordagem cria limitações fundamentais, especialmente para línguas sem fronteiras claras entre palavras e domínios especializados como a genómica. O H-Net elimina esta restrição ao implementar um mecanismo dinâmico de segmentação que aprende automaticamente a forma mais eficaz de dividir o texto durante o treino.
O artigo dos investigadores, publicado no arXiv a 10 de julho e atualizado a 15 de julho de 2025, demonstra que o H-Net atinge uma melhoria de quase 4 vezes na eficiência de dados ao processar sequências de ADN, em comparação com abordagens convencionais. O sistema também apresenta desempenhos superiores em várias línguas, com resultados especialmente fortes para chinês e código de programação.
O que torna o H-Net revolucionário é a sua capacidade de aprender estratégias de segmentação dependentes do conteúdo e do contexto, sem supervisão explícita. O modelo opera ao nível do byte e incorpora uma estrutura de rede hierárquica que pode ser iterada em múltiplos estágios, permitindo-lhe modelar diferentes níveis de abstração. Esta abordagem permite ao H-Net igualar o desempenho de Transformers baseados em tokens com o dobro do seu tamanho.
Para além do processamento de linguagem, o H-Net abre possibilidades para o tratamento de sequências com valores contínuos, como áudio e vídeo, potencialmente permitindo sistemas de IA multimodais mais avançados. Os investigadores disponibilizaram o código publicamente no GitHub, permitindo que outros investigadores e programadores desenvolvam o seu trabalho.
"Ultrapassar a tokenização não se trata de tokenizadores, mas sim de aprender abstrações", escreveu Albert Gu num artigo de blogue a explicar o projeto. "Descobrir uma ferramenta capaz disto irá desbloquear novas capacidades." À medida que os sistemas de IA continuam a evoluir, o H-Net representa um passo significativo rumo a modelos mais flexíveis, eficientes e capazes, que melhor compreendem as complexidades da linguagem humana e de outros dados sequenciais.