H-Net: Avanço Revolucionário em IA Elimina Regras Rígidas de Tokenização

Investigadores da Universidade Carnegie Mellon apresentaram, a 23 de julho de 2025, o H-Net, um sistema de IA revolucionário que aprende automaticamente a segmentar texto de forma ideal durante o treino, em vez de depender de regras de tokenização pré-programadas. O sistema demonstra uma eficiência quase quatro vezes superior em sequências de ADN e melhorias significativas em várias línguas, comparativamente aos métodos tradicionais. Esta abordagem adaptativa ao processamento de texto representa um avanço fundamental na forma como os sistemas de IA compreendem e processam diferentes tipos de dados.

Uma equipa liderada pelo estudante de doutoramento Sukjun Hwang e pelos professores Brandon Wang e Albert Gu, da Universidade Carnegie Mellon, desenvolveu uma arquitetura de IA inovadora chamada H-Net, que poderá transformar a forma como os modelos de linguagem processam texto e outros dados sequenciais.

Os modelos de linguagem tradicionais dependem da tokenização — um passo de pré-processamento que divide o texto em unidades mais pequenas segundo regras rígidas. Esta abordagem cria limitações fundamentais, especialmente para línguas sem fronteiras claras entre palavras e domínios especializados como a genómica. O H-Net elimina esta restrição ao implementar um mecanismo dinâmico de segmentação que aprende automaticamente a forma mais eficaz de dividir o texto durante o treino.

O artigo dos investigadores, publicado no arXiv a 10 de julho e atualizado a 15 de julho de 2025, demonstra que o H-Net atinge uma melhoria de quase 4 vezes na eficiência de dados ao processar sequências de ADN, em comparação com abordagens convencionais. O sistema também apresenta desempenhos superiores em várias línguas, com resultados especialmente fortes para chinês e código de programação.

O que torna o H-Net revolucionário é a sua capacidade de aprender estratégias de segmentação dependentes do conteúdo e do contexto, sem supervisão explícita. O modelo opera ao nível do byte e incorpora uma estrutura de rede hierárquica que pode ser iterada em múltiplos estágios, permitindo-lhe modelar diferentes níveis de abstração. Esta abordagem permite ao H-Net igualar o desempenho de Transformers baseados em tokens com o dobro do seu tamanho.

Para além do processamento de linguagem, o H-Net abre possibilidades para o tratamento de sequências com valores contínuos, como áudio e vídeo, potencialmente permitindo sistemas de IA multimodais mais avançados. Os investigadores disponibilizaram o código publicamente no GitHub, permitindo que outros investigadores e programadores desenvolvam o seu trabalho.

"Ultrapassar a tokenização não se trata de tokenizadores, mas sim de aprender abstrações", escreveu Albert Gu num artigo de blogue a explicar o projeto. "Descobrir uma ferramenta capaz disto irá desbloquear novas capacidades." À medida que os sistemas de IA continuam a evoluir, o H-Net representa um passo significativo rumo a modelos mais flexíveis, eficientes e capazes, que melhor compreendem as complexidades da linguagem humana e de outros dados sequenciais.

H-Net: Avanço Revolucionário em IA Elimina Regras Rígidas de Tokenização

Latest News

Trump Revela Estratégia Ambiciosa para Garantir a Dominância Global dos EUA em IA

NVIDIA Revoluciona o Marketing com OpenUSD e Ferramentas de IA Agente

Google Expande a Família Gemini 2.5 com Novos Modelos e Ferramentas para Programadores

Sistema de Satélites com IA da Google Revela Primeiras Imagens de Incêndios Florestais

Trump Apresenta Centro de IA de 92 Mil Milhões de Dólares para Transformar a Pensilvânia

IA da DeepMind descodifica o código regulador oculto do ADN

NetClass Lança Hub em Singapura para Acelerar Expansão Global da Educação com IA

Satélite com Inteligência Artificial Deteta Incêndios Florestais Minúsculos Invisíveis para Outros Sistemas

AWS Apresenta Plataforma AgentCore para Transformar Agentes de IA Empresariais

Meta e AWS Unem Esforços para Impulsionar a Inovação em Startups de IA

H-Net: Avanço Revolucionário em IA Elimina Regras Rígidas de Tokenização

Related Articles

Trump Revela Estratégia Ambiciosa para Garantir a Dominância Global dos EUA em IA

NVIDIA Revoluciona o Marketing com OpenUSD e Ferramentas de IA Agente

Google Expande a Família Gemini 2.5 com Novos Modelos e Ferramentas para Programadores

Sistema de Satélites com IA da Google Revela Primeiras Imagens de Incêndios Florestais

Trump Apresenta Centro de IA de 92 Mil Milhões de Dólares para Transformar a Pensilvânia

Latest News

Trump Revela Estratégia Ambiciosa para Garantir a Dominância Global dos EUA em IA

NVIDIA Revoluciona o Marketing com OpenUSD e Ferramentas de IA Agente

Google Expande a Família Gemini 2.5 com Novos Modelos e Ferramentas para Programadores

Sistema de Satélites com IA da Google Revela Primeiras Imagens de Incêndios Florestais

Trump Apresenta Centro de IA de 92 Mil Milhões de Dólares para Transformar a Pensilvânia

IA da DeepMind descodifica o código regulador oculto do ADN

NetClass Lança Hub em Singapura para Acelerar Expansão Global da Educação com IA

Satélite com Inteligência Artificial Deteta Incêndios Florestais Minúsculos Invisíveis para Outros Sistemas

AWS Apresenta Plataforma AgentCore para Transformar Agentes de IA Empresariais

Meta e AWS Unem Esforços para Impulsionar a Inovação em Startups de IA