Pinangunahan ng PhD student na si Sukjun Hwang at mga propesor na sina Brandon Wang at Albert Gu mula sa Carnegie Mellon University ang pagbuo ng makabagong AI architecture na tinatawag na H-Net, na maaaring magbago sa paraan ng pagproseso ng mga language model sa teksto at iba pang sunud-sunod na datos.
Karaniwan, umaasa ang mga language model sa tokenization—isang pre-processing na hakbang kung saan hinahati ang teksto sa maliliit na yunit ayon sa mahigpit na panuntunan. Nagdudulot ito ng mga limitasyon, lalo na para sa mga wikang walang malinaw na hangganan ng mga salita at sa mga espesyalisadong larangan tulad ng genomics. Inaalis ng H-Net ang hadlang na ito sa pamamagitan ng dynamic chunking mechanism na awtomatikong natututo ng pinakamabisang paraan ng paghahati ng teksto habang nagsasanay.
Ayon sa papel ng mga mananaliksik na inilathala sa arXiv noong Hulyo 10 at in-update noong Hulyo 15, 2025, nakamit ng H-Net ang halos 4 na beses na pagbuti sa data efficiency sa pagproseso ng DNA sequences kumpara sa mga karaniwang pamamaraan. Ipinakita rin ng sistema ang mas mataas na performance sa iba't ibang wika, lalo na sa Chinese at programming code.
Ang nagpaparebolusyonaryo sa H-Net ay ang kakayahan nitong matutunan ang content at context-dependent na mga estratehiya ng segmentation nang walang tahasang paggabay. Gumagana ang modelo sa byte level at gumagamit ng hierarchical network structure na maaaring ulitin sa maraming yugto, kaya nitong imodelo ang iba't ibang antas ng abstraction. Sa ganitong paraan, naitapat ng H-Net ang performance ng mga token-based Transformer na doble ang laki nito.
Higit pa sa language processing, binubuksan ng H-Net ang posibilidad ng mas mahusay na pagproseso ng mga continuous-valued sequence tulad ng audio at video, na maaaring magdulot ng mas mahusay na multimodal AI systems. Ginawang open-source ng mga mananaliksik ang kanilang code sa GitHub upang magamit at mapalawak pa ng ibang mga mananaliksik at developer.
"Ang pagtagumpayan ang tokenization ay hindi tungkol sa mga tokenizer, kundi tungkol sa pagkatuto ng mga abstraction," ayon kay Albert Gu sa isang blog post na nagpapaliwanag ng proyekto. "Ang pagtuklas ng kasangkapang kayang gawin ito ay magbubukas ng mga bagong kakayahan." Habang patuloy na umuunlad ang mga AI system, ang H-Net ay isang mahalagang hakbang tungo sa mas flexible, episyente, at makapangyarihang mga modelo na mas mahusay na makakaunawa sa komplikasyon ng wikang pantao at iba pang sunud-sunod na datos.