Tagumpay ng H-Net AI: Wala Nang Mahigpit na Panuntunan sa Tokenization

Inilunsad ng mga mananaliksik mula sa Carnegie Mellon University ang H-Net noong Hulyo 23, 2025—isang rebolusyonaryong AI system na awtomatikong natututo ng pinakamabisang paraan ng paghahati ng teksto habang nagsasanay, sa halip na umasa sa mga nakaprogramang panuntunan ng tokenization. Ipinakita ng sistema ang halos 4 na beses na mas mahusay na performance sa DNA sequences at malalaking pagbuti sa iba't ibang wika kumpara sa tradisyonal na mga pamamaraan. Ang adaptibong paraan ng pagproseso ng teksto ay isang mahalagang hakbang sa pag-unlad ng kakayahan ng AI na umunawa at magproseso ng iba't ibang uri ng datos.

Pinangunahan ng PhD student na si Sukjun Hwang at mga propesor na sina Brandon Wang at Albert Gu mula sa Carnegie Mellon University ang pagbuo ng makabagong AI architecture na tinatawag na H-Net, na maaaring magbago sa paraan ng pagproseso ng mga language model sa teksto at iba pang sunud-sunod na datos.

Karaniwan, umaasa ang mga language model sa tokenization—isang pre-processing na hakbang kung saan hinahati ang teksto sa maliliit na yunit ayon sa mahigpit na panuntunan. Nagdudulot ito ng mga limitasyon, lalo na para sa mga wikang walang malinaw na hangganan ng mga salita at sa mga espesyalisadong larangan tulad ng genomics. Inaalis ng H-Net ang hadlang na ito sa pamamagitan ng dynamic chunking mechanism na awtomatikong natututo ng pinakamabisang paraan ng paghahati ng teksto habang nagsasanay.

Ayon sa papel ng mga mananaliksik na inilathala sa arXiv noong Hulyo 10 at in-update noong Hulyo 15, 2025, nakamit ng H-Net ang halos 4 na beses na pagbuti sa data efficiency sa pagproseso ng DNA sequences kumpara sa mga karaniwang pamamaraan. Ipinakita rin ng sistema ang mas mataas na performance sa iba't ibang wika, lalo na sa Chinese at programming code.

Ang nagpaparebolusyonaryo sa H-Net ay ang kakayahan nitong matutunan ang content at context-dependent na mga estratehiya ng segmentation nang walang tahasang paggabay. Gumagana ang modelo sa byte level at gumagamit ng hierarchical network structure na maaaring ulitin sa maraming yugto, kaya nitong imodelo ang iba't ibang antas ng abstraction. Sa ganitong paraan, naitapat ng H-Net ang performance ng mga token-based Transformer na doble ang laki nito.

Higit pa sa language processing, binubuksan ng H-Net ang posibilidad ng mas mahusay na pagproseso ng mga continuous-valued sequence tulad ng audio at video, na maaaring magdulot ng mas mahusay na multimodal AI systems. Ginawang open-source ng mga mananaliksik ang kanilang code sa GitHub upang magamit at mapalawak pa ng ibang mga mananaliksik at developer.

"Ang pagtagumpayan ang tokenization ay hindi tungkol sa mga tokenizer, kundi tungkol sa pagkatuto ng mga abstraction," ayon kay Albert Gu sa isang blog post na nagpapaliwanag ng proyekto. "Ang pagtuklas ng kasangkapang kayang gawin ito ay magbubukas ng mga bagong kakayahan." Habang patuloy na umuunlad ang mga AI system, ang H-Net ay isang mahalagang hakbang tungo sa mas flexible, episyente, at makapangyarihang mga modelo na mas mahusay na makakaunawa sa komplikasyon ng wikang pantao at iba pang sunud-sunod na datos.

Tagumpay ng H-Net AI: Wala Nang Mahigpit na Panuntunan sa Tokenization

Latest News

Trump Naglunsad ng Matapang na AI na Estratehiya para Siguruhin ang Pandaigdigang Paghahari ng US

Binabago ng NVIDIA ang Marketing gamit ang OpenUSD at Agentic AI Tools

Pinalawak ng Google ang Gemini 2.5 Family sa Pamamagitan ng mga Bagong Modelo at Kasangkapan para sa mga Developer

AI Satellite System ng Google, Naglabas ng Unang Mga Larawan ng Wildfire

Trump Inilunsad ang $92 Bilyong AI Hub para Baguhin ang Pennsylvania

AI ng DeepMind, Nabasa ang Nakatagong Regulasyon ng DNA

NetClass Nagbukas ng Singapore Hub para Pabilisin ang Pandaigdigang Pagpapalawak ng AI Edukasyon

AI-Powered na Satellite, Nakadiskubre ng Maliliit na Wildfire na Hindi Nakikita ng Ibang Sistema

Inilunsad ng AWS ang AgentCore Platform para Baguhin ang Enterprise AI Agents

Meta at AWS, Nagkaisa para Pabilisin ang Inobasyon ng AI Startups

Tagumpay ng H-Net AI: Wala Nang Mahigpit na Panuntunan sa Tokenization

Related Articles

Trump Naglunsad ng Matapang na AI na Estratehiya para Siguruhin ang Pandaigdigang Paghahari ng US

Binabago ng NVIDIA ang Marketing gamit ang OpenUSD at Agentic AI Tools

Pinalawak ng Google ang Gemini 2.5 Family sa Pamamagitan ng mga Bagong Modelo at Kasangkapan para sa mga Developer

AI Satellite System ng Google, Naglabas ng Unang Mga Larawan ng Wildfire

Trump Inilunsad ang $92 Bilyong AI Hub para Baguhin ang Pennsylvania

Latest News

Trump Naglunsad ng Matapang na AI na Estratehiya para Siguruhin ang Pandaigdigang Paghahari ng US

Binabago ng NVIDIA ang Marketing gamit ang OpenUSD at Agentic AI Tools

Pinalawak ng Google ang Gemini 2.5 Family sa Pamamagitan ng mga Bagong Modelo at Kasangkapan para sa mga Developer

AI Satellite System ng Google, Naglabas ng Unang Mga Larawan ng Wildfire

Trump Inilunsad ang $92 Bilyong AI Hub para Baguhin ang Pennsylvania

AI ng DeepMind, Nabasa ang Nakatagong Regulasyon ng DNA

NetClass Nagbukas ng Singapore Hub para Pabilisin ang Pandaigdigang Pagpapalawak ng AI Edukasyon

AI-Powered na Satellite, Nakadiskubre ng Maliliit na Wildfire na Hindi Nakikita ng Ibang Sistema

Inilunsad ng AWS ang AgentCore Platform para Baguhin ang Enterprise AI Agents

Meta at AWS, Nagkaisa para Pabilisin ang Inobasyon ng AI Startups