Prelomový H-Net AI odstraňuje pevné pravidlá tokenizácie

Výskumníci z Carnegie Mellon University predstavili 23. júla 2025 systém H-Net, revolučný AI systém, ktorý sa počas trénovania automaticky učí optimálne segmentovať text namiesto spoliehania sa na vopred naprogramované pravidlá tokenizácie. Systém dosahuje takmer štvornásobne lepší výkon pri spracovaní DNA sekvencií a významné zlepšenia vo viacerých jazykoch v porovnaní s tradičnými metódami. Tento adaptívny prístup k spracovaniu textu predstavuje zásadný pokrok v tom, ako AI systémy rozumejú a spracovávajú rôzne typy dát.

Tím vedený doktorandom Sukjunom Hwangom a profesormi Brandonom Wangom a Albertom Gu z Carnegie Mellon University vyvinul prelomovú AI architektúru s názvom H-Net, ktorá môže zásadne zmeniť spôsob, akým jazykové modely spracovávajú text a iné sekvenčné dáta.

Tradičné jazykové modely sa spoliehajú na tokenizáciu – predspracovateľský krok, ktorý rozdeľuje text na menšie jednotky podľa pevných pravidiel. Tento prístup prináša zásadné obmedzenia, najmä pre jazyky bez jasných hraníc medzi slovami a pre špecializované domény ako genomika. H-Net tento problém odstraňuje zavedením dynamického mechanizmu rozdeľovania, ktorý sa počas trénovania automaticky učí najefektívnejší spôsob segmentácie textu.

Podľa štúdie výskumníkov, zverejnenej na arXiv 10. júla a aktualizovanej 15. júla 2025, dosahuje H-Net pri spracovaní DNA sekvencií takmer štvornásobné zlepšenie efektivity oproti bežným prístupom. Systém tiež vykazuje vynikajúce výsledky vo viacerých jazykoch, pričom obzvlášť silné výsledky dosahuje pri čínštine a programovacom kóde.

To, čo robí H-Net revolučným, je jeho schopnosť učiť sa stratégie segmentácie závislé od obsahu a kontextu bez explicitného dohľadu. Model pracuje na úrovni bajtov a využíva hierarchickú sieťovú štruktúru, ktorú možno iterovať do viacerých úrovní, čo mu umožňuje modelovať rôzne úrovne abstrakcie. Tento prístup umožňuje H-Netu dosiahnuť výkonnosť tokenových Transformerov dvojnásobnej veľkosti.

Okrem spracovania jazyka otvára H-Net možnosti aj pre spracovanie sekvencií s kontinuálnymi hodnotami, ako je audio a video, čo potenciálne umožní lepšie multimodálne AI systémy. Výskumníci sprístupnili svoj kód verejne na GitHube, aby na ich práci mohli stavať ďalší výskumníci a vývojári.

"Prekonanie tokenizácie nie je o tokenizéroch, ale o učení sa abstrakcií," napísal Albert Gu v blogovom príspevku vysvetľujúcom projekt. "Objavenie nástroja, ktorý to dokáže, odomkne nové možnosti." Ako sa AI systémy ďalej vyvíjajú, H-Net predstavuje významný krok k flexibilnejším, efektívnejším a schopnejším modelom, ktoré lepšie porozumejú komplexnosti ľudského jazyka a ďalších sekvenčných dát.

Prelomový H-Net AI odstraňuje pevné pravidlá tokenizácie

Latest News

Trump predstavuje odvážnu stratégiu pre umelú inteligenciu s cieľom zabezpečiť globálnu dominanciu USA

NVIDIA mení marketing pomocou OpenUSD a agentických AI nástrojov

Google rozširuje rodinu Gemini 2.5 o nové modely a nástroje pre vývojárov

Satelitný systém FireSat s umelou inteligenciou od Googlu odhalil prvé zábery lesných požiarov

Trump predstavuje AI centrum za 92 miliárd dolárov na transformáciu Pennsylvánie

Umelá inteligencia DeepMind dešifruje skrytý regulačný kód DNA

NetClass otvára singapurské centrum na urýchlenie globálnej expanzie AI vzdelávania

Satelit s umelou inteligenciou odhalí malé požiare neviditeľné pre iné systémy

AWS predstavuje platformu AgentCore na transformáciu podnikových AI agentov

Meta a AWS spájajú sily na podporu inovácií AI startupov

Prelomový H-Net AI odstraňuje pevné pravidlá tokenizácie

Related Articles

Trump predstavuje odvážnu stratégiu pre umelú inteligenciu s cieľom zabezpečiť globálnu dominanciu USA

NVIDIA mení marketing pomocou OpenUSD a agentických AI nástrojov

Google rozširuje rodinu Gemini 2.5 o nové modely a nástroje pre vývojárov

Satelitný systém FireSat s umelou inteligenciou od Googlu odhalil prvé zábery lesných požiarov

Trump predstavuje AI centrum za 92 miliárd dolárov na transformáciu Pennsylvánie

Latest News

Trump predstavuje odvážnu stratégiu pre umelú inteligenciu s cieľom zabezpečiť globálnu dominanciu USA

NVIDIA mení marketing pomocou OpenUSD a agentických AI nástrojov

Google rozširuje rodinu Gemini 2.5 o nové modely a nástroje pre vývojárov

Satelitný systém FireSat s umelou inteligenciou od Googlu odhalil prvé zábery lesných požiarov

Trump predstavuje AI centrum za 92 miliárd dolárov na transformáciu Pennsylvánie

Umelá inteligencia DeepMind dešifruje skrytý regulačný kód DNA

NetClass otvára singapurské centrum na urýchlenie globálnej expanzie AI vzdelávania

Satelit s umelou inteligenciou odhalí malé požiare neviditeľné pre iné systémy

AWS predstavuje platformu AgentCore na transformáciu podnikových AI agentov

Meta a AWS spájajú sily na podporu inovácií AI startupov