menu
close

Prelomový H-Net AI odstraňuje pevné pravidlá tokenizácie

Výskumníci z Carnegie Mellon University predstavili 23. júla 2025 systém H-Net, revolučný AI systém, ktorý sa počas trénovania automaticky učí optimálne segmentovať text namiesto spoliehania sa na vopred naprogramované pravidlá tokenizácie. Systém dosahuje takmer štvornásobne lepší výkon pri spracovaní DNA sekvencií a významné zlepšenia vo viacerých jazykoch v porovnaní s tradičnými metódami. Tento adaptívny prístup k spracovaniu textu predstavuje zásadný pokrok v tom, ako AI systémy rozumejú a spracovávajú rôzne typy dát.
Prelomový H-Net AI odstraňuje pevné pravidlá tokenizácie

Tím vedený doktorandom Sukjunom Hwangom a profesormi Brandonom Wangom a Albertom Gu z Carnegie Mellon University vyvinul prelomovú AI architektúru s názvom H-Net, ktorá môže zásadne zmeniť spôsob, akým jazykové modely spracovávajú text a iné sekvenčné dáta.

Tradičné jazykové modely sa spoliehajú na tokenizáciu – predspracovateľský krok, ktorý rozdeľuje text na menšie jednotky podľa pevných pravidiel. Tento prístup prináša zásadné obmedzenia, najmä pre jazyky bez jasných hraníc medzi slovami a pre špecializované domény ako genomika. H-Net tento problém odstraňuje zavedením dynamického mechanizmu rozdeľovania, ktorý sa počas trénovania automaticky učí najefektívnejší spôsob segmentácie textu.

Podľa štúdie výskumníkov, zverejnenej na arXiv 10. júla a aktualizovanej 15. júla 2025, dosahuje H-Net pri spracovaní DNA sekvencií takmer štvornásobné zlepšenie efektivity oproti bežným prístupom. Systém tiež vykazuje vynikajúce výsledky vo viacerých jazykoch, pričom obzvlášť silné výsledky dosahuje pri čínštine a programovacom kóde.

To, čo robí H-Net revolučným, je jeho schopnosť učiť sa stratégie segmentácie závislé od obsahu a kontextu bez explicitného dohľadu. Model pracuje na úrovni bajtov a využíva hierarchickú sieťovú štruktúru, ktorú možno iterovať do viacerých úrovní, čo mu umožňuje modelovať rôzne úrovne abstrakcie. Tento prístup umožňuje H-Netu dosiahnuť výkonnosť tokenových Transformerov dvojnásobnej veľkosti.

Okrem spracovania jazyka otvára H-Net možnosti aj pre spracovanie sekvencií s kontinuálnymi hodnotami, ako je audio a video, čo potenciálne umožní lepšie multimodálne AI systémy. Výskumníci sprístupnili svoj kód verejne na GitHube, aby na ich práci mohli stavať ďalší výskumníci a vývojári.

"Prekonanie tokenizácie nie je o tokenizéroch, ale o učení sa abstrakcií," napísal Albert Gu v blogovom príspevku vysvetľujúcom projekt. "Objavenie nástroja, ktorý to dokáže, odomkne nové možnosti." Ako sa AI systémy ďalej vyvíjajú, H-Net predstavuje významný krok k flexibilnejším, efektívnejším a schopnejším modelom, ktoré lepšie porozumejú komplexnosti ľudského jazyka a ďalších sekvenčných dát.

Source: Theneuron

Latest News