Tým vedený doktorandem Sukjunem Hwangem a profesory Brandonem Wangem a Albertem Gu z Carnegie Mellon University vyvinul průlomovou AI architekturu nazvanou H-Net, která může změnit způsob, jakým jazykové modely zpracovávají text a další sekvenční data.
Tradiční jazykové modely spoléhají na tokenizaci – předzpracovatelský krok, který rozděluje text na menší jednotky podle striktních pravidel. Tento přístup přináší zásadní omezení, zejména u jazyků bez jasných hranic slov a ve specializovaných oblastech, jako je genomika. H-Net tuto překážku odstraňuje zavedením dynamického mechanismu rozdělování, který se během tréninku automaticky učí nejefektivnější způsob segmentace textu.
Studie vědců, publikovaná na arXiv 10. července a aktualizovaná 15. července 2025, ukazuje, že H-Net dosahuje téměř čtyřnásobného zlepšení efektivity při zpracování DNA sekvencí oproti běžným přístupům. Systém také vykazuje nadprůměrné výsledky v různých jazycích, s mimořádně dobrými výsledky u čínštiny a programovacího kódu.
To, co činí H-Net revolučním, je jeho schopnost učit se strategie segmentace závislé na obsahu a kontextu bez explicitního dohledu. Model pracuje na úrovni bajtů a obsahuje hierarchickou síťovou strukturu, kterou lze iterovat do více úrovní, což mu umožňuje modelovat různé úrovně abstrakce. Tento přístup umožňuje H-Netu dosahovat výkonu tokenových Transformerů dvojnásobné velikosti.
Mimo zpracování jazyka otevírá H-Net možnosti i pro zpracování sekvencí s plynulými hodnotami, jako je audio a video, což potenciálně umožní lepší multimodální AI systémy. Výzkumníci zveřejnili svůj kód na GitHubu, takže na jejich práci mohou navazovat další vědci a vývojáři.
"Překonání tokenizace není o tokenizérech, ale o učení abstrakcí," napsal Albert Gu v blogovém příspěvku vysvětlujícím projekt. "Objevení nástroje, který to dokáže, odemkne nové možnosti." Jak se AI systémy dále vyvíjejí, H-Net představuje významný krok směrem k flexibilnějším, efektivnějším a schopnějším modelům, které lépe porozumí složitosti lidského jazyka i dalších sekvenčních dat.