Průlom H-Net v AI odstraňuje striktní pravidla tokenizace

Výzkumníci z Carnegie Mellon University představili 23. července 2025 systém H-Net, revoluční AI, která se během tréninku sama učí optimálně segmentovat text místo spoléhání na předem nastavená pravidla tokenizace. Systém dosahuje téměř čtyřnásobně lepšího výkonu při zpracování DNA sekvencí a významně zlepšuje výsledky napříč různými jazyky ve srovnání s tradičními metodami. Tento adaptivní přístup ke zpracování textu představuje zásadní posun v tom, jak AI systémy chápou a zpracovávají různé typy dat.

Tým vedený doktorandem Sukjunem Hwangem a profesory Brandonem Wangem a Albertem Gu z Carnegie Mellon University vyvinul průlomovou AI architekturu nazvanou H-Net, která může změnit způsob, jakým jazykové modely zpracovávají text a další sekvenční data.

Tradiční jazykové modely spoléhají na tokenizaci – předzpracovatelský krok, který rozděluje text na menší jednotky podle striktních pravidel. Tento přístup přináší zásadní omezení, zejména u jazyků bez jasných hranic slov a ve specializovaných oblastech, jako je genomika. H-Net tuto překážku odstraňuje zavedením dynamického mechanismu rozdělování, který se během tréninku automaticky učí nejefektivnější způsob segmentace textu.

Studie vědců, publikovaná na arXiv 10. července a aktualizovaná 15. července 2025, ukazuje, že H-Net dosahuje téměř čtyřnásobného zlepšení efektivity při zpracování DNA sekvencí oproti běžným přístupům. Systém také vykazuje nadprůměrné výsledky v různých jazycích, s mimořádně dobrými výsledky u čínštiny a programovacího kódu.

To, co činí H-Net revolučním, je jeho schopnost učit se strategie segmentace závislé na obsahu a kontextu bez explicitního dohledu. Model pracuje na úrovni bajtů a obsahuje hierarchickou síťovou strukturu, kterou lze iterovat do více úrovní, což mu umožňuje modelovat různé úrovně abstrakce. Tento přístup umožňuje H-Netu dosahovat výkonu tokenových Transformerů dvojnásobné velikosti.

Mimo zpracování jazyka otevírá H-Net možnosti i pro zpracování sekvencí s plynulými hodnotami, jako je audio a video, což potenciálně umožní lepší multimodální AI systémy. Výzkumníci zveřejnili svůj kód na GitHubu, takže na jejich práci mohou navazovat další vědci a vývojáři.

"Překonání tokenizace není o tokenizérech, ale o učení abstrakcí," napsal Albert Gu v blogovém příspěvku vysvětlujícím projekt. "Objevení nástroje, který to dokáže, odemkne nové možnosti." Jak se AI systémy dále vyvíjejí, H-Net představuje významný krok směrem k flexibilnějším, efektivnějším a schopnějším modelům, které lépe porozumí složitosti lidského jazyka i dalších sekvenčních dat.

Průlom H-Net v AI odstraňuje striktní pravidla tokenizace

Latest News

Trump představuje odvážnou strategii pro AI s cílem zajistit globální dominanci USA

NVIDIA mění marketing pomocí OpenUSD a agentních AI nástrojů

Google rozšiřuje rodinu Gemini 2.5 o nové modely a nástroje pro vývojáře

Satelitní systém Google FireSat odhaluje první snímky požárů

Trump představuje AI centrum za 92 miliard dolarů, které má proměnit Pensylvánii

AI od DeepMind dešifruje skrytý regulační kód DNA

NetClass otevírá pobočku v Singapuru pro urychlení globální expanze v oblasti AI vzdělávání

Satelit poháněný umělou inteligencí odhalil drobné požáry, které jiné systémy přehlédly

AWS představuje platformu AgentCore pro transformaci podnikových AI agentů

Meta a AWS spojují síly na podporu inovací AI startupů

Průlom H-Net v AI odstraňuje striktní pravidla tokenizace

Related Articles

Trump představuje odvážnou strategii pro AI s cílem zajistit globální dominanci USA

NVIDIA mění marketing pomocí OpenUSD a agentních AI nástrojů

Google rozšiřuje rodinu Gemini 2.5 o nové modely a nástroje pro vývojáře

Satelitní systém Google FireSat odhaluje první snímky požárů

Trump představuje AI centrum za 92 miliard dolarů, které má proměnit Pensylvánii

Latest News

Trump představuje odvážnou strategii pro AI s cílem zajistit globální dominanci USA

NVIDIA mění marketing pomocí OpenUSD a agentních AI nástrojů

Google rozšiřuje rodinu Gemini 2.5 o nové modely a nástroje pro vývojáře

Satelitní systém Google FireSat odhaluje první snímky požárů

Trump představuje AI centrum za 92 miliard dolarů, které má proměnit Pensylvánii

AI od DeepMind dešifruje skrytý regulační kód DNA

NetClass otevírá pobočku v Singapuru pro urychlení globální expanze v oblasti AI vzdělávání

Satelit poháněný umělou inteligencí odhalil drobné požáry, které jiné systémy přehlédly

AWS představuje platformu AgentCore pro transformaci podnikových AI agentů

Meta a AWS spojují síly na podporu inovací AI startupů