Tim koji predvode doktorand Sukjun Hwang te profesori Brandon Wang i Albert Gu sa Sveučilišta Carnegie Mellon razvio je revolucionarnu AI arhitekturu nazvanu H-Net, koja bi mogla transformirati način na koji jezični modeli obrađuju tekst i druge sekvencijalne podatke.
Tradicionalni jezični modeli oslanjaju se na tokenizaciju – predobradu koja dijeli tekst na manje jedinice prema strogim pravilima. Ovakav pristup ima temeljna ograničenja, osobito za jezike bez jasnih granica riječi i specijalizirana područja poput genomike. H-Net uklanja to ograničenje implementacijom dinamičkog mehanizma segmentacije koji tijekom treniranja automatski uči najučinkovitiji način segmentiranja teksta.
Rad istraživača, objavljen na arXivu 10. srpnja i ažuriran 15. srpnja 2025., pokazuje da H-Net postiže gotovo 4 puta veću učinkovitost obrade DNA sekvenci u odnosu na konvencionalne pristupe. Sustav također pokazuje nadmoćne rezultate na više jezika, s posebno snažnim poboljšanjima za kineski jezik i programski kod.
Ono što H-Net čini revolucionarnim jest njegova sposobnost učenja strategija segmentacije ovisnih o sadržaju i kontekstu bez eksplicitnog nadzora. Model radi na razini bajta i uključuje hijerarhijsku mrežnu strukturu koju je moguće iterirati kroz više razina, što mu omogućuje modeliranje različitih razina apstrakcije. Ovakav pristup omogućuje H-Netu da postigne performanse token-baziranih Transformera dvostruko veće veličine.
Osim obrade jezika, H-Net otvara mogućnosti za obradu sekvenci s kontinuiranim vrijednostima poput zvuka i videa, što bi moglo omogućiti naprednije multimodalne AI sustave. Istraživači su svoj kod javno objavili na GitHubu, omogućujući drugim znanstvenicima i programerima da nadograđuju njihov rad.
"Prevladavanje tokenizacije nije pitanje tokenizatora, već učenja apstrakcija", napisao je Albert Gu u blog objavi u kojoj objašnjava projekt. "Otkriće alata koji to može omogućiti otključat će nove mogućnosti." Kako se AI sustavi nastavljaju razvijati, H-Net predstavlja značajan korak prema fleksibilnijim, učinkovitijim i sposobnijim modelima koji mogu bolje razumjeti složenost ljudskog jezika i drugih sekvencijalnih podataka.