H-Net AI proboj uklanja kruta pravila tokenizacije

Istraživači sa Sveučilišta Carnegie Mellon predstavili su 23. srpnja 2025. H-Net, revolucionarni AI sustav koji tijekom treniranja automatski uči optimalnu segmentaciju teksta umjesto da se oslanja na unaprijed zadana pravila tokenizacije. Sustav pokazuje gotovo 4 puta bolje rezultate na DNA sekvencama i značajna poboljšanja na više jezika u usporedbi s tradicionalnim metodama. Ovaj adaptivni pristup obradi teksta predstavlja temeljni napredak u načinu na koji AI sustavi razumiju i obrađuju različite vrste podataka.

Tim koji predvode doktorand Sukjun Hwang te profesori Brandon Wang i Albert Gu sa Sveučilišta Carnegie Mellon razvio je revolucionarnu AI arhitekturu nazvanu H-Net, koja bi mogla transformirati način na koji jezični modeli obrađuju tekst i druge sekvencijalne podatke.

Tradicionalni jezični modeli oslanjaju se na tokenizaciju – predobradu koja dijeli tekst na manje jedinice prema strogim pravilima. Ovakav pristup ima temeljna ograničenja, osobito za jezike bez jasnih granica riječi i specijalizirana područja poput genomike. H-Net uklanja to ograničenje implementacijom dinamičkog mehanizma segmentacije koji tijekom treniranja automatski uči najučinkovitiji način segmentiranja teksta.

Rad istraživača, objavljen na arXivu 10. srpnja i ažuriran 15. srpnja 2025., pokazuje da H-Net postiže gotovo 4 puta veću učinkovitost obrade DNA sekvenci u odnosu na konvencionalne pristupe. Sustav također pokazuje nadmoćne rezultate na više jezika, s posebno snažnim poboljšanjima za kineski jezik i programski kod.

Ono što H-Net čini revolucionarnim jest njegova sposobnost učenja strategija segmentacije ovisnih o sadržaju i kontekstu bez eksplicitnog nadzora. Model radi na razini bajta i uključuje hijerarhijsku mrežnu strukturu koju je moguće iterirati kroz više razina, što mu omogućuje modeliranje različitih razina apstrakcije. Ovakav pristup omogućuje H-Netu da postigne performanse token-baziranih Transformera dvostruko veće veličine.

Osim obrade jezika, H-Net otvara mogućnosti za obradu sekvenci s kontinuiranim vrijednostima poput zvuka i videa, što bi moglo omogućiti naprednije multimodalne AI sustave. Istraživači su svoj kod javno objavili na GitHubu, omogućujući drugim znanstvenicima i programerima da nadograđuju njihov rad.

"Prevladavanje tokenizacije nije pitanje tokenizatora, već učenja apstrakcija", napisao je Albert Gu u blog objavi u kojoj objašnjava projekt. "Otkriće alata koji to može omogućiti otključat će nove mogućnosti." Kako se AI sustavi nastavljaju razvijati, H-Net predstavlja značajan korak prema fleksibilnijim, učinkovitijim i sposobnijim modelima koji mogu bolje razumjeti složenost ljudskog jezika i drugih sekvencijalnih podataka.

H-Net AI proboj uklanja kruta pravila tokenizacije

Latest News

Trump Predstavlja Smjelu Strategiju za Umjetnu Inteligenciju s Ciljem Očuvanja Globalne Dominacije SAD-a

NVIDIA transformira marketing uz OpenUSD i agentične AI alate

Google proširuje obitelj Gemini 2.5 novim modelima i alatima za developere

Googleov AI satelitski sustav otkriva prve slike požara u divljini

Trump predstavlja AI centar vrijedan 92 milijarde dolara za transformaciju Pennsylvanije

DeepMindova umjetna inteligencija dešifrira skrivene regulatorne kodove DNK

NetClass otvara centar u Singapuru za ubrzanje globalne ekspanzije AI obrazovanja

Satelit s umjetnom inteligencijom otkriva male požare nevidljive drugim sustavima

AWS predstavlja AgentCore platformu za transformaciju AI agenata u poduzećima

Meta i AWS udružuju snage za poticanje inovacija AI startupa

H-Net AI proboj uklanja kruta pravila tokenizacije

Related Articles

Trump Predstavlja Smjelu Strategiju za Umjetnu Inteligenciju s Ciljem Očuvanja Globalne Dominacije SAD-a

NVIDIA transformira marketing uz OpenUSD i agentične AI alate

Google proširuje obitelj Gemini 2.5 novim modelima i alatima za developere

Googleov AI satelitski sustav otkriva prve slike požara u divljini

Trump predstavlja AI centar vrijedan 92 milijarde dolara za transformaciju Pennsylvanije

Latest News

Trump Predstavlja Smjelu Strategiju za Umjetnu Inteligenciju s Ciljem Očuvanja Globalne Dominacije SAD-a

NVIDIA transformira marketing uz OpenUSD i agentične AI alate

Google proširuje obitelj Gemini 2.5 novim modelima i alatima za developere

Googleov AI satelitski sustav otkriva prve slike požara u divljini

Trump predstavlja AI centar vrijedan 92 milijarde dolara za transformaciju Pennsylvanije

DeepMindova umjetna inteligencija dešifrira skrivene regulatorne kodove DNK

NetClass otvara centar u Singapuru za ubrzanje globalne ekspanzije AI obrazovanja

Satelit s umjetnom inteligencijom otkriva male požare nevidljive drugim sustavima

AWS predstavlja AgentCore platformu za transformaciju AI agenata u poduzećima

Meta i AWS udružuju snage za poticanje inovacija AI startupa