H-Net AI-doorbraak maakt rigide tokenisatieregels overbodig

Onderzoekers van Carnegie Mellon University hebben op 23 juli 2025 H-Net gepresenteerd, een revolutionair AI-systeem dat tijdens de training automatisch leert hoe tekst optimaal gesegmenteerd moet worden, in plaats van te vertrouwen op vooraf ingestelde tokenisatieregels. Het systeem presteert bijna vier keer beter op DNA-sequenties en boekt aanzienlijke vooruitgang in meerdere talen vergeleken met traditionele methoden. Deze adaptieve benadering van tekstverwerking betekent een fundamentele stap vooruit in de manier waarop AI-systemen verschillende soorten data begrijpen en verwerken.

Een team onder leiding van promovendus Sukjun Hwang en professoren Brandon Wang en Albert Gu aan de Carnegie Mellon University heeft een baanbrekende AI-architectuur ontwikkeld genaamd H-Net, die de manier waarop taalmodellen tekst en andere sequentiële data verwerken, drastisch kan veranderen.

Traditionele taalmodellen zijn afhankelijk van tokenisatie—een voorbewerkingsstap waarbij tekst volgens strikte regels in kleinere eenheden wordt opgedeeld. Deze aanpak kent fundamentele beperkingen, vooral voor talen zonder duidelijke woordgrenzen en voor gespecialiseerde domeinen zoals genomica. H-Net heft deze beperking op door een dynamisch chunking-mechanisme te implementeren dat tijdens de training automatisch de meest effectieve segmentatie van tekst leert.

Het onderzoek, gepubliceerd op arXiv op 10 juli en geüpdatet op 15 juli 2025, toont aan dat H-Net bijna vier keer efficiënter met data omgaat bij het verwerken van DNA-sequenties dan conventionele methoden. Het systeem presteert ook beter in meerdere talen, met name in het Chinees en bij programmeercode.

Wat H-Net revolutionair maakt, is het vermogen om context- en inhoudsafhankelijke segmentatiestrategieën te leren zonder expliciete supervisie. Het model werkt op byte-niveau en bevat een hiërarchische netwerkstructuur die in meerdere stadia kan worden herhaald, waardoor het verschillende abstractieniveaus kan modelleren. Dankzij deze aanpak kan H-Net de prestaties evenaren van op tokens gebaseerde Transformers die twee keer zo groot zijn.

Naast taalverwerking opent H-Net mogelijkheden voor het verwerken van continue sequenties zoals audio en video, wat kan leiden tot betere multimodale AI-systemen. De onderzoekers hebben hun code openbaar gemaakt op GitHub, zodat andere onderzoekers en ontwikkelaars verder kunnen bouwen op hun werk.

"Tokenisatie overwinnen draait niet om tokenizers, maar om het leren van abstracties," schreef Albert Gu in een blogpost over het project. "Het ontdekken van een tool die dit kan, zal nieuwe mogelijkheden ontsluiten." Terwijl AI-systemen zich blijven ontwikkelen, vormt H-Net een belangrijke stap richting flexibelere, efficiëntere en krachtigere modellen die beter in staat zijn de complexiteit van menselijke taal en andere sequentiële data te begrijpen.

H-Net AI-doorbraak maakt rigide tokenisatieregels overbodig

Latest News

Trump presenteert gedurfde AI-strategie om Amerikaanse wereldwijde dominantie te waarborgen

NVIDIA Transformeert Marketing met OpenUSD en Agentische AI-tools

Google breidt Gemini 2.5-familie uit met nieuwe modellen en ontwikkelaarstools

Google's AI-satellietsysteem onthult eerste beelden van bosbranden

Trump Onthult AI-Hub van $92 Miljard om Pennsylvania te Transformeren

DeepMind's AI Ontcijfert Verborgen Regelcode van DNA

NetClass lanceert Singaporese hub om wereldwijde uitbreiding van AI-onderwijs te versnellen

AI-aangedreven satelliet detecteert kleine natuurbranden die voor andere systemen onzichtbaar blijven

AWS onthult AgentCore-platform om AI-agenten voor bedrijven te transformeren

Meta en AWS bundelen krachten om innovatie bij AI-startups te versnellen

H-Net AI-doorbraak maakt rigide tokenisatieregels overbodig

Related Articles

Trump presenteert gedurfde AI-strategie om Amerikaanse wereldwijde dominantie te waarborgen

NVIDIA Transformeert Marketing met OpenUSD en Agentische AI-tools

Google breidt Gemini 2.5-familie uit met nieuwe modellen en ontwikkelaarstools

Google's AI-satellietsysteem onthult eerste beelden van bosbranden

Trump Onthult AI-Hub van $92 Miljard om Pennsylvania te Transformeren

Latest News

Trump presenteert gedurfde AI-strategie om Amerikaanse wereldwijde dominantie te waarborgen

NVIDIA Transformeert Marketing met OpenUSD en Agentische AI-tools

Google breidt Gemini 2.5-familie uit met nieuwe modellen en ontwikkelaarstools

Google's AI-satellietsysteem onthult eerste beelden van bosbranden

Trump Onthult AI-Hub van $92 Miljard om Pennsylvania te Transformeren

DeepMind's AI Ontcijfert Verborgen Regelcode van DNA

NetClass lanceert Singaporese hub om wereldwijde uitbreiding van AI-onderwijs te versnellen

AI-aangedreven satelliet detecteert kleine natuurbranden die voor andere systemen onzichtbaar blijven

AWS onthult AgentCore-platform om AI-agenten voor bedrijven te transformeren

Meta en AWS bundelen krachten om innovatie bij AI-startups te versnellen