Een team onder leiding van promovendus Sukjun Hwang en professoren Brandon Wang en Albert Gu aan de Carnegie Mellon University heeft een baanbrekende AI-architectuur ontwikkeld genaamd H-Net, die de manier waarop taalmodellen tekst en andere sequentiële data verwerken, drastisch kan veranderen.
Traditionele taalmodellen zijn afhankelijk van tokenisatie—een voorbewerkingsstap waarbij tekst volgens strikte regels in kleinere eenheden wordt opgedeeld. Deze aanpak kent fundamentele beperkingen, vooral voor talen zonder duidelijke woordgrenzen en voor gespecialiseerde domeinen zoals genomica. H-Net heft deze beperking op door een dynamisch chunking-mechanisme te implementeren dat tijdens de training automatisch de meest effectieve segmentatie van tekst leert.
Het onderzoek, gepubliceerd op arXiv op 10 juli en geüpdatet op 15 juli 2025, toont aan dat H-Net bijna vier keer efficiënter met data omgaat bij het verwerken van DNA-sequenties dan conventionele methoden. Het systeem presteert ook beter in meerdere talen, met name in het Chinees en bij programmeercode.
Wat H-Net revolutionair maakt, is het vermogen om context- en inhoudsafhankelijke segmentatiestrategieën te leren zonder expliciete supervisie. Het model werkt op byte-niveau en bevat een hiërarchische netwerkstructuur die in meerdere stadia kan worden herhaald, waardoor het verschillende abstractieniveaus kan modelleren. Dankzij deze aanpak kan H-Net de prestaties evenaren van op tokens gebaseerde Transformers die twee keer zo groot zijn.
Naast taalverwerking opent H-Net mogelijkheden voor het verwerken van continue sequenties zoals audio en video, wat kan leiden tot betere multimodale AI-systemen. De onderzoekers hebben hun code openbaar gemaakt op GitHub, zodat andere onderzoekers en ontwikkelaars verder kunnen bouwen op hun werk.
"Tokenisatie overwinnen draait niet om tokenizers, maar om het leren van abstracties," schreef Albert Gu in een blogpost over het project. "Het ontdekken van een tool die dit kan, zal nieuwe mogelijkheden ontsluiten." Terwijl AI-systemen zich blijven ontwikkelen, vormt H-Net een belangrijke stap richting flexibelere, efficiëntere en krachtigere modellen die beter in staat zijn de complexiteit van menselijke taal en andere sequentiële data te begrijpen.