Et hold ledet af ph.d.-studerende Sukjun Hwang samt professorerne Brandon Wang og Albert Gu ved Carnegie Mellon University har udviklet en banebrydende AI-arkitektur kaldet H-Net, der kan revolutionere måden, sprogmodeller behandler tekst og anden sekventiel data på.
Traditionelle sprogmodeller er afhængige af tokenisering – et forbehandlingsskridt, hvor tekst opdeles i mindre enheder efter faste regler. Denne tilgang skaber grundlæggende begrænsninger, især for sprog uden klare ordgrænser og specialiserede domæner som genomik. H-Net eliminerer denne begrænsning ved at implementere en dynamisk chunking-mekanisme, der automatisk lærer den mest effektive måde at segmentere tekst på under træningen.
Forskerholdets artikel, offentliggjort på arXiv den 10. juli og opdateret den 15. juli 2025, viser, at H-Net opnår næsten fire gange bedre dataeffektivitet ved behandling af DNA-sekvenser sammenlignet med konventionelle metoder. Systemet præsterer også bedre på tværs af flere sprog, med særligt stærke resultater for kinesisk og programmeringskode.
Det, der gør H-Net revolutionerende, er dets evne til at lære indholds- og kontekstafhængige segmenteringsstrategier uden eksplicit supervision. Modellen arbejder på byteniveau og inkorporerer en hierarkisk netværksstruktur, som kan gentages i flere lag, hvilket gør det muligt at modellere forskellige abstraktionsniveauer. Denne tilgang gør det muligt for H-Net at matche ydeevnen af token-baserede Transformere, der er dobbelt så store.
Ud over sprogbehandling åbner H-Net muligheder for at behandle kontinuerte sekvenser som lyd og video, hvilket potentielt kan muliggøre bedre multimodale AI-systemer. Forskerne har gjort deres kode offentligt tilgængelig på GitHub, så andre forskere og udviklere kan bygge videre på deres arbejde.
"At overvinde tokenisering handler ikke om tokenizere, men om at lære abstraktioner," skrev Albert Gu i et blogindlæg, hvor han forklarede projektet. "At opdage et værktøj, der kan dette, vil åbne op for nye muligheder." Efterhånden som AI-systemer fortsætter med at udvikle sig, repræsenterer H-Net et vigtigt skridt mod mere fleksible, effektive og kapable modeller, der bedre kan forstå kompleksiteten i menneskesprog og anden sekventiel data.