Ett team lett av doktoranden Sukjun Hwang samt professorerna Brandon Wang och Albert Gu vid Carnegie Mellon University har utvecklat en banbrytande AI-arkitektur kallad H-Net, som kan förändra hur språkmodeller bearbetar text och annan sekventiell data.
Traditionella språkmodeller är beroende av tokenisering – ett förbearbetningssteg som delar upp text i mindre enheter enligt fasta regler. Detta skapar grundläggande begränsningar, särskilt för språk utan tydliga ordgränser och specialiserade områden som genomik. H-Net eliminerar denna begränsning genom att införa en dynamisk chunking-mekanism som automatiskt lär sig det mest effektiva sättet att segmentera text under träning.
Forskargruppens artikel, publicerad på arXiv den 10 juli och uppdaterad den 15 juli 2025, visar att H-Net uppnår nästan fyra gånger bättre dataeffektivitet vid bearbetning av DNA-sekvenser jämfört med konventionella metoder. Systemet uppvisar även överlägsen prestanda på flera språk, med särskilt starka resultat för kinesiska och programmeringskod.
Det som gör H-Net revolutionerande är dess förmåga att lära sig innehålls- och kontextberoende segmenteringsstrategier utan explicit övervakning. Modellen arbetar på byte-nivå och inkorporerar en hierarkisk nätverksstruktur som kan itereras i flera steg, vilket möjliggör modellering av olika abstraktionsnivåer. Detta tillvägagångssätt gör att H-Net kan matcha prestandan hos tokenbaserade Transformermodeller som är dubbelt så stora.
Utöver språkbehandling öppnar H-Net möjligheter för bearbetning av kontinuerliga sekvenser som ljud och video, vilket potentiellt möjliggör bättre multimodala AI-system. Forskarna har gjort sin kod offentligt tillgänglig på GitHub, så att andra forskare och utvecklare kan bygga vidare på deras arbete.
"Att övervinna tokenisering handlar inte om tokenizers, utan om att lära sig abstraktioner," skrev Albert Gu i ett blogginlägg där han förklarar projektet. "Att upptäcka ett verktyg som kan göra detta kommer att låsa upp nya möjligheter." I takt med att AI-system fortsätter att utvecklas representerar H-Net ett betydande steg mot mer flexibla, effektiva och kapabla modeller som bättre kan förstå komplexiteten i mänskligt språk och annan sekventiell data.