H-Net: AI-genombrott eliminerar rigida tokeniseringsregler

Forskare vid Carnegie Mellon University presenterade den 23 juli 2025 H-Net, ett revolutionerande AI-system som automatiskt lär sig optimal textsegmentering under träning istället för att förlita sig på förprogrammerade tokeniseringsregler. Systemet uppvisar nästan fyra gånger bättre prestanda på DNA-sekvenser och betydande förbättringar på flera språk jämfört med traditionella metoder. Detta adaptiva tillvägagångssätt för textbearbetning utgör ett grundläggande framsteg i hur AI-system förstår och hanterar olika typer av data.

Ett team lett av doktoranden Sukjun Hwang samt professorerna Brandon Wang och Albert Gu vid Carnegie Mellon University har utvecklat en banbrytande AI-arkitektur kallad H-Net, som kan förändra hur språkmodeller bearbetar text och annan sekventiell data.

Traditionella språkmodeller är beroende av tokenisering – ett förbearbetningssteg som delar upp text i mindre enheter enligt fasta regler. Detta skapar grundläggande begränsningar, särskilt för språk utan tydliga ordgränser och specialiserade områden som genomik. H-Net eliminerar denna begränsning genom att införa en dynamisk chunking-mekanism som automatiskt lär sig det mest effektiva sättet att segmentera text under träning.

Forskargruppens artikel, publicerad på arXiv den 10 juli och uppdaterad den 15 juli 2025, visar att H-Net uppnår nästan fyra gånger bättre dataeffektivitet vid bearbetning av DNA-sekvenser jämfört med konventionella metoder. Systemet uppvisar även överlägsen prestanda på flera språk, med särskilt starka resultat för kinesiska och programmeringskod.

Det som gör H-Net revolutionerande är dess förmåga att lära sig innehålls- och kontextberoende segmenteringsstrategier utan explicit övervakning. Modellen arbetar på byte-nivå och inkorporerar en hierarkisk nätverksstruktur som kan itereras i flera steg, vilket möjliggör modellering av olika abstraktionsnivåer. Detta tillvägagångssätt gör att H-Net kan matcha prestandan hos tokenbaserade Transformermodeller som är dubbelt så stora.

Utöver språkbehandling öppnar H-Net möjligheter för bearbetning av kontinuerliga sekvenser som ljud och video, vilket potentiellt möjliggör bättre multimodala AI-system. Forskarna har gjort sin kod offentligt tillgänglig på GitHub, så att andra forskare och utvecklare kan bygga vidare på deras arbete.

"Att övervinna tokenisering handlar inte om tokenizers, utan om att lära sig abstraktioner," skrev Albert Gu i ett blogginlägg där han förklarar projektet. "Att upptäcka ett verktyg som kan göra detta kommer att låsa upp nya möjligheter." I takt med att AI-system fortsätter att utvecklas representerar H-Net ett betydande steg mot mer flexibla, effektiva och kapabla modeller som bättre kan förstå komplexiteten i mänskligt språk och annan sekventiell data.

H-Net: AI-genombrott eliminerar rigida tokeniseringsregler

Latest News

Trump presenterar djärv AI-strategi för att säkra USA:s globala dominans

NVIDIA förändrar marknadsföring med OpenUSD och agentiska AI-verktyg

Google utökar Gemini 2.5-familjen med nya modeller och utvecklarverktyg

Googles AI-satellitsystem avslöjar de första bilderna av skogsbränder

Trump presenterar AI-nav för 92 miljarder dollar för att omvandla Pennsylvania

DeepMinds AI avkodar DNA:s dolda reglerande kod

NetClass lanserar nav i Singapore för att accelerera global expansion inom AI-utbildning

AI-drivet satellitsystem upptäcker små skogsbränder osynliga för andra system

AWS lanserar AgentCore-plattform för att omvandla AI-agenter i företag

Meta och AWS går samman för att driva innovation bland AI-startups

H-Net: AI-genombrott eliminerar rigida tokeniseringsregler

Related Articles

Trump presenterar djärv AI-strategi för att säkra USA:s globala dominans

NVIDIA förändrar marknadsföring med OpenUSD och agentiska AI-verktyg

Google utökar Gemini 2.5-familjen med nya modeller och utvecklarverktyg

Googles AI-satellitsystem avslöjar de första bilderna av skogsbränder

Trump presenterar AI-nav för 92 miljarder dollar för att omvandla Pennsylvania

Latest News

Trump presenterar djärv AI-strategi för att säkra USA:s globala dominans

NVIDIA förändrar marknadsföring med OpenUSD och agentiska AI-verktyg

Google utökar Gemini 2.5-familjen med nya modeller och utvecklarverktyg

Googles AI-satellitsystem avslöjar de första bilderna av skogsbränder

Trump presenterar AI-nav för 92 miljarder dollar för att omvandla Pennsylvania

DeepMinds AI avkodar DNA:s dolda reglerande kod

NetClass lanserar nav i Singapore för att accelerera global expansion inom AI-utbildning

AI-drivet satellitsystem upptäcker små skogsbränder osynliga för andra system

AWS lanserar AgentCore-plattform för att omvandla AI-agenter i företag

Meta och AWS går samman för att driva innovation bland AI-startups