H-Net AI-gennembrud eliminerer stive tokeniseringsregler

Forskere fra Carnegie Mellon University præsenterede den 23. juli 2025 H-Net, et revolutionerende AI-system, der automatisk lærer optimal tekstsegmentering under træning i stedet for at være afhængig af foruddefinerede tokeniseringsregler. Systemet viser næsten fire gange bedre ydeevne på DNA-sekvenser og betydelige forbedringer på tværs af flere sprog sammenlignet med traditionelle metoder. Denne adaptive tilgang til tekstbehandling repræsenterer et grundlæggende fremskridt i, hvordan AI-systemer forstår og behandler forskellige typer data.

Et hold ledet af ph.d.-studerende Sukjun Hwang samt professorerne Brandon Wang og Albert Gu ved Carnegie Mellon University har udviklet en banebrydende AI-arkitektur kaldet H-Net, der kan revolutionere måden, sprogmodeller behandler tekst og anden sekventiel data på.

Traditionelle sprogmodeller er afhængige af tokenisering – et forbehandlingsskridt, hvor tekst opdeles i mindre enheder efter faste regler. Denne tilgang skaber grundlæggende begrænsninger, især for sprog uden klare ordgrænser og specialiserede domæner som genomik. H-Net eliminerer denne begrænsning ved at implementere en dynamisk chunking-mekanisme, der automatisk lærer den mest effektive måde at segmentere tekst på under træningen.

Forskerholdets artikel, offentliggjort på arXiv den 10. juli og opdateret den 15. juli 2025, viser, at H-Net opnår næsten fire gange bedre dataeffektivitet ved behandling af DNA-sekvenser sammenlignet med konventionelle metoder. Systemet præsterer også bedre på tværs af flere sprog, med særligt stærke resultater for kinesisk og programmeringskode.

Det, der gør H-Net revolutionerende, er dets evne til at lære indholds- og kontekstafhængige segmenteringsstrategier uden eksplicit supervision. Modellen arbejder på byteniveau og inkorporerer en hierarkisk netværksstruktur, som kan gentages i flere lag, hvilket gør det muligt at modellere forskellige abstraktionsniveauer. Denne tilgang gør det muligt for H-Net at matche ydeevnen af token-baserede Transformere, der er dobbelt så store.

Ud over sprogbehandling åbner H-Net muligheder for at behandle kontinuerte sekvenser som lyd og video, hvilket potentielt kan muliggøre bedre multimodale AI-systemer. Forskerne har gjort deres kode offentligt tilgængelig på GitHub, så andre forskere og udviklere kan bygge videre på deres arbejde.

"At overvinde tokenisering handler ikke om tokenizere, men om at lære abstraktioner," skrev Albert Gu i et blogindlæg, hvor han forklarede projektet. "At opdage et værktøj, der kan dette, vil åbne op for nye muligheder." Efterhånden som AI-systemer fortsætter med at udvikle sig, repræsenterer H-Net et vigtigt skridt mod mere fleksible, effektive og kapable modeller, der bedre kan forstå kompleksiteten i menneskesprog og anden sekventiel data.

H-Net AI-gennembrud eliminerer stive tokeniseringsregler

Latest News

Trump lancerer dristig AI-strategi for at sikre USA’s globale dominans

NVIDIA revolutionerer markedsføring med OpenUSD og agentiske AI-værktøjer

Google udvider Gemini 2.5-familien med nye modeller og udviklerværktøjer

Googles AI-satellitsystem afslører de første billeder af naturbrande

Trump lancerer AI-hub til 630 milliarder kroner for at transformere Pennsylvania

DeepMinds AI afkoder DNA'ets skjulte reguleringskode

NetClass lancerer Singapore-hub for at accelerere global AI-uddannelsesekspansion

AI-drevet satellit opdager små naturbrande usynlige for andre systemer

AWS lancerer AgentCore-platform for at transformere AI-agenter i virksomheder

Meta og AWS går sammen for at fremme innovation blandt AI-startups

H-Net AI-gennembrud eliminerer stive tokeniseringsregler

Related Articles

Trump lancerer dristig AI-strategi for at sikre USA’s globale dominans

NVIDIA revolutionerer markedsføring med OpenUSD og agentiske AI-værktøjer

Google udvider Gemini 2.5-familien med nye modeller og udviklerværktøjer

Googles AI-satellitsystem afslører de første billeder af naturbrande

Trump lancerer AI-hub til 630 milliarder kroner for at transformere Pennsylvania

Latest News

Trump lancerer dristig AI-strategi for at sikre USA’s globale dominans

NVIDIA revolutionerer markedsføring med OpenUSD og agentiske AI-værktøjer

Google udvider Gemini 2.5-familien med nye modeller og udviklerværktøjer

Googles AI-satellitsystem afslører de første billeder af naturbrande

Trump lancerer AI-hub til 630 milliarder kroner for at transformere Pennsylvania

DeepMinds AI afkoder DNA'ets skjulte reguleringskode

NetClass lancerer Singapore-hub for at accelerere global AI-uddannelsesekspansion

AI-drevet satellit opdager små naturbrande usynlige for andre systemer

AWS lancerer AgentCore-platform for at transformere AI-agenter i virksomheder

Meta og AWS går sammen for at fremme innovation blandt AI-startups