Zespół pod kierownictwem doktoranta Sukjuna Hwanga oraz profesorów Brandona Wanga i Alberta Gu z Carnegie Mellon University opracował przełomową architekturę AI o nazwie H-Net, która może zrewolucjonizować sposób, w jaki modele językowe przetwarzają tekst i inne dane sekwencyjne.
Tradycyjne modele językowe opierają się na tokenizacji – etapie wstępnego przetwarzania, który dzieli tekst na mniejsze jednostki według sztywnych reguł. Takie podejście niesie ze sobą fundamentalne ograniczenia, zwłaszcza w przypadku języków bez wyraźnych granic wyrazów oraz w wyspecjalizowanych dziedzinach, takich jak genomika. H-Net eliminuje to ograniczenie, wprowadzając dynamiczny mechanizm dzielenia tekstu na fragmenty, który automatycznie uczy się najskuteczniejszego sposobu segmentacji podczas treningu.
W artykule naukowym opublikowanym na arXiv 10 lipca i zaktualizowanym 15 lipca 2025 roku badacze wykazali, że H-Net osiąga niemal czterokrotnie większą efektywność przetwarzania danych w analizie sekwencji DNA w porównaniu do konwencjonalnych metod. System wykazuje również przewagę w wielu językach, szczególnie w języku chińskim oraz w analizie kodu programistycznego.
To, co czyni H-Net rewolucyjnym, to zdolność do samodzielnego uczenia się strategii segmentacji zależnych od treści i kontekstu, bez konieczności jawnego nadzoru. Model działa na poziomie bajtów i wykorzystuje hierarchiczną strukturę sieci, którą można iterować na wielu poziomach, co pozwala mu modelować różne poziomy abstrakcji. Dzięki temu H-Net dorównuje wydajnością modelom Transformer opartym na tokenach, które są dwukrotnie większe.
Poza przetwarzaniem języka, H-Net otwiera nowe możliwości analizy sekwencji o wartościach ciągłych, takich jak audio czy wideo, co może przyczynić się do rozwoju lepszych, multimodalnych systemów AI. Naukowcy udostępnili swój kod publicznie na GitHubie, umożliwiając innym badaczom i deweloperom rozwijanie ich pracy.
"Pokonanie tokenizacji nie polega na samych tokenizatorach, lecz na uczeniu się abstrakcji" – napisał Albert Gu w wpisie na blogu wyjaśniającym projekt. "Odkrycie narzędzia, które to umożliwi, odblokuje nowe możliwości." W miarę jak systemy AI ewoluują, H-Net stanowi istotny krok w kierunku bardziej elastycznych, wydajnych i wszechstronnych modeli, które lepiej rozumieją złożoność ludzkiego języka i innych danych sekwencyjnych.