menu
close

Descoperire revoluționară: H-Net elimină regulile rigide de tokenizare în AI

Cercetătorii de la Universitatea Carnegie Mellon au prezentat pe 23 iulie 2025 H-Net, un sistem AI revoluționar care învață automat segmentarea optimă a textului în timpul antrenamentului, în loc să se bazeze pe reguli de tokenizare predefinite. Sistemul demonstrează o performanță de aproape 4 ori mai bună pe secvențe ADN și îmbunătățiri semnificative în mai multe limbi, comparativ cu metodele tradiționale. Această abordare adaptivă în procesarea textului reprezintă un progres fundamental în modul în care sistemele AI înțeleg și procesează diferite tipuri de date.
Descoperire revoluționară: H-Net elimină regulile rigide de tokenizare în AI

O echipă condusă de doctorandul Sukjun Hwang și profesorii Brandon Wang și Albert Gu de la Universitatea Carnegie Mellon a dezvoltat o arhitectură AI revoluționară, denumită H-Net, care ar putea transforma modul în care modelele lingvistice procesează textul și alte date secvențiale.

Modelele lingvistice tradiționale se bazează pe tokenizare — un pas de preprocesare care împarte textul în unități mai mici, conform unor reguli stricte. Această abordare impune limitări fundamentale, în special pentru limbile fără delimitări clare ale cuvintelor și pentru domenii specializate precum genomica. H-Net elimină această constrângere prin implementarea unui mecanism dinamic de segmentare, care învață automat cea mai eficientă modalitate de a segmenta textul în timpul antrenamentului.

Articolul cercetătorilor, publicat pe arXiv pe 10 iulie și actualizat pe 15 iulie 2025, demonstrează că H-Net obține o eficiență de aproape 4 ori mai mare în procesarea secvențelor ADN față de abordările convenționale. Sistemul prezintă, de asemenea, performanțe superioare în mai multe limbi, cu rezultate deosebit de bune pentru limba chineză și pentru codul de programare.

Ceea ce face H-Net cu adevărat revoluționar este capacitatea sa de a învăța strategii de segmentare dependente de conținut și context, fără supervizare explicită. Modelul operează la nivel de byte și încorporează o structură ierarhică de rețea ce poate fi iterată pe mai multe niveluri, permițând modelarea diferitelor niveluri de abstractizare. Această abordare face posibil ca H-Net să egaleze performanța Transformatoarelor bazate pe tokeni de două ori mai mari ca dimensiune.

Dincolo de procesarea limbajului, H-Net deschide noi posibilități pentru procesarea secvențelor cu valori continue, precum audio și video, putând duce la sisteme AI multimodale mai performante. Cercetătorii au pus codul la dispoziția publicului pe GitHub, permițând altor cercetători și dezvoltatori să își construiască propriile soluții pe baza acestei lucrări.

"Depășirea tokenizării nu ține de tokenizatoare, ci de învățarea abstractizărilor", a scris Albert Gu într-o postare pe blog în care explică proiectul. "Descoperirea unui instrument care poate face acest lucru va debloca noi capabilități." Pe măsură ce sistemele AI continuă să evolueze, H-Net reprezintă un pas semnificativ către modele mai flexibile, eficiente și capabile, care pot înțelege mai bine complexitatea limbajului uman și a altor date secvențiale.

Source: Theneuron

Latest News