Descoperire revoluționară: H-Net elimină regulile rigide de tokenizare în AI

Cercetătorii de la Universitatea Carnegie Mellon au prezentat pe 23 iulie 2025 H-Net, un sistem AI revoluționar care învață automat segmentarea optimă a textului în timpul antrenamentului, în loc să se bazeze pe reguli de tokenizare predefinite. Sistemul demonstrează o performanță de aproape 4 ori mai bună pe secvențe ADN și îmbunătățiri semnificative în mai multe limbi, comparativ cu metodele tradiționale. Această abordare adaptivă în procesarea textului reprezintă un progres fundamental în modul în care sistemele AI înțeleg și procesează diferite tipuri de date.

O echipă condusă de doctorandul Sukjun Hwang și profesorii Brandon Wang și Albert Gu de la Universitatea Carnegie Mellon a dezvoltat o arhitectură AI revoluționară, denumită H-Net, care ar putea transforma modul în care modelele lingvistice procesează textul și alte date secvențiale.

Modelele lingvistice tradiționale se bazează pe tokenizare — un pas de preprocesare care împarte textul în unități mai mici, conform unor reguli stricte. Această abordare impune limitări fundamentale, în special pentru limbile fără delimitări clare ale cuvintelor și pentru domenii specializate precum genomica. H-Net elimină această constrângere prin implementarea unui mecanism dinamic de segmentare, care învață automat cea mai eficientă modalitate de a segmenta textul în timpul antrenamentului.

Articolul cercetătorilor, publicat pe arXiv pe 10 iulie și actualizat pe 15 iulie 2025, demonstrează că H-Net obține o eficiență de aproape 4 ori mai mare în procesarea secvențelor ADN față de abordările convenționale. Sistemul prezintă, de asemenea, performanțe superioare în mai multe limbi, cu rezultate deosebit de bune pentru limba chineză și pentru codul de programare.

Ceea ce face H-Net cu adevărat revoluționar este capacitatea sa de a învăța strategii de segmentare dependente de conținut și context, fără supervizare explicită. Modelul operează la nivel de byte și încorporează o structură ierarhică de rețea ce poate fi iterată pe mai multe niveluri, permițând modelarea diferitelor niveluri de abstractizare. Această abordare face posibil ca H-Net să egaleze performanța Transformatoarelor bazate pe tokeni de două ori mai mari ca dimensiune.

Dincolo de procesarea limbajului, H-Net deschide noi posibilități pentru procesarea secvențelor cu valori continue, precum audio și video, putând duce la sisteme AI multimodale mai performante. Cercetătorii au pus codul la dispoziția publicului pe GitHub, permițând altor cercetători și dezvoltatori să își construiască propriile soluții pe baza acestei lucrări.

"Depășirea tokenizării nu ține de tokenizatoare, ci de învățarea abstractizărilor", a scris Albert Gu într-o postare pe blog în care explică proiectul. "Descoperirea unui instrument care poate face acest lucru va debloca noi capabilități." Pe măsură ce sistemele AI continuă să evolueze, H-Net reprezintă un pas semnificativ către modele mai flexibile, eficiente și capabile, care pot înțelege mai bine complexitatea limbajului uman și a altor date secvențiale.

Descoperire revoluționară: H-Net elimină regulile rigide de tokenizare în AI

Latest News

Trump Dezvăluie o Strategie Îndrăzneață pentru Inteligența Artificială, Vizând Dominanța Globală a SUA

NVIDIA revoluționează marketingul cu OpenUSD și instrumente AI agentice

Google extinde familia Gemini 2.5 cu noi modele și instrumente pentru dezvoltatori

Sistemul Satelitar AI al Google Dezvăluie Primele Imagini cu Incendii de Vegetație

Trump Dezvăluie un Hub de Inteligență Artificială de 92 de Miliarde de Dolari pentru Transformarea Pennsylvaniei

Inteligența artificială de la DeepMind descifrează codul de reglare ascuns al ADN-ului

NetClass lansează un hub în Singapore pentru a accelera expansiunea globală a educației bazate pe AI

Satelit alimentat de inteligență artificială detectează incendii mici invizibile pentru alte sisteme

AWS lansează platforma AgentCore pentru a transforma agenții AI din mediul enterprise

Meta și AWS își unesc forțele pentru a stimula inovația startup-urilor AI

Descoperire revoluționară: H-Net elimină regulile rigide de tokenizare în AI

Related Articles

Trump Dezvăluie o Strategie Îndrăzneață pentru Inteligența Artificială, Vizând Dominanța Globală a SUA

NVIDIA revoluționează marketingul cu OpenUSD și instrumente AI agentice

Google extinde familia Gemini 2.5 cu noi modele și instrumente pentru dezvoltatori

Sistemul Satelitar AI al Google Dezvăluie Primele Imagini cu Incendii de Vegetație

Trump Dezvăluie un Hub de Inteligență Artificială de 92 de Miliarde de Dolari pentru Transformarea Pennsylvaniei

Latest News

Trump Dezvăluie o Strategie Îndrăzneață pentru Inteligența Artificială, Vizând Dominanța Globală a SUA

NVIDIA revoluționează marketingul cu OpenUSD și instrumente AI agentice

Google extinde familia Gemini 2.5 cu noi modele și instrumente pentru dezvoltatori

Sistemul Satelitar AI al Google Dezvăluie Primele Imagini cu Incendii de Vegetație

Trump Dezvăluie un Hub de Inteligență Artificială de 92 de Miliarde de Dolari pentru Transformarea Pennsylvaniei

Inteligența artificială de la DeepMind descifrează codul de reglare ascuns al ADN-ului

NetClass lansează un hub în Singapore pentru a accelera expansiunea globală a educației bazate pe AI

Satelit alimentat de inteligență artificială detectează incendii mici invizibile pentru alte sisteme

AWS lansează platforma AgentCore pentru a transforma agenții AI din mediul enterprise

Meta și AWS își unesc forțele pentru a stimula inovația startup-urilor AI