menu
close

H-Net: svolta nell’IA elimina le rigide regole di tokenizzazione

Il 23 luglio 2025, i ricercatori della Carnegie Mellon University hanno presentato H-Net, un sistema di intelligenza artificiale rivoluzionario che apprende automaticamente la segmentazione ottimale del testo durante l’addestramento, invece di affidarsi a regole di tokenizzazione predefinite. Il sistema mostra prestazioni quasi quattro volte superiori sulle sequenze di DNA e miglioramenti significativi in molte lingue rispetto ai metodi tradizionali. Questo approccio adattivo al trattamento del testo rappresenta un progresso fondamentale nel modo in cui i sistemi di IA comprendono e processano diversi tipi di dati.
H-Net: svolta nell’IA elimina le rigide regole di tokenizzazione

Un team guidato dal dottorando Sukjun Hwang e dai professori Brandon Wang e Albert Gu della Carnegie Mellon University ha sviluppato un’architettura di IA innovativa chiamata H-Net, destinata a trasformare il modo in cui i modelli linguistici elaborano il testo e altri dati sequenziali.

I modelli linguistici tradizionali si basano sulla tokenizzazione, una fase di pre-processamento che suddivide il testo in unità più piccole secondo regole rigide. Questo approccio comporta limiti fondamentali, soprattutto per le lingue prive di confini di parola chiari e per ambiti specializzati come la genomica. H-Net supera questo vincolo grazie a un meccanismo dinamico di suddivisione che apprende automaticamente il modo più efficace di segmentare il testo durante l’addestramento.

L’articolo dei ricercatori, pubblicato su arXiv il 10 luglio e aggiornato il 15 luglio 2025, dimostra che H-Net ottiene un miglioramento quasi quadruplo nell’efficienza dei dati durante l’elaborazione di sequenze di DNA rispetto agli approcci convenzionali. Il sistema mostra inoltre prestazioni superiori in numerose lingue, con risultati particolarmente rilevanti per il cinese e il codice di programmazione.

Ciò che rende H-Net rivoluzionario è la sua capacità di apprendere strategie di segmentazione dipendenti dal contenuto e dal contesto senza supervisione esplicita. Il modello opera a livello di byte e incorpora una struttura di rete gerarchica iterabile su più livelli, permettendo di modellare diversi gradi di astrazione. Questo approccio consente a H-Net di eguagliare le prestazioni di Transformer basati su token di dimensioni doppie.

Oltre all’elaborazione del linguaggio, H-Net apre possibilità anche per il trattamento di sequenze a valori continui come audio e video, potenzialmente abilitando sistemi di IA multimodali più avanzati. I ricercatori hanno reso il codice pubblicamente disponibile su GitHub, permettendo ad altri studiosi e sviluppatori di costruire sulle loro basi.

"Superare la tokenizzazione non riguarda i tokenizer, ma l’apprendimento delle astrazioni", ha scritto Albert Gu in un post sul blog che spiega il progetto. "Scoprire uno strumento in grado di farlo sbloccherà nuove capacità." Mentre i sistemi di IA continuano a evolversi, H-Net rappresenta un passo significativo verso modelli più flessibili, efficienti e capaci, in grado di comprendere meglio la complessità del linguaggio umano e di altri dati sequenziali.

Source: Theneuron

Latest News