Un team guidato dal dottorando Sukjun Hwang e dai professori Brandon Wang e Albert Gu della Carnegie Mellon University ha sviluppato un’architettura di IA innovativa chiamata H-Net, destinata a trasformare il modo in cui i modelli linguistici elaborano il testo e altri dati sequenziali.
I modelli linguistici tradizionali si basano sulla tokenizzazione, una fase di pre-processamento che suddivide il testo in unità più piccole secondo regole rigide. Questo approccio comporta limiti fondamentali, soprattutto per le lingue prive di confini di parola chiari e per ambiti specializzati come la genomica. H-Net supera questo vincolo grazie a un meccanismo dinamico di suddivisione che apprende automaticamente il modo più efficace di segmentare il testo durante l’addestramento.
L’articolo dei ricercatori, pubblicato su arXiv il 10 luglio e aggiornato il 15 luglio 2025, dimostra che H-Net ottiene un miglioramento quasi quadruplo nell’efficienza dei dati durante l’elaborazione di sequenze di DNA rispetto agli approcci convenzionali. Il sistema mostra inoltre prestazioni superiori in numerose lingue, con risultati particolarmente rilevanti per il cinese e il codice di programmazione.
Ciò che rende H-Net rivoluzionario è la sua capacità di apprendere strategie di segmentazione dipendenti dal contenuto e dal contesto senza supervisione esplicita. Il modello opera a livello di byte e incorpora una struttura di rete gerarchica iterabile su più livelli, permettendo di modellare diversi gradi di astrazione. Questo approccio consente a H-Net di eguagliare le prestazioni di Transformer basati su token di dimensioni doppie.
Oltre all’elaborazione del linguaggio, H-Net apre possibilità anche per il trattamento di sequenze a valori continui come audio e video, potenzialmente abilitando sistemi di IA multimodali più avanzati. I ricercatori hanno reso il codice pubblicamente disponibile su GitHub, permettendo ad altri studiosi e sviluppatori di costruire sulle loro basi.
"Superare la tokenizzazione non riguarda i tokenizer, ma l’apprendimento delle astrazioni", ha scritto Albert Gu in un post sul blog che spiega il progetto. "Scoprire uno strumento in grado di farlo sbloccherà nuove capacità." Mentre i sistemi di IA continuano a evolversi, H-Net rappresenta un passo significativo verso modelli più flessibili, efficienti e capaci, in grado di comprendere meglio la complessità del linguaggio umano e di altri dati sequenziali.