menu
close

H-Net : une avancée majeure en IA qui élimine les règles rigides de tokenisation

Des chercheurs de l’Université Carnegie Mellon ont dévoilé, le 23 juillet 2025, H-Net, un système d’IA révolutionnaire capable d’apprendre automatiquement la segmentation optimale des textes lors de l’entraînement, sans dépendre de règles de tokenisation préprogrammées. Le système affiche des performances près de 4 fois supérieures sur les séquences d’ADN et des améliorations significatives dans de nombreuses langues par rapport aux méthodes traditionnelles. Cette approche adaptative du traitement du texte marque une avancée fondamentale dans la compréhension et l’analyse des données par les systèmes d’IA.
H-Net : une avancée majeure en IA qui élimine les règles rigides de tokenisation

Une équipe dirigée par l’étudiant en doctorat Sukjun Hwang et les professeurs Brandon Wang et Albert Gu à l’Université Carnegie Mellon a mis au point une architecture d’IA révolutionnaire baptisée H-Net, susceptible de transformer la manière dont les modèles linguistiques traitent le texte et d’autres données séquentielles.

Les modèles linguistiques traditionnels reposent sur la tokenisation, une étape de prétraitement qui segmente le texte en unités plus petites selon des règles strictes. Cette méthode présente des limites fondamentales, notamment pour les langues sans frontières lexicales claires et dans des domaines spécialisés comme la génomique. H-Net supprime cette contrainte en introduisant un mécanisme de découpage dynamique qui apprend automatiquement la segmentation la plus efficace lors de l’entraînement.

L’article des chercheurs, publié sur arXiv le 10 juillet et mis à jour le 15 juillet 2025, montre que H-Net améliore l’efficacité du traitement des séquences d’ADN par un facteur proche de 4 par rapport aux approches conventionnelles. Le système affiche également des performances supérieures dans de nombreuses langues, avec des résultats particulièrement remarquables pour le chinois et le code informatique.

Ce qui rend H-Net révolutionnaire, c’est sa capacité à apprendre des stratégies de segmentation dépendantes du contenu et du contexte, sans supervision explicite. Le modèle opère au niveau du byte et intègre une structure de réseau hiérarchique pouvant être itérée sur plusieurs niveaux, ce qui lui permet de modéliser différents degrés d’abstraction. Cette approche permet à H-Net d’égaler les performances de Transformers basés sur les tokens ayant deux fois sa taille.

Au-delà du traitement du langage, H-Net ouvre la voie à l’analyse de séquences à valeurs continues, telles que l’audio et la vidéo, offrant ainsi de nouvelles perspectives pour des systèmes d’IA multimodaux plus performants. Les chercheurs ont mis leur code à disposition sur GitHub, permettant à la communauté scientifique et aux développeurs de s’appuyer sur leurs travaux.

« Dépasser la tokenisation ne concerne pas les tokenizers, mais l’apprentissage des abstractions », explique Albert Gu dans un billet de blog présentant le projet. « Découvrir un outil capable de cela ouvrira de nouvelles possibilités. » À mesure que les systèmes d’IA évoluent, H-Net représente une avancée majeure vers des modèles plus flexibles, efficaces et puissants, capables de mieux appréhender la complexité du langage humain et des données séquentielles.

Source: Theneuron

Latest News