menu
close

H-Net : une percée en IA qui élimine les règles rigides de tokenisation

Des chercheurs de l’Université Carnegie Mellon ont dévoilé, le 23 juillet 2025, H-Net, un système d’IA révolutionnaire qui apprend automatiquement à segmenter le texte de façon optimale pendant l’entraînement, plutôt que de s’appuyer sur des règles de tokenisation préprogrammées. Le système affiche des performances près de 4 fois supérieures sur les séquences d’ADN et des améliorations significatives dans plusieurs langues par rapport aux méthodes traditionnelles. Cette approche adaptative du traitement du texte représente une avancée fondamentale dans la façon dont les systèmes d’IA comprennent et traitent différents types de données.
H-Net : une percée en IA qui élimine les règles rigides de tokenisation

Une équipe dirigée par l’étudiant au doctorat Sukjun Hwang et les professeurs Brandon Wang et Albert Gu de l’Université Carnegie Mellon a mis au point une architecture d’IA révolutionnaire nommée H-Net, qui pourrait transformer la façon dont les modèles de langage traitent le texte et d’autres données séquentielles.

Les modèles de langage traditionnels reposent sur la tokenisation, une étape de prétraitement qui divise le texte en unités plus petites selon des règles rigides. Cette méthode impose des limites fondamentales, notamment pour les langues sans frontières de mots claires et les domaines spécialisés comme la génomique. H-Net élimine cette contrainte grâce à un mécanisme de découpage dynamique qui apprend automatiquement la manière la plus efficace de segmenter le texte durant l’entraînement.

L’article des chercheurs, publié sur arXiv le 10 juillet et mis à jour le 15 juillet 2025, démontre que H-Net offre une efficacité de traitement près de 4 fois supérieure pour les séquences d’ADN, comparativement aux approches conventionnelles. Le système affiche également des performances supérieures dans plusieurs langues, avec des résultats particulièrement impressionnants pour le chinois et le code informatique.

Ce qui rend H-Net révolutionnaire, c’est sa capacité à apprendre des stratégies de segmentation dépendantes du contenu et du contexte, sans supervision explicite. Le modèle fonctionne au niveau de l’octet et intègre une structure de réseau hiérarchique qui peut être itérée à plusieurs niveaux, lui permettant de modéliser différents degrés d’abstraction. Cette approche permet à H-Net d’égaler la performance de Transformers basés sur des tokens ayant deux fois sa taille.

Au-delà du traitement du langage, H-Net ouvre la voie au traitement de séquences à valeurs continues comme l’audio et la vidéo, ce qui pourrait permettre le développement de systèmes d’IA multimodaux plus performants. Les chercheurs ont rendu leur code public sur GitHub, permettant à d’autres chercheurs et développeurs de s’appuyer sur leur travail.

« Surmonter la tokenisation ne concerne pas les tokenizers, mais l’apprentissage des abstractions », a écrit Albert Gu dans un billet de blogue expliquant le projet. « Découvrir un outil capable de faire cela débloquera de nouvelles capacités. » Alors que les systèmes d’IA continuent d’évoluer, H-Net représente une avancée majeure vers des modèles plus flexibles, efficaces et puissants, capables de mieux comprendre la complexité du langage humain et d’autres données séquentielles.

Source: Theneuron

Latest News