Un equipo liderado por el doctorando Sukjun Hwang y los profesores Brandon Wang y Albert Gu en la Universidad Carnegie Mellon ha desarrollado una arquitectura de IA pionera llamada H-Net, que podría transformar la forma en que los modelos de lenguaje procesan texto y otros datos secuenciales.
Los modelos de lenguaje tradicionales dependen de la tokenización, un paso de preprocesamiento que divide el texto en unidades más pequeñas siguiendo reglas rígidas. Este enfoque presenta limitaciones fundamentales, especialmente para idiomas sin límites claros entre palabras y dominios especializados como la genómica. H-Net elimina esta restricción mediante un mecanismo dinámico de fragmentación que aprende automáticamente la forma más eficaz de segmentar el texto durante el entrenamiento.
El artículo de los investigadores, publicado en arXiv el 10 de julio y actualizado el 15 de julio de 2025, demuestra que H-Net logra una mejora casi cuatro veces superior en eficiencia de datos al procesar secuencias de ADN en comparación con los métodos convencionales. El sistema también muestra un rendimiento sobresaliente en varios idiomas, con resultados especialmente destacados en chino y código de programación.
Lo que hace revolucionario a H-Net es su capacidad para aprender estrategias de segmentación dependientes del contenido y el contexto sin supervisión explícita. El modelo opera a nivel de byte e incorpora una estructura de red jerárquica que puede iterarse en múltiples etapas, permitiéndole modelar diferentes niveles de abstracción. Este enfoque permite que H-Net iguale el rendimiento de Transformers basados en tokens que duplican su tamaño.
Más allá del procesamiento del lenguaje, H-Net abre posibilidades para tratar secuencias de valores continuos como audio y vídeo, lo que podría permitir sistemas de IA multimodales más avanzados. Los investigadores han puesto su código a disposición pública en GitHub, permitiendo que otros investigadores y desarrolladores construyan sobre su trabajo.
"Superar la tokenización no trata sobre los tokenizadores, sino sobre aprender abstracciones", escribió Albert Gu en una entrada de blog explicando el proyecto. "Descubrir una herramienta capaz de esto desbloqueará nuevas capacidades". A medida que los sistemas de IA continúan evolucionando, H-Net representa un paso significativo hacia modelos más flexibles, eficientes y capaces, que puedan comprender mejor las complejidades del lenguaje humano y otros datos secuenciales.