menu
close

H-Net: Avance en IA elimina las reglas rígidas de tokenización

Investigadores de la Universidad Carnegie Mellon presentaron el 23 de julio de 2025 H-Net, un sistema de inteligencia artificial revolucionario que aprende automáticamente la segmentación óptima de texto durante el entrenamiento, en lugar de depender de reglas de tokenización preprogramadas. El sistema demuestra un rendimiento casi cuatro veces superior en secuencias de ADN y mejoras significativas en múltiples idiomas en comparación con los métodos tradicionales. Este enfoque adaptativo en el procesamiento de texto representa un avance fundamental en la forma en que los sistemas de IA comprenden y procesan distintos tipos de datos.
H-Net: Avance en IA elimina las reglas rígidas de tokenización

Un equipo liderado por el estudiante de doctorado Sukjun Hwang y los profesores Brandon Wang y Albert Gu en la Universidad Carnegie Mellon ha desarrollado una arquitectura de IA innovadora llamada H-Net, que podría transformar la manera en que los modelos de lenguaje procesan texto y otros datos secuenciales.

Los modelos de lenguaje tradicionales dependen de la tokenización, un paso de preprocesamiento que divide el texto en unidades más pequeñas según reglas rígidas. Este enfoque genera limitaciones fundamentales, especialmente para idiomas sin límites claros entre palabras y dominios especializados como la genómica. H-Net elimina esta restricción mediante un mecanismo dinámico de segmentación que aprende automáticamente la forma más eficaz de dividir el texto durante el entrenamiento.

El artículo de los investigadores, publicado en arXiv el 10 de julio y actualizado el 15 de julio de 2025, demuestra que H-Net logra una mejora de casi 4 veces en eficiencia de datos al procesar secuencias de ADN en comparación con los enfoques convencionales. El sistema también muestra un rendimiento superior en múltiples idiomas, con resultados especialmente destacados en chino y código de programación.

Lo que hace revolucionario a H-Net es su capacidad para aprender estrategias de segmentación dependientes del contenido y el contexto sin supervisión explícita. El modelo opera a nivel de bytes e incorpora una estructura de red jerárquica que puede iterarse en múltiples etapas, permitiéndole modelar diferentes niveles de abstracción. Este enfoque permite que H-Net iguale el rendimiento de Transformers basados en tokens que duplican su tamaño.

Más allá del procesamiento de lenguaje, H-Net abre posibilidades para procesar secuencias de valores continuos como audio y video, lo que potencialmente permitirá sistemas de IA multimodales más avanzados. Los investigadores han puesto su código a disposición pública en GitHub, permitiendo que otros investigadores y desarrolladores construyan sobre su trabajo.

"Superar la tokenización no se trata de los tokenizadores, sino de aprender abstracciones", escribió Albert Gu en una publicación de blog explicando el proyecto. "Descubrir una herramienta que pueda hacer esto desbloqueará nuevas capacidades". A medida que los sistemas de IA continúan evolucionando, H-Net representa un paso significativo hacia modelos más flexibles, eficientes y capaces, que pueden comprender mejor las complejidades del lenguaje humano y otros datos secuenciales.

Source: Theneuron

Latest News