H-Net: Un avance en IA que elimina las reglas rígidas de tokenización

Investigadores de la Universidad Carnegie Mellon presentaron H-Net el 23 de julio de 2025, un sistema de IA revolucionario que aprende automáticamente la segmentación óptima del texto durante el entrenamiento, en lugar de depender de reglas de tokenización preprogramadas. El sistema demuestra un rendimiento casi cuatro veces superior en secuencias de ADN y mejoras significativas en varios idiomas respecto a los métodos tradicionales. Este enfoque adaptativo en el procesamiento de texto supone un avance fundamental en la manera en que los sistemas de IA comprenden y procesan diferentes tipos de datos.

Un equipo liderado por el doctorando Sukjun Hwang y los profesores Brandon Wang y Albert Gu en la Universidad Carnegie Mellon ha desarrollado una arquitectura de IA pionera llamada H-Net, que podría transformar la forma en que los modelos de lenguaje procesan texto y otros datos secuenciales.

Los modelos de lenguaje tradicionales dependen de la tokenización, un paso de preprocesamiento que divide el texto en unidades más pequeñas siguiendo reglas rígidas. Este enfoque presenta limitaciones fundamentales, especialmente para idiomas sin límites claros entre palabras y dominios especializados como la genómica. H-Net elimina esta restricción mediante un mecanismo dinámico de fragmentación que aprende automáticamente la forma más eficaz de segmentar el texto durante el entrenamiento.

El artículo de los investigadores, publicado en arXiv el 10 de julio y actualizado el 15 de julio de 2025, demuestra que H-Net logra una mejora casi cuatro veces superior en eficiencia de datos al procesar secuencias de ADN en comparación con los métodos convencionales. El sistema también muestra un rendimiento sobresaliente en varios idiomas, con resultados especialmente destacados en chino y código de programación.

Lo que hace revolucionario a H-Net es su capacidad para aprender estrategias de segmentación dependientes del contenido y el contexto sin supervisión explícita. El modelo opera a nivel de byte e incorpora una estructura de red jerárquica que puede iterarse en múltiples etapas, permitiéndole modelar diferentes niveles de abstracción. Este enfoque permite que H-Net iguale el rendimiento de Transformers basados en tokens que duplican su tamaño.

Más allá del procesamiento del lenguaje, H-Net abre posibilidades para tratar secuencias de valores continuos como audio y vídeo, lo que podría permitir sistemas de IA multimodales más avanzados. Los investigadores han puesto su código a disposición pública en GitHub, permitiendo que otros investigadores y desarrolladores construyan sobre su trabajo.

"Superar la tokenización no trata sobre los tokenizadores, sino sobre aprender abstracciones", escribió Albert Gu en una entrada de blog explicando el proyecto. "Descubrir una herramienta capaz de esto desbloqueará nuevas capacidades". A medida que los sistemas de IA continúan evolucionando, H-Net representa un paso significativo hacia modelos más flexibles, eficientes y capaces, que puedan comprender mejor las complejidades del lenguaje humano y otros datos secuenciales.

H-Net: Un avance en IA que elimina las reglas rígidas de tokenización

Latest News

Trump presenta una audaz estrategia de IA para asegurar la supremacía global de EE. UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta un centro de IA de 92.000 millones de dólares para transformar Pensilvania

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass inaugura un centro en Singapur para acelerar la expansión global de la educación con IA

Satélite impulsado por IA detecta incendios diminutos invisibles para otros sistemas

AWS presenta la plataforma AgentCore para transformar los agentes de IA empresariales

Meta y AWS unen fuerzas para impulsar la innovación de startups de IA

H-Net: Un avance en IA que elimina las reglas rígidas de tokenización

Related Articles

Trump presenta una audaz estrategia de IA para asegurar la supremacía global de EE. UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta un centro de IA de 92.000 millones de dólares para transformar Pensilvania

Latest News

Trump presenta una audaz estrategia de IA para asegurar la supremacía global de EE. UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta un centro de IA de 92.000 millones de dólares para transformar Pensilvania

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass inaugura un centro en Singapur para acelerar la expansión global de la educación con IA

Satélite impulsado por IA detecta incendios diminutos invisibles para otros sistemas

AWS presenta la plataforma AgentCore para transformar los agentes de IA empresariales

Meta y AWS unen fuerzas para impulsar la innovación de startups de IA