H-Net: Avance en IA elimina las reglas rígidas de tokenización

Investigadores de la Universidad Carnegie Mellon presentaron el 23 de julio de 2025 H-Net, un sistema de inteligencia artificial revolucionario que aprende automáticamente la segmentación óptima de texto durante el entrenamiento, en lugar de depender de reglas de tokenización preprogramadas. El sistema demuestra un rendimiento casi cuatro veces superior en secuencias de ADN y mejoras significativas en múltiples idiomas en comparación con los métodos tradicionales. Este enfoque adaptativo en el procesamiento de texto representa un avance fundamental en la forma en que los sistemas de IA comprenden y procesan distintos tipos de datos.

Un equipo liderado por el estudiante de doctorado Sukjun Hwang y los profesores Brandon Wang y Albert Gu en la Universidad Carnegie Mellon ha desarrollado una arquitectura de IA innovadora llamada H-Net, que podría transformar la manera en que los modelos de lenguaje procesan texto y otros datos secuenciales.

Los modelos de lenguaje tradicionales dependen de la tokenización, un paso de preprocesamiento que divide el texto en unidades más pequeñas según reglas rígidas. Este enfoque genera limitaciones fundamentales, especialmente para idiomas sin límites claros entre palabras y dominios especializados como la genómica. H-Net elimina esta restricción mediante un mecanismo dinámico de segmentación que aprende automáticamente la forma más eficaz de dividir el texto durante el entrenamiento.

El artículo de los investigadores, publicado en arXiv el 10 de julio y actualizado el 15 de julio de 2025, demuestra que H-Net logra una mejora de casi 4 veces en eficiencia de datos al procesar secuencias de ADN en comparación con los enfoques convencionales. El sistema también muestra un rendimiento superior en múltiples idiomas, con resultados especialmente destacados en chino y código de programación.

Lo que hace revolucionario a H-Net es su capacidad para aprender estrategias de segmentación dependientes del contenido y el contexto sin supervisión explícita. El modelo opera a nivel de bytes e incorpora una estructura de red jerárquica que puede iterarse en múltiples etapas, permitiéndole modelar diferentes niveles de abstracción. Este enfoque permite que H-Net iguale el rendimiento de Transformers basados en tokens que duplican su tamaño.

Más allá del procesamiento de lenguaje, H-Net abre posibilidades para procesar secuencias de valores continuos como audio y video, lo que potencialmente permitirá sistemas de IA multimodales más avanzados. Los investigadores han puesto su código a disposición pública en GitHub, permitiendo que otros investigadores y desarrolladores construyan sobre su trabajo.

"Superar la tokenización no se trata de los tokenizadores, sino de aprender abstracciones", escribió Albert Gu en una publicación de blog explicando el proyecto. "Descubrir una herramienta que pueda hacer esto desbloqueará nuevas capacidades". A medida que los sistemas de IA continúan evolucionando, H-Net representa un paso significativo hacia modelos más flexibles, eficientes y capaces, que pueden comprender mejor las complejidades del lenguaje humano y otros datos secuenciales.

H-Net: Avance en IA elimina las reglas rígidas de tokenización

Latest News

Trump Presenta Audaz Estrategia de IA para Asegurar la Dominancia Global de EE.UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta centro de IA de 92 mil millones de dólares para transformar Pensilvania

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass Lanza Centro en Singapur para Acelerar la Expansión Global de la Educación con IA

Satélite impulsado por IA detecta incendios forestales diminutos invisibles para otros sistemas

AWS presenta AgentCore, la plataforma que transforma los agentes de IA empresariales

Meta y AWS unen fuerzas para impulsar la innovación de startups de IA

H-Net: Avance en IA elimina las reglas rígidas de tokenización

Related Articles

Trump Presenta Audaz Estrategia de IA para Asegurar la Dominancia Global de EE.UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta centro de IA de 92 mil millones de dólares para transformar Pensilvania

Latest News

Trump Presenta Audaz Estrategia de IA para Asegurar la Dominancia Global de EE.UU.

NVIDIA revoluciona el marketing con OpenUSD y herramientas de IA agentica

Google amplía la familia Gemini 2.5 con nuevos modelos y herramientas para desarrolladores

El sistema satelital de IA de Google revela las primeras imágenes de incendios forestales

Trump presenta centro de IA de 92 mil millones de dólares para transformar Pensilvania

La IA de DeepMind descifra el código regulador oculto del ADN

NetClass Lanza Centro en Singapur para Acelerar la Expansión Global de la Educación con IA

Satélite impulsado por IA detecta incendios forestales diminutos invisibles para otros sistemas

AWS presenta AgentCore, la plataforma que transforma los agentes de IA empresariales

Meta y AWS unen fuerzas para impulsar la innovación de startups de IA