H-Net AI 突破性进展：消除僵化分词规则

卡内基梅隆大学的研究人员于2025年7月23日发布了 H-Net，这是一套革命性的 AI 系统，可在训练过程中自动学习最优文本分段方式，无需依赖预设的分词规则。该系统在 DNA 序列处理上表现出近 4 倍的数据效率提升，并在多种语言上相较传统方法有显著改进。这种自适应文本处理方式，标志着 AI 系统理解和处理不同类型数据能力的根本性进步。

由卡内基梅隆大学博士生 Sukjun Hwang 以及 Brandon Wang 和 Albert Gu 教授带领的团队，开发出了一种具有突破性的 AI 架构——H-Net，有望彻底改变语言模型处理文本及其他序列数据的方式。

传统语言模型依赖分词（Tokenization）这一预处理步骤，根据固定规则将文本切分为更小的单元。这种方式存在根本性局限，尤其是在没有明确词界的语言和基因组学等专业领域。H-Net 通过动态分块机制，在训练过程中自动学习最有效的文本分段方式，从而消除了这一限制。

研究团队于2025年7月10日在 arXiv 发表论文，并于7月15日更新。论文显示，H-Net 在处理 DNA 序列时的数据效率较传统方法提升近 4 倍，并在多种语言上展现出更优表现，尤其是在中文和编程代码领域。

H-Net 的革命性之处在于：它能够在无显式监督的情况下，学习基于内容和上下文的分段策略。该模型在字节级别运行，采用可多阶段迭代的分层网络结构，能够建模不同层次的抽象。这一方法使 H-Net 能够达到体积为其两倍的基于 Token 的 Transformer 的性能。

除了语言处理，H-Net 还为处理音频、视频等连续值序列带来新可能，有望推动更强大的多模态 AI 系统发展。研究团队已在 GitHub 公开了相关代码，便于其他研究者和开发者在此基础上进一步创新。

“突破分词的关键，不在于分词器本身，而在于学习抽象能力。”Albert Gu 在项目解读博客中写道，“发现能够实现这一点的工具，将释放全新能力。”随着 AI 系统持续进化，H-Net 标志着向更灵活、高效且强大的模型迈出了重要一步，使其能更好地理解人类语言及其他复杂序列数据。

H-Net AI 突破性进展：消除僵化分词规则

Latest News

特朗普公布大胆AI战略，力图巩固美国全球主导地位

NVIDIA 利用 OpenUSD 与 Agentic AI 工具革新营销方式

Google 扩展 Gemini 2.5 家族，推出新模型与开发者工具

谷歌AI卫星系统首次公开野火图像

特朗普公布920亿美元AI枢纽计划，助力宾夕法尼亚转型

DeepMind AI 解码 DNA 隐藏的调控密码

NetClass在新加坡设立区域总部，加速全球AI教育扩张

AI驱动卫星发现其他系统无法察觉的微型野火

AWS发布AgentCore平台，革新企业级AI智能体

Meta与AWS携手推动AI初创企业创新

H-Net AI 突破性进展：消除僵化分词规则

Related Articles

特朗普公布大胆AI战略，力图巩固美国全球主导地位

NVIDIA 利用 OpenUSD 与 Agentic AI 工具革新营销方式

Google 扩展 Gemini 2.5 家族，推出新模型与开发者工具

谷歌AI卫星系统首次公开野火图像

特朗普公布920亿美元AI枢纽计划，助力宾夕法尼亚转型

Latest News

特朗普公布大胆AI战略，力图巩固美国全球主导地位

NVIDIA 利用 OpenUSD 与 Agentic AI 工具革新营销方式

Google 扩展 Gemini 2.5 家族，推出新模型与开发者工具

谷歌AI卫星系统首次公开野火图像

特朗普公布920亿美元AI枢纽计划，助力宾夕法尼亚转型

DeepMind AI 解码 DNA 隐藏的调控密码

NetClass在新加坡设立区域总部，加速全球AI教育扩张

AI驱动卫星发现其他系统无法察觉的微型野火

AWS发布AgentCore平台，革新企业级AI智能体

Meta与AWS携手推动AI初创企业创新