menu
close

H-Net AI 突破性进展:消除僵化分词规则

卡内基梅隆大学的研究人员于2025年7月23日发布了 H-Net,这是一套革命性的 AI 系统,可在训练过程中自动学习最优文本分段方式,无需依赖预设的分词规则。该系统在 DNA 序列处理上表现出近 4 倍的数据效率提升,并在多种语言上相较传统方法有显著改进。这种自适应文本处理方式,标志着 AI 系统理解和处理不同类型数据能力的根本性进步。
H-Net AI 突破性进展:消除僵化分词规则

由卡内基梅隆大学博士生 Sukjun Hwang 以及 Brandon Wang 和 Albert Gu 教授带领的团队,开发出了一种具有突破性的 AI 架构——H-Net,有望彻底改变语言模型处理文本及其他序列数据的方式。

传统语言模型依赖分词(Tokenization)这一预处理步骤,根据固定规则将文本切分为更小的单元。这种方式存在根本性局限,尤其是在没有明确词界的语言和基因组学等专业领域。H-Net 通过动态分块机制,在训练过程中自动学习最有效的文本分段方式,从而消除了这一限制。

研究团队于2025年7月10日在 arXiv 发表论文,并于7月15日更新。论文显示,H-Net 在处理 DNA 序列时的数据效率较传统方法提升近 4 倍,并在多种语言上展现出更优表现,尤其是在中文和编程代码领域。

H-Net 的革命性之处在于:它能够在无显式监督的情况下,学习基于内容和上下文的分段策略。该模型在字节级别运行,采用可多阶段迭代的分层网络结构,能够建模不同层次的抽象。这一方法使 H-Net 能够达到体积为其两倍的基于 Token 的 Transformer 的性能。

除了语言处理,H-Net 还为处理音频、视频等连续值序列带来新可能,有望推动更强大的多模态 AI 系统发展。研究团队已在 GitHub 公开了相关代码,便于其他研究者和开发者在此基础上进一步创新。

“突破分词的关键,不在于分词器本身,而在于学习抽象能力。”Albert Gu 在项目解读博客中写道,“发现能够实现这一点的工具,将释放全新能力。”随着 AI 系统持续进化,H-Net 标志着向更灵活、高效且强大的模型迈出了重要一步,使其能更好地理解人类语言及其他复杂序列数据。

Source: Theneuron

Latest News