由卡内基梅隆大学博士生 Sukjun Hwang 以及 Brandon Wang 和 Albert Gu 教授带领的团队,开发出了一种具有突破性的 AI 架构——H-Net,有望彻底改变语言模型处理文本及其他序列数据的方式。
传统语言模型依赖分词(Tokenization)这一预处理步骤,根据固定规则将文本切分为更小的单元。这种方式存在根本性局限,尤其是在没有明确词界的语言和基因组学等专业领域。H-Net 通过动态分块机制,在训练过程中自动学习最有效的文本分段方式,从而消除了这一限制。
研究团队于2025年7月10日在 arXiv 发表论文,并于7月15日更新。论文显示,H-Net 在处理 DNA 序列时的数据效率较传统方法提升近 4 倍,并在多种语言上展现出更优表现,尤其是在中文和编程代码领域。
H-Net 的革命性之处在于:它能够在无显式监督的情况下,学习基于内容和上下文的分段策略。该模型在字节级别运行,采用可多阶段迭代的分层网络结构,能够建模不同层次的抽象。这一方法使 H-Net 能够达到体积为其两倍的基于 Token 的 Transformer 的性能。
除了语言处理,H-Net 还为处理音频、视频等连续值序列带来新可能,有望推动更强大的多模态 AI 系统发展。研究团队已在 GitHub 公开了相关代码,便于其他研究者和开发者在此基础上进一步创新。
“突破分词的关键,不在于分词器本身,而在于学习抽象能力。”Albert Gu 在项目解读博客中写道,“发现能够实现这一点的工具,将释放全新能力。”随着 AI 系统持续进化,H-Net 标志着向更灵活、高效且强大的模型迈出了重要一步,使其能更好地理解人类语言及其他复杂序列数据。