カーネギーメロン大学の大学院生Sukjun Hwang氏と教授のBrandon Wang氏、Albert Gu氏が率いる研究チームは、テキストやその他の時系列データの処理方法を変革しうる画期的なAIアーキテクチャ「H-Net」を開発した。
従来の言語モデルは、テキストをあらかじめ定められた規則で細かい単位に分割する「トークナイゼーション」と呼ばれる前処理に依存している。この手法には、単語の区切りが明確でない言語やゲノムのような専門分野で大きな制約があった。H-Netは、学習中に最適な分割方法を自動的に学習する動的チャンク機構を導入し、こうした制約を取り払った。
研究チームの論文は2025年7月10日にarXivで公開され、7月15日に更新された。論文によれば、H-NetはDNA配列の処理において従来手法と比べて約4倍のデータ効率を実現し、複数の言語においても優れた性能を示した。特に中国語やプログラミングコードの処理で顕著な成果が得られている。
H-Netの革新性は、明示的な教師なしで、内容や文脈に応じた分割戦略を自律的に学習できる点にある。モデルはバイトレベルで動作し、階層的なネットワーク構造を複数段階にわたって反復適用できるため、異なる抽象度のレベルを表現可能だ。このアプローチにより、H-Netは従来のトークンベースTransformerの2倍の規模に匹敵する性能を発揮する。
言語処理にとどまらず、H-Netは音声や映像など連続値の時系列データ処理にも応用可能であり、より高度なマルチモーダルAIシステムの実現が期待される。研究チームはGitHub上でコードを公開しており、他の研究者や開発者がこの成果を基盤にさらなる発展を目指せるようになっている。
「トークナイゼーションを克服することは、トークナイザーそのものではなく、抽象化を学習することにある」と、Albert Gu氏はプロジェクト解説のブログ記事で述べている。「これを実現できるツールを発見することが、新たな可能性を切り拓く。」AIシステムの進化が続く中、H-Netは人間の言語や多様な時系列データの複雑さをより柔軟かつ効率的に理解できるモデルへの大きな一歩となるだろう。