H-Net：AIによる画期的なブレークスルー、厳格なトークナイゼーション規則を撤廃

カーネギーメロン大学の研究者たちは2025年7月23日、事前にプログラムされたトークナイゼーション規則に依存せず、学習中に最適なテキスト分割方法を自動的に学習する革新的なAIシステム「H-Net」を発表した。このシステムは、DNA配列の処理において従来手法の約4倍の性能を示し、複数言語でも大幅な改善を達成した。テキスト処理におけるこの適応的アプローチは、AIが多様なデータを理解・処理する方法に根本的な進歩をもたらすものである。

カーネギーメロン大学の大学院生Sukjun Hwang氏と教授のBrandon Wang氏、Albert Gu氏が率いる研究チームは、テキストやその他の時系列データの処理方法を変革しうる画期的なAIアーキテクチャ「H-Net」を開発した。

従来の言語モデルは、テキストをあらかじめ定められた規則で細かい単位に分割する「トークナイゼーション」と呼ばれる前処理に依存している。この手法には、単語の区切りが明確でない言語やゲノムのような専門分野で大きな制約があった。H-Netは、学習中に最適な分割方法を自動的に学習する動的チャンク機構を導入し、こうした制約を取り払った。

研究チームの論文は2025年7月10日にarXivで公開され、7月15日に更新された。論文によれば、H-NetはDNA配列の処理において従来手法と比べて約4倍のデータ効率を実現し、複数の言語においても優れた性能を示した。特に中国語やプログラミングコードの処理で顕著な成果が得られている。

H-Netの革新性は、明示的な教師なしで、内容や文脈に応じた分割戦略を自律的に学習できる点にある。モデルはバイトレベルで動作し、階層的なネットワーク構造を複数段階にわたって反復適用できるため、異なる抽象度のレベルを表現可能だ。このアプローチにより、H-Netは従来のトークンベースTransformerの2倍の規模に匹敵する性能を発揮する。

言語処理にとどまらず、H-Netは音声や映像など連続値の時系列データ処理にも応用可能であり、より高度なマルチモーダルAIシステムの実現が期待される。研究チームはGitHub上でコードを公開しており、他の研究者や開発者がこの成果を基盤にさらなる発展を目指せるようになっている。

「トークナイゼーションを克服することは、トークナイザーそのものではなく、抽象化を学習することにある」と、Albert Gu氏はプロジェクト解説のブログ記事で述べている。「これを実現できるツールを発見することが、新たな可能性を切り拓く。」AIシステムの進化が続く中、H-Netは人間の言語や多様な時系列データの複雑さをより柔軟かつ効率的に理解できるモデルへの大きな一歩となるだろう。

H-Net：AIによる画期的なブレークスルー、厳格なトークナイゼーション規則を撤廃

Latest News

トランプ氏、米国の世界的優位確保に向けた大胆なAI戦略を発表

NVIDIA、OpenUSDとエージェンティックAIツールでマーケティングを変革

Google、Gemini 2.5ファミリーを拡充――新モデルと開発者向けツールを発表

GoogleのAI衛星システム「FireSat」、初の山火事画像を公開

トランプ大統領、ペンシルベニア州を変革する920億ドル規模のAIハブを発表

DeepMindのAIがDNAの隠れた制御コードを解読

NetClass、シンガポール拠点を開設　グローバルAI教育事業の拡大を加速

AI搭載衛星、他システムでは見逃される微小な山火事を発見

AWS、エンタープライズAIエージェントを変革する「AgentCore」プラットフォームを発表

MetaとAWS、AIスタートアップのイノベーション促進で提携

H-Net：AIによる画期的なブレークスルー、厳格なトークナイゼーション規則を撤廃

Related Articles

トランプ氏、米国の世界的優位確保に向けた大胆なAI戦略を発表

NVIDIA、OpenUSDとエージェンティックAIツールでマーケティングを変革

Google、Gemini 2.5ファミリーを拡充――新モデルと開発者向けツールを発表

GoogleのAI衛星システム「FireSat」、初の山火事画像を公開

トランプ大統領、ペンシルベニア州を変革する920億ドル規模のAIハブを発表

Latest News

トランプ氏、米国の世界的優位確保に向けた大胆なAI戦略を発表

NVIDIA、OpenUSDとエージェンティックAIツールでマーケティングを変革

Google、Gemini 2.5ファミリーを拡充――新モデルと開発者向けツールを発表

GoogleのAI衛星システム「FireSat」、初の山火事画像を公開

トランプ大統領、ペンシルベニア州を変革する920億ドル規模のAIハブを発表

DeepMindのAIがDNAの隠れた制御コードを解読

NetClass、シンガポール拠点を開設 グローバルAI教育事業の拡大を加速

AI搭載衛星、他システムでは見逃される微小な山火事を発見

AWS、エンタープライズAIエージェントを変革する「AgentCore」プラットフォームを発表

MetaとAWS、AIスタートアップのイノベーション促進で提携

NetClass、シンガポール拠点を開設　グローバルAI教育事業の拡大を加速