menu
close

MITのAIコーチが言語モデルの問題解決能力を向上

MITの研究者らは、CodeSteerというインテリジェントアシスタントを開発しました。これは、大規模言語モデル(LLM)が複雑な問いに正しく答えるまで、テキスト生成とコード生成を切り替えるように導くものです。このシステムにより、数学問題や空間推論などの記号的タスクにおけるLLMの正答率が30%以上向上し、より高度なモデルを凌駕する結果も得られました。この技術革新は、ロボティクスやサプライチェーン管理など、精密な計算推論が求められる分野におけるAIの問題解決能力を大幅に高める可能性があります。
MITのAIコーチが言語モデルの問題解決能力を向上

大規模言語モデル(LLM)は、文脈理解やテキストによる論理的な回答に優れています。しかし、小数の比較や最適化問題の解決など、コードを用いた方が適している計算タスクには苦戦することが多いのが現状です。

この課題を解決するため、MITの研究者らはCodeSteerというスマートアシスタントを開発しました。CodeSteerは、より大きな言語モデルの“コーチ”として機能し、正しい回答が得られるまでテキスト生成とコード生成を切り替えるように導きます。

「人間から着想を得ました。スポーツでは、トレーナーがチームのスター選手より優れているとは限りませんが、有益なアドバイスで選手を導くことができます。この“舵取り”の手法はLLMにも有効です」と、プロジェクトに携わったハーバード大学およびMITの大学院生、Yongchao Chen氏は説明します。

CodeSteer自体は、Llama-3-8Bモデルを微調整した小型LLMで、クエリを分析し、テキストとコードのどちらが問題解決に適しているかを判断します。その上で、大型LLMに対して適切な手法を促すプロンプトを生成します。もし正しい答えが得られなければ、CodeSteerは異なるアプローチを試すよう繰り返し促し、最終的な解答に導きます。

研究チームは、GPT-4oにCodeSteerを組み合わせることで、記号的タスクにおける正答率が30%以上向上し、37のタスクで平均スコアが53.3から86.4に上昇したことを確認しました。この改善により、OpenAIのo1(82.7)やDeepSeek R1(76.8)といった、より高度なモデルをも上回る結果となりました。さらに、CodeSteerはClaude、Mistral、GPT-3.5など他のモデルにも適用可能で、平均41.8%の性能向上を示すなど、高い汎用性も実証されました。

CodeSteerの開発と評価のため、研究者らは37種類の記号的タスクを調整可能な難易度でまとめた包括的ベンチマーク「SymBench」を作成しました。これには、数学、空間推論、論理、順序推論、最適化問題などが含まれています。

この技術革新により、テキスト推論だけでは解決が難しい複雑なタスク、例えば不確実な環境下でのロボットの経路生成や国際的なサプライチェーンにおける出荷スケジュールの最適化など、AIの問題解決能力が大きく向上する可能性があります。

「LLMにスマートなコーディング活用能力を付与することで、すでに高性能なモデルをさらに強化できます」とChen氏は述べています。研究チームは現在、CodeSteerの反復プロンプト処理を高速化するための効率化や、アシスタントを用いずにテキスト推論とコード生成を自在に切り替えられる統合モデルのファインチューニングにも取り組んでいます。

Source: Techxplore

Latest News