中国のAIスタートアップDeepSeekは、モデル最適化における最新のイノベーションで、世界の人工知能分野に新たな波を起こし続けている。5月29日、同社は最新の推論モデル「R1-0528」のバリアントを活用し、アリババの「Qwen 3 8B Base」モデルを「蒸留」と呼ばれるプロセスを通じて強化したことを明らかにした。
蒸留技術とは、より高度なモデルから小型モデルへ知識を転送する手法であり、DeepSeekはR1-0528モデルの推論プロセスをアリババのシステムに移植することに成功した。DeepSeekの発表によれば、このプロセスによりQwen 3モデルは10%を超える性能向上を達成したという。
「DeepSeek-R1-0528のチェーン・オブ・ソート(思考の連鎖)は、学術研究と実用の両面で大きな意義を持つと考えています」とDeepSeekは発表の中で述べている。同社はこれまでにも、QwenやMetaのLlamaアーキテクチャを基にした1.5Bから70Bパラメータ規模の蒸留モデルを複数公開してきた。
DeepSeekのAI開発アプローチは、2024年1月にR1モデルがOpenAIやGoogleの製品に匹敵する性能を、はるかに少ない計算コストで実現したことで大きな注目を集めた。同社の成功は、最先端AIには膨大な計算資源と投資が不可欠という従来の常識に一石を投じている。
米国による先端AIチップの輸出規制にもかかわらず、DeepSeekは低消費電力かつ輸出承認済みのハードウェア上でも効率的に動作するようモデルを最適化してきた。この戦略は、競合他社にハードウェア依存の見直しを迫り、AI分野の市場動向にも影響を与えている。
最新のR1-0528アップデートにより、DeepSeekのモデルはOpenAIのo3推論モデルやGoogleのGemini 2.5 Proに迫る性能を実現。推論の深さ、推論能力、幻覚(ハルシネーション)低減などで大幅な進化を遂げている。同社の継続的なイノベーションとオープンソース志向は、AIモデル開発と運用効率に対する期待を大きく変えつつある。