中国のテック大手シャオミは、車載およびスマートホームとのインタラクションを変革する次世代音声モデル「MiDashengLM-7B」を発表し、人工知能分野で大きな飛躍を遂げた。
2025年8月4日に発表されたこの新モデルは、すでにシャオミの車両やスマートホームエコシステムで展開されている基盤音声技術をさらに発展させたものだ。最大の特徴は、アリババグループのオープンソースモデル「Qwen2.5-Omni-7B」との統合により、音声認識と環境音処理の両面でかつてない性能を実現した点にある。
従来の音声アシスタントが音声認識のみに特化していたのに対し、MiDashengLM-7Bは「汎用オーディオキャプション」アプローチを採用。これにより、複数の音声ソースから同時に文脈を理解できるため、話しかけるコマンドだけでなく、ガラスの割れる音、拍手、BGMなどの環境音も認識・解釈できる。
性能面でも際立っており、シャオミによれば22の公開評価データセットで記録的な結果を達成。応答速度は主要競合比で4倍、GPUメモリ効率は20倍を誇る。この計算効率の高さは、処理能力の限られたデバイスでも完全なオフライン動作を実現する上で不可欠であり、プライバシーや信頼性の向上にも寄与する。
車載用途では、追加センサーなしで音に基づく高度なセキュリティアラートを実現。スマートホームでは、XiaoAIスピーカーなどのデバイスが複雑なタスクの自動化や情報検索など、より直感的な操作を可能にする。
注目すべきは、シャオミがMiDashengLM-7BをApache 2.0ライセンスで完全オープンソース化し、商用・研究用途の双方に無償公開した点だ。これにより、GoogleアシスタントやApple Siriなど競合のクローズドエコシステムに対抗し、音声AI技術のイノベーション加速が期待される。
今回の発表は、シャオミがスマートフォン以外の分野、特に電気自動車やスマートホーム事業への多角化を進める中、AIを製品エコシステムの中核技術として位置付ける戦略の一環となっている。