Googleは、最新のオープンマルチモーダルAIモデル「Gemma 3n」を正式に発表しました。このモデルは、モバイルおよびエッジデバイス向けに特化して設計されており、クラウド処理を必要とせず、先進的なAI機能を直接ユーザーのハードウェアにもたらす大きな節目となります。
Gemma 3nは、効果的なパラメータ数に基づきE2BとE4Bの2つのサイズが用意されています。それぞれの生パラメータ数は5Bと8Bですが、アーキテクチャ上の革新により、従来の2Bおよび4Bモデルと同等のメモリフットプリントで動作し、E2Bは2GB、E4Bは3GBという少ないメモリでも運用可能です。この効率性は、MatFormerアーキテクチャやPer-Layer Embeddingsなど、複数の技術革新によって実現されています。
このモデルは設計段階から真のマルチモーダル対応となっており、画像、音声、動画、テキスト入力をネイティブにサポートし、テキスト出力を生成します。 音声機能も拡張されており、高品質な自動音声認識(トランスクリプション)や音声からテキストへの翻訳が可能です。さらに、モダリティをまたいだインターリーブ入力も受け付け、複雑なマルチモーダルインタラクションの理解を実現します。
ビジュアル処理においては、Gemma 3nは高効率なビジョンエンコーダー「MobileNet-V5-300M」を搭載し、エッジデバイス上で最先端のマルチモーダルタスク性能を発揮します。このエンコーダーは256x256、512x512、768x768ピクセルの複数解像度入力にネイティブ対応し、幅広い画像・動画理解タスクで優れた性能を発揮。Google Pixelでは最大60フレーム/秒の処理が可能です。
E4BバージョンはLMArenaスコアで1300超を達成し、100億パラメータ未満のモデルとして初めてこのベンチマークに到達しました。 Gemma 3nは多言語対応も強化され、テキストでは140言語、マルチモーダル理解では35言語をサポート。さらに数学・コーディング・推論能力も向上しています。
プライバシーも重視されており、ローカル実行によりユーザープライバシーを尊重し、インターネット接続がなくても確実に機能します。このモデルはQualcomm Technologies、MediaTek、Samsung System LSI事業部などのモバイルハードウェアリーダーと密接に連携して開発され、超高速なマルチモーダルAIを実現。端末上で真にパーソナルかつプライベートな体験を可能にします。
本リリースは2025年5月のGoogle I/Oでのプレビューに続くもので、現在Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLXなどの主要フレームワークで利用可能です。この包括的なローンチにより、開発者は周囲の世界を理解し応答できる次世代のインテリジェントなオンデバイスアプリケーションを構築できるようになります。