Google正式推出了Gemma 3n,这是其最新的开放多模态AI模型,专为移动端和边缘设备设计。本次发布标志着先进AI能力直接落地消费级硬件,无需依赖云端处理的重大里程碑。
Gemma 3n提供两种基于有效参数量的版本:E2B和E4B。虽然它们的原始参数量分别为50亿和80亿,但通过架构创新,使其内存占用与传统20亿和40亿参数模型相当,分别仅需2GB(E2B)和3GB(E4B)内存即可运行。这一高效性得益于多项技术创新,包括MatFormer架构和分层嵌入(Per-Layer Embeddings)。
该模型自设计之初即为真正的多模态,原生支持图像、音频、视频和文本输入,并以文本形式输出。其增强的音频能力可实现高质量的自动语音识别(转录)及语音转文本翻译。此外,模型支持跨模态交错输入,能够理解复杂的多模态交互。
在视觉处理方面,Gemma 3n配备了高效的视觉编码器MobileNet-V5-300M,在边缘设备上实现了多模态任务的业界领先表现。该编码器原生支持多种输入分辨率(256x256、512x512和768x768像素),擅长多种图像和视频理解任务,并可在Google Pixel设备上每秒处理高达60帧。
E4B版本在LMArena基准测试中得分超过1300,成为首个参数量低于100亿、达到这一分数的模型。Gemma 3n在多语言能力方面也有显著提升,支持140种语言的文本处理和35种语言的多模态理解,并在数学、编程和推理能力上表现出色。
隐私保护是Gemma 3n的核心特性之一,本地运行不仅保障了用户隐私,还能在无网络环境下稳定工作。该模型由Google与高通、联发科及三星系统LSI等移动硬件领军企业紧密合作开发,针对极速多模态AI进行了深度优化,让用户在设备端即可获得真正个性化和私密的AI体验。
此次全面发布是在2025年5月Google I/O大会预览之后进行的,现已通过Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama和MLX等主流框架开放获取。这一重磅发布将助力开发者打造新一代智能终端应用,实现对现实世界的理解与响应。