Google ha lanzado oficialmente Gemma 3n, su más reciente modelo abierto de IA multimodal, diseñado específicamente para dispositivos móviles y de borde. Este lanzamiento marca un hito importante al llevar capacidades avanzadas de IA directamente al hardware de los consumidores, sin requerir procesamiento en la nube.
Gemma 3n está disponible en dos tamaños según parámetros efectivos: E2B y E4B. Aunque sus conteos de parámetros brutos son de 5B y 8B respectivamente, innovaciones arquitectónicas permiten que funcionen con un uso de memoria comparable a modelos tradicionales de 2B y 4B, operando con tan solo 2 GB (E2B) y 3 GB (E4B) de memoria. Esta eficiencia se logra gracias a varias innovaciones técnicas, incluyendo la arquitectura MatFormer y Per-Layer Embeddings.
El modelo es verdaderamente multimodal por diseño, admitiendo de forma nativa entradas de imagen, audio, video y texto, mientras que genera salidas en texto. Sus capacidades de audio ampliadas permiten reconocimiento automático de voz (transcripción) y traducción de voz a texto de alta calidad. Además, el modelo acepta entradas intercaladas entre modalidades, lo que permite comprender interacciones multimodales complejas.
Para el procesamiento visual, Gemma 3n incorpora un codificador de visión altamente eficiente, MobileNet-V5-300M, que ofrece un rendimiento de última generación para tareas multimodales en dispositivos de borde. Este codificador admite de forma nativa múltiples resoluciones de entrada (256x256, 512x512 y 768x768 píxeles), destaca en una amplia gama de tareas de comprensión de imágenes y video, y puede procesar hasta 60 cuadros por segundo en un Google Pixel.
La versión E4B alcanza una puntuación LMArena superior a 1300, convirtiéndose en el primer modelo con menos de 10 mil millones de parámetros en lograr este referente. Gemma 3n ofrece mejoras de calidad en multilingüismo, con soporte para 140 idiomas en texto y comprensión multimodal en 35 idiomas, así como capacidades mejoradas en matemáticas, programación y razonamiento.
La privacidad es una característica clave, ya que la ejecución local permite funciones que respetan la privacidad del usuario y funcionan de manera confiable incluso sin conexión a internet. El modelo fue creado en estrecha colaboración con líderes en hardware móvil como Qualcomm Technologies, MediaTek y el área System LSI de Samsung, y está optimizado para una IA multimodal ultrarrápida, permitiendo experiencias verdaderamente personales y privadas directamente en los dispositivos.
El lanzamiento completo sigue a una vista previa presentada en Google I/O en mayo de 2025, y ahora el modelo está disponible a través de marcos populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama y MLX. Este lanzamiento integral permite a los desarrolladores crear una nueva generación de aplicaciones inteligentes en el dispositivo, capaces de comprender y responder al mundo que los rodea.