Google ha presentado oficialmente Gemma 3n, su último modelo abierto de IA multimodal, diseñado específicamente para dispositivos móviles y de borde. Este lanzamiento supone un hito importante al llevar capacidades avanzadas de IA directamente al hardware de consumo, sin depender del procesamiento en la nube.
Gemma 3n está disponible en dos tamaños según los parámetros efectivos: E2B y E4B. Si bien el número bruto de parámetros es de 5.000 millones y 8.000 millones respectivamente, las innovaciones arquitectónicas permiten que funcionen con un consumo de memoria comparable al de modelos tradicionales de 2.000 y 4.000 millones de parámetros, operando con tan solo 2 GB (E2B) y 3 GB (E4B) de memoria. Esta eficiencia se logra gracias a varias innovaciones técnicas, como la arquitectura MatFormer y las Per-Layer Embeddings.
El modelo es verdaderamente multimodal por diseño, admitiendo de forma nativa entradas de imagen, audio, vídeo y texto, mientras genera salidas en texto. Sus capacidades ampliadas de audio permiten un reconocimiento automático del habla (transcripción) y traducción de voz a texto de alta calidad. Además, el modelo acepta entradas intercaladas entre modalidades, lo que facilita la comprensión de interacciones multimodales complejas.
Para el procesamiento visual, Gemma 3n incorpora un codificador de visión altamente eficiente, MobileNet-V5-300M, que ofrece un rendimiento de vanguardia en tareas multimodales en dispositivos de borde. Este codificador admite de forma nativa múltiples resoluciones de entrada (256x256, 512x512 y 768x768 píxeles), destaca en una amplia variedad de tareas de comprensión de imágenes y vídeos, y puede procesar hasta 60 fotogramas por segundo en un Google Pixel.
La versión E4B alcanza una puntuación LMArena superior a 1300, convirtiéndose en el primer modelo con menos de 10.000 millones de parámetros en lograr este hito. Gemma 3n ofrece mejoras de calidad en multilingüismo, con soporte para 140 idiomas en texto y comprensión multimodal en 35 idiomas, así como capacidades mejoradas en matemáticas, programación y razonamiento.
La privacidad es una característica clave, ya que la ejecución local permite funciones que respetan la privacidad del usuario y funcionan de manera fiable incluso sin conexión a Internet. El modelo se ha creado en estrecha colaboración con líderes del hardware móvil como Qualcomm Technologies, MediaTek y la división System LSI de Samsung, y está optimizado para una IA multimodal ultrarrápida, permitiendo experiencias realmente personales y privadas directamente en los dispositivos.
El lanzamiento completo llega tras una vista previa en Google I/O en mayo de 2025, y el modelo ya está disponible a través de frameworks populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama y MLX. Este lanzamiento integral permite a los desarrolladores crear una nueva generación de aplicaciones inteligentes en el dispositivo, capaces de comprender y responder al mundo que les rodea.