Google presenta Gemma 3n: Potente IA multimodal para dispositivos móviles

Google ha lanzado Gemma 3n, un innovador modelo de IA multimodal diseñado para funcionar de forma eficiente en dispositivos de consumo con tan solo 2 GB de memoria. El modelo puede procesar audio, texto, imágenes y vídeos, operando localmente en teléfonos, tabletas y portátiles. Esta arquitectura móvil, desarrollada en colaboración con fabricantes de hardware como Qualcomm, MediaTek y Samsung, supone un avance significativo para hacer accesible la IA potente sin necesidad de conexión a la nube.

Google ha presentado oficialmente Gemma 3n, su último modelo abierto de IA multimodal, diseñado específicamente para dispositivos móviles y de borde. Este lanzamiento supone un hito importante al llevar capacidades avanzadas de IA directamente al hardware de consumo, sin depender del procesamiento en la nube.

Gemma 3n está disponible en dos tamaños según los parámetros efectivos: E2B y E4B. Si bien el número bruto de parámetros es de 5.000 millones y 8.000 millones respectivamente, las innovaciones arquitectónicas permiten que funcionen con un consumo de memoria comparable al de modelos tradicionales de 2.000 y 4.000 millones de parámetros, operando con tan solo 2 GB (E2B) y 3 GB (E4B) de memoria. Esta eficiencia se logra gracias a varias innovaciones técnicas, como la arquitectura MatFormer y las Per-Layer Embeddings.

El modelo es verdaderamente multimodal por diseño, admitiendo de forma nativa entradas de imagen, audio, vídeo y texto, mientras genera salidas en texto. Sus capacidades ampliadas de audio permiten un reconocimiento automático del habla (transcripción) y traducción de voz a texto de alta calidad. Además, el modelo acepta entradas intercaladas entre modalidades, lo que facilita la comprensión de interacciones multimodales complejas.

Para el procesamiento visual, Gemma 3n incorpora un codificador de visión altamente eficiente, MobileNet-V5-300M, que ofrece un rendimiento de vanguardia en tareas multimodales en dispositivos de borde. Este codificador admite de forma nativa múltiples resoluciones de entrada (256x256, 512x512 y 768x768 píxeles), destaca en una amplia variedad de tareas de comprensión de imágenes y vídeos, y puede procesar hasta 60 fotogramas por segundo en un Google Pixel.

La versión E4B alcanza una puntuación LMArena superior a 1300, convirtiéndose en el primer modelo con menos de 10.000 millones de parámetros en lograr este hito. Gemma 3n ofrece mejoras de calidad en multilingüismo, con soporte para 140 idiomas en texto y comprensión multimodal en 35 idiomas, así como capacidades mejoradas en matemáticas, programación y razonamiento.

La privacidad es una característica clave, ya que la ejecución local permite funciones que respetan la privacidad del usuario y funcionan de manera fiable incluso sin conexión a Internet. El modelo se ha creado en estrecha colaboración con líderes del hardware móvil como Qualcomm Technologies, MediaTek y la división System LSI de Samsung, y está optimizado para una IA multimodal ultrarrápida, permitiendo experiencias realmente personales y privadas directamente en los dispositivos.

El lanzamiento completo llega tras una vista previa en Google I/O en mayo de 2025, y el modelo ya está disponible a través de frameworks populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama y MLX. Este lanzamiento integral permite a los desarrolladores crear una nueva generación de aplicaciones inteligentes en el dispositivo, capaces de comprender y responder al mundo que les rodea.

Source:

Google presenta Gemma 3n: Potente IA multimodal para dispositivos móviles

Latest News

OpenTools.AI lanza un boletín diario de IA para profesionales del sector

Los drones con IA de Helsing transforman la estrategia de defensa de Ucrania

La ex-CTO de OpenAI consigue un récord de 2.000 millones de dólares para su startup de IA

EraDrive de Stanford consigue un contrato de 1 millón de dólares con la NASA para tecnología espacial de IA

Los gigantes de Hollywood se enfrentan a una empresa de IA en un caso histórico sobre derechos de autor

La revolución de la IA transforma el panorama de licitaciones federales

Nvidia consolida su liderazgo en IA con un crecimiento récord

Interfaz cerebral impulsada por IA convierte pensamientos en palabras

El impulso de la IA en China reduce la distancia con EE. UU., según un estudio de RAND

Los chips cuánticos fotónicos mejoran el rendimiento de la IA y reducen drásticamente el consumo energético

Google presenta Gemma 3n: Potente IA multimodal para dispositivos móviles

Related Articles

OpenTools.AI lanza un boletín diario de IA para profesionales del sector

El impulso de la IA en China reduce la distancia con EE. UU., según un estudio de RAND

Meta lanza una apuesta de 65.000 millones de dólares en IA con un nuevo laboratorio de superinteligencia

TomTom recorta empleos mientras la IA redefine el futuro del gigante de la navegación

Anthropic aborda el impacto económico de la IA con una nueva iniciativa de investigación

Latest News

OpenTools.AI lanza un boletín diario de IA para profesionales del sector

Los drones con IA de Helsing transforman la estrategia de defensa de Ucrania

La ex-CTO de OpenAI consigue un récord de 2.000 millones de dólares para su startup de IA

EraDrive de Stanford consigue un contrato de 1 millón de dólares con la NASA para tecnología espacial de IA

Los gigantes de Hollywood se enfrentan a una empresa de IA en un caso histórico sobre derechos de autor

La revolución de la IA transforma el panorama de licitaciones federales

Nvidia consolida su liderazgo en IA con un crecimiento récord

Interfaz cerebral impulsada por IA convierte pensamientos en palabras

El impulso de la IA en China reduce la distancia con EE. UU., según un estudio de RAND

Los chips cuánticos fotónicos mejoran el rendimiento de la IA y reducen drásticamente el consumo energético