Google presenta Gemma 3n: potente IA multimodal para dispositivos móviles

Google ha lanzado Gemma 3n, un innovador modelo de IA multimodal diseñado para funcionar eficientemente en dispositivos de consumo con tan solo 2 GB de memoria. El modelo puede procesar audio, texto, imágenes y video de manera local en teléfonos, tabletas y laptops. Esta arquitectura móvil, desarrollada en colaboración con fabricantes de hardware como Qualcomm, MediaTek y Samsung, representa un avance importante para hacer que la IA potente sea accesible sin necesidad de conectividad en la nube.

Google ha lanzado oficialmente Gemma 3n, su más reciente modelo abierto de IA multimodal, diseñado específicamente para dispositivos móviles y de borde. Este lanzamiento marca un hito importante al llevar capacidades avanzadas de IA directamente al hardware de los consumidores, sin requerir procesamiento en la nube.

Gemma 3n está disponible en dos tamaños según parámetros efectivos: E2B y E4B. Aunque sus conteos de parámetros brutos son de 5B y 8B respectivamente, innovaciones arquitectónicas permiten que funcionen con un uso de memoria comparable a modelos tradicionales de 2B y 4B, operando con tan solo 2 GB (E2B) y 3 GB (E4B) de memoria. Esta eficiencia se logra gracias a varias innovaciones técnicas, incluyendo la arquitectura MatFormer y Per-Layer Embeddings.

El modelo es verdaderamente multimodal por diseño, admitiendo de forma nativa entradas de imagen, audio, video y texto, mientras que genera salidas en texto. Sus capacidades de audio ampliadas permiten reconocimiento automático de voz (transcripción) y traducción de voz a texto de alta calidad. Además, el modelo acepta entradas intercaladas entre modalidades, lo que permite comprender interacciones multimodales complejas.

Para el procesamiento visual, Gemma 3n incorpora un codificador de visión altamente eficiente, MobileNet-V5-300M, que ofrece un rendimiento de última generación para tareas multimodales en dispositivos de borde. Este codificador admite de forma nativa múltiples resoluciones de entrada (256x256, 512x512 y 768x768 píxeles), destaca en una amplia gama de tareas de comprensión de imágenes y video, y puede procesar hasta 60 cuadros por segundo en un Google Pixel.

La versión E4B alcanza una puntuación LMArena superior a 1300, convirtiéndose en el primer modelo con menos de 10 mil millones de parámetros en lograr este referente. Gemma 3n ofrece mejoras de calidad en multilingüismo, con soporte para 140 idiomas en texto y comprensión multimodal en 35 idiomas, así como capacidades mejoradas en matemáticas, programación y razonamiento.

La privacidad es una característica clave, ya que la ejecución local permite funciones que respetan la privacidad del usuario y funcionan de manera confiable incluso sin conexión a internet. El modelo fue creado en estrecha colaboración con líderes en hardware móvil como Qualcomm Technologies, MediaTek y el área System LSI de Samsung, y está optimizado para una IA multimodal ultrarrápida, permitiendo experiencias verdaderamente personales y privadas directamente en los dispositivos.

El lanzamiento completo sigue a una vista previa presentada en Google I/O en mayo de 2025, y ahora el modelo está disponible a través de marcos populares como Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama y MLX. Este lanzamiento integral permite a los desarrolladores crear una nueva generación de aplicaciones inteligentes en el dispositivo, capaces de comprender y responder al mundo que los rodea.

Source:

Google presenta Gemma 3n: potente IA multimodal para dispositivos móviles

Latest News

OpenTools.AI lanza Digest Diario de IA para Profesionales de la Industria

Drones con IA de Helsing transforman la estrategia de defensa de Ucrania

Exdirectora de Tecnología de OpenAI obtiene récord de $2,000 millones de dólares para startup de IA

EraDrive de Stanford asegura contrato de $1 millón con la NASA para tecnología espacial de IA

Gigantes de Hollywood enfrentan a empresa de IA en caso histórico de derechos de autor

La revolución de la IA transforma el panorama de licitaciones federales

Nvidia consolida su liderazgo en IA con un crecimiento récord

Interfaz cerebral impulsada por IA convierte pensamientos en palabras

El impulso de China en IA reduce la brecha con EE. UU., según estudio de RAND

Chips cuánticos fotónicos mejoran el rendimiento de la IA y reducen drásticamente el consumo de energía

Google presenta Gemma 3n: potente IA multimodal para dispositivos móviles

Related Articles

OpenTools.AI lanza Digest Diario de IA para Profesionales de la Industria

El impulso de China en IA reduce la brecha con EE. UU., según estudio de RAND

Meta lanza una apuesta de $65 mil millones en IA con nuevo laboratorio de superinteligencia

TomTom recorta empleos mientras la IA redefine el futuro del gigante de la navegación

Anthropic aborda el impacto económico de la IA con nueva iniciativa de investigación

Latest News

OpenTools.AI lanza Digest Diario de IA para Profesionales de la Industria

Drones con IA de Helsing transforman la estrategia de defensa de Ucrania

Exdirectora de Tecnología de OpenAI obtiene récord de $2,000 millones de dólares para startup de IA

EraDrive de Stanford asegura contrato de $1 millón con la NASA para tecnología espacial de IA

Gigantes de Hollywood enfrentan a empresa de IA en caso histórico de derechos de autor

La revolución de la IA transforma el panorama de licitaciones federales

Nvidia consolida su liderazgo en IA con un crecimiento récord

Interfaz cerebral impulsada por IA convierte pensamientos en palabras

El impulso de China en IA reduce la brecha con EE. UU., según estudio de RAND

Chips cuánticos fotónicos mejoran el rendimiento de la IA y reducen drásticamente el consumo de energía