menu
close

Google dévoile Gemma 3n : une IA multimodale puissante pour les appareils mobiles

Google a lancé Gemma 3n, un modèle d’IA multimodale révolutionnaire conçu pour fonctionner efficacement sur des appareils grand public dotés de seulement 2 Go de mémoire. Ce modèle peut traiter des entrées audio, texte, image et vidéo tout en opérant localement sur téléphones, tablettes et ordinateurs portables. Cette architecture mobile-first, développée en collaboration avec des fabricants de matériel comme Qualcomm, MediaTek et Samsung, représente une avancée majeure pour rendre l’IA puissante accessible sans connexion au cloud.
Google dévoile Gemma 3n : une IA multimodale puissante pour les appareils mobiles

Google a officiellement lancé Gemma 3n, son dernier modèle d’IA multimodale open source, spécialement conçu pour les appareils mobiles et en périphérie (edge devices). Cette sortie marque une étape importante en apportant des capacités avancées d’IA directement sur le matériel des consommateurs, sans nécessiter de traitement dans le cloud.

Gemma 3n est disponible en deux tailles selon les paramètres effectifs : E2B et E4B. Bien que le nombre brut de paramètres soit respectivement de 5 milliards et 8 milliards, des innovations architecturales permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels de 2 milliards et 4 milliards de paramètres, opérant avec seulement 2 Go (E2B) et 3 Go (E4B) de mémoire. Cette efficacité est rendue possible grâce à plusieurs innovations techniques, dont l’architecture MatFormer et les embeddings par couche (Per-Layer Embeddings).

Le modèle est véritablement multimodal par conception, prenant en charge nativement les entrées image, audio, vidéo et texte, tout en générant des sorties textuelles. Ses capacités audio étendues permettent une reconnaissance vocale automatique (transcription) et une traduction de la parole en texte de haute qualité. De plus, le modèle accepte des entrées entrelacées entre les différentes modalités, permettant la compréhension d’interactions multimodales complexes.

Pour le traitement visuel, Gemma 3n intègre un encodeur de vision très efficace, MobileNet-V5-300M, offrant des performances de pointe pour les tâches multimodales sur les appareils en périphérie. Cet encodeur prend en charge nativement plusieurs résolutions d’entrée (256x256, 512x512 et 768x768 pixels), excelle sur un large éventail de tâches de compréhension d’images et de vidéos, et peut traiter jusqu’à 60 images par seconde sur un Google Pixel.

La version E4B atteint un score LMArena supérieur à 1300, devenant ainsi le premier modèle de moins de 10 milliards de paramètres à franchir ce seuil. Gemma 3n offre des améliorations de qualité sur le plan du multilinguisme, prenant en charge 140 langues pour le texte et la compréhension multimodale de 35 langues, ainsi que des capacités renforcées en mathématiques, codage et raisonnement.

La confidentialité est un élément clé, l’exécution locale permettant des fonctionnalités qui respectent la vie privée des utilisateurs et fonctionnent de manière fiable même sans connexion Internet. Le modèle a été créé en étroite collaboration avec des leaders du matériel mobile tels que Qualcomm Technologies, MediaTek et la division System LSI de Samsung, et il est optimisé pour une IA multimodale ultra-rapide, permettant des expériences véritablement personnelles et privées directement sur les appareils.

La sortie complète fait suite à une présentation lors de Google I/O en mai 2025. Le modèle est désormais disponible via des frameworks populaires tels que Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama et MLX. Ce lancement complet permet aux développeurs de créer une nouvelle génération d’applications intelligentes embarquées, capables de comprendre et de répondre à leur environnement.

Source:

Latest News