Google a officiellement lancé Gemma 3n, son tout dernier modèle d’IA multimodale ouverte, spécialement conçu pour les appareils mobiles et en périphérie (edge). Cette sortie marque une étape importante dans l’intégration de capacités avancées d’IA directement sur le matériel des consommateurs, sans nécessiter de traitement dans le nuage.
Gemma 3n est offert en deux tailles selon les paramètres effectifs : E2B et E4B. Bien que le nombre brut de paramètres soit respectivement de 5B et 8B, des innovations architecturales permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels de 2B et 4B, soit avec aussi peu que 2 Go (E2B) et 3 Go (E4B) de mémoire. Cette efficacité est rendue possible grâce à plusieurs innovations techniques, dont l’architecture MatFormer et les embeddings par couche (Per-Layer Embeddings).
Le modèle est véritablement multimodal par conception, prenant en charge de façon native les entrées image, audio, vidéo et texte, tout en générant des sorties textuelles. Ses capacités audio élargies permettent une reconnaissance vocale automatique (transcription) et une traduction de la parole vers le texte de haute qualité. De plus, le modèle accepte des entrées entrelacées à travers différentes modalités, ce qui permet la compréhension d’interactions multimodales complexes.
Pour le traitement visuel, Gemma 3n intègre un encodeur visuel hautement efficace, MobileNet-V5-300M, offrant des performances de pointe pour les tâches multimodales sur appareils en périphérie. Cet encodeur prend en charge plusieurs résolutions d’entrée (256x256, 512x512 et 768x768 pixels), excelle dans une vaste gamme de tâches de compréhension d’images et de vidéos, et peut traiter jusqu’à 60 images par seconde sur un Google Pixel.
La version E4B atteint un score LMArena supérieur à 1300, faisant d’elle le premier modèle de moins de 10 milliards de paramètres à franchir ce seuil. Gemma 3n offre des améliorations de qualité en matière de multilinguisme, prenant en charge 140 langues pour le texte et la compréhension multimodale de 35 langues, ainsi que des capacités accrues en mathématiques, en programmation et en raisonnement.
Le respect de la vie privée est un élément clé, puisque l’exécution locale permet des fonctionnalités qui protègent la confidentialité des utilisateurs et fonctionnent de façon fiable même sans connexion Internet. Le modèle a été développé en étroite collaboration avec des leaders du matériel mobile comme Qualcomm Technologies, MediaTek et la division System LSI de Samsung, et il est optimisé pour une IA multimodale ultra-rapide, permettant des expériences véritablement personnelles et privées directement sur les appareils.
La sortie complète fait suite à une présentation lors de Google I/O en mai 2025, et le modèle est désormais disponible via des cadres populaires comme Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama et MLX. Ce lancement complet permet aux développeurs de créer une nouvelle génération d’applications intelligentes sur appareil, capables de comprendre et de réagir à leur environnement.