Google dévoile Gemma 3n : une puissante IA multimodale pour appareils mobiles

Google a lancé Gemma 3n, un modèle d’IA multimodale révolutionnaire conçu pour fonctionner efficacement sur des appareils grand public avec aussi peu que 2 Go de mémoire. Le modèle peut traiter des entrées audio, texte, image et vidéo tout en opérant localement sur téléphones, tablettes et ordinateurs portables. Cette architecture axée sur la mobilité, développée en collaboration avec des fabricants de matériel comme Qualcomm, MediaTek et Samsung, représente une avancée majeure pour rendre l’IA puissante accessible sans connexion au nuage.

Google a officiellement lancé Gemma 3n, son tout dernier modèle d’IA multimodale ouverte, spécialement conçu pour les appareils mobiles et en périphérie (edge). Cette sortie marque une étape importante dans l’intégration de capacités avancées d’IA directement sur le matériel des consommateurs, sans nécessiter de traitement dans le nuage.

Gemma 3n est offert en deux tailles selon les paramètres effectifs : E2B et E4B. Bien que le nombre brut de paramètres soit respectivement de 5B et 8B, des innovations architecturales permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels de 2B et 4B, soit avec aussi peu que 2 Go (E2B) et 3 Go (E4B) de mémoire. Cette efficacité est rendue possible grâce à plusieurs innovations techniques, dont l’architecture MatFormer et les embeddings par couche (Per-Layer Embeddings).

Le modèle est véritablement multimodal par conception, prenant en charge de façon native les entrées image, audio, vidéo et texte, tout en générant des sorties textuelles. Ses capacités audio élargies permettent une reconnaissance vocale automatique (transcription) et une traduction de la parole vers le texte de haute qualité. De plus, le modèle accepte des entrées entrelacées à travers différentes modalités, ce qui permet la compréhension d’interactions multimodales complexes.

Pour le traitement visuel, Gemma 3n intègre un encodeur visuel hautement efficace, MobileNet-V5-300M, offrant des performances de pointe pour les tâches multimodales sur appareils en périphérie. Cet encodeur prend en charge plusieurs résolutions d’entrée (256x256, 512x512 et 768x768 pixels), excelle dans une vaste gamme de tâches de compréhension d’images et de vidéos, et peut traiter jusqu’à 60 images par seconde sur un Google Pixel.

La version E4B atteint un score LMArena supérieur à 1300, faisant d’elle le premier modèle de moins de 10 milliards de paramètres à franchir ce seuil. Gemma 3n offre des améliorations de qualité en matière de multilinguisme, prenant en charge 140 langues pour le texte et la compréhension multimodale de 35 langues, ainsi que des capacités accrues en mathématiques, en programmation et en raisonnement.

Le respect de la vie privée est un élément clé, puisque l’exécution locale permet des fonctionnalités qui protègent la confidentialité des utilisateurs et fonctionnent de façon fiable même sans connexion Internet. Le modèle a été développé en étroite collaboration avec des leaders du matériel mobile comme Qualcomm Technologies, MediaTek et la division System LSI de Samsung, et il est optimisé pour une IA multimodale ultra-rapide, permettant des expériences véritablement personnelles et privées directement sur les appareils.

La sortie complète fait suite à une présentation lors de Google I/O en mai 2025, et le modèle est désormais disponible via des cadres populaires comme Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama et MLX. Ce lancement complet permet aux développeurs de créer une nouvelle génération d’applications intelligentes sur appareil, capables de comprendre et de réagir à leur environnement.

Source:

Google dévoile Gemma 3n : une puissante IA multimodale pour appareils mobiles

Latest News

OpenTools.AI lance un bulletin quotidien sur l’IA pour les professionnels de l’industrie

Les drones IA de Helsing transforment la stratégie de défense de l’Ukraine

L’ex-CTO d’OpenAI obtient un financement record de 2 milliards $ pour sa startup en IA

EraDrive de Stanford décroche un contrat de 1 M$ US avec la NASA pour une technologie d’IA spatiale

Les géants d’Hollywood affrontent une firme d’IA dans une cause historique sur le droit d’auteur

La révolution de l’IA transforme le paysage des appels d’offres fédéraux

Nvidia consolide sa position de leader en IA avec une trajectoire de croissance record

Une interface cerveau-ordinateur alimentée par l’IA transforme les pensées en mots

La poussée de l’IA en Chine réduit l’écart avec les États-Unis, selon une étude de la RAND

Les puces quantiques photoniques améliorent la performance de l’IA tout en réduisant la consommation d’énergie

Google dévoile Gemma 3n : une puissante IA multimodale pour appareils mobiles

Related Articles

OpenTools.AI lance un bulletin quotidien sur l’IA pour les professionnels de l’industrie

La poussée de l’IA en Chine réduit l’écart avec les États-Unis, selon une étude de la RAND

Meta lance une initiative de 65 G$ en IA avec un nouveau laboratoire de superintelligence

TomTom supprime des emplois alors que l’IA redéfinit l’avenir du géant de la navigation

Anthropic s’attaque à l’impact économique de l’IA avec une nouvelle initiative de recherche

Latest News

OpenTools.AI lance un bulletin quotidien sur l’IA pour les professionnels de l’industrie

Les drones IA de Helsing transforment la stratégie de défense de l’Ukraine

L’ex-CTO d’OpenAI obtient un financement record de 2 milliards $ pour sa startup en IA

EraDrive de Stanford décroche un contrat de 1 M$ US avec la NASA pour une technologie d’IA spatiale

Les géants d’Hollywood affrontent une firme d’IA dans une cause historique sur le droit d’auteur

La révolution de l’IA transforme le paysage des appels d’offres fédéraux

Nvidia consolide sa position de leader en IA avec une trajectoire de croissance record

Une interface cerveau-ordinateur alimentée par l’IA transforme les pensées en mots

La poussée de l’IA en Chine réduit l’écart avec les États-Unis, selon une étude de la RAND

Les puces quantiques photoniques améliorent la performance de l’IA tout en réduisant la consommation d’énergie