Google dévoile Gemma 3n : une IA multimodale puissante pour les appareils mobiles

Google a lancé Gemma 3n, un modèle d’IA multimodale révolutionnaire conçu pour fonctionner efficacement sur des appareils grand public dotés de seulement 2 Go de mémoire. Ce modèle peut traiter des entrées audio, texte, image et vidéo tout en opérant localement sur téléphones, tablettes et ordinateurs portables. Cette architecture mobile-first, développée en collaboration avec des fabricants de matériel comme Qualcomm, MediaTek et Samsung, représente une avancée majeure pour rendre l’IA puissante accessible sans connexion au cloud.

Google a officiellement lancé Gemma 3n, son dernier modèle d’IA multimodale open source, spécialement conçu pour les appareils mobiles et en périphérie (edge devices). Cette sortie marque une étape importante en apportant des capacités avancées d’IA directement sur le matériel des consommateurs, sans nécessiter de traitement dans le cloud.

Gemma 3n est disponible en deux tailles selon les paramètres effectifs : E2B et E4B. Bien que le nombre brut de paramètres soit respectivement de 5 milliards et 8 milliards, des innovations architecturales permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels de 2 milliards et 4 milliards de paramètres, opérant avec seulement 2 Go (E2B) et 3 Go (E4B) de mémoire. Cette efficacité est rendue possible grâce à plusieurs innovations techniques, dont l’architecture MatFormer et les embeddings par couche (Per-Layer Embeddings).

Le modèle est véritablement multimodal par conception, prenant en charge nativement les entrées image, audio, vidéo et texte, tout en générant des sorties textuelles. Ses capacités audio étendues permettent une reconnaissance vocale automatique (transcription) et une traduction de la parole en texte de haute qualité. De plus, le modèle accepte des entrées entrelacées entre les différentes modalités, permettant la compréhension d’interactions multimodales complexes.

Pour le traitement visuel, Gemma 3n intègre un encodeur de vision très efficace, MobileNet-V5-300M, offrant des performances de pointe pour les tâches multimodales sur les appareils en périphérie. Cet encodeur prend en charge nativement plusieurs résolutions d’entrée (256x256, 512x512 et 768x768 pixels), excelle sur un large éventail de tâches de compréhension d’images et de vidéos, et peut traiter jusqu’à 60 images par seconde sur un Google Pixel.

La version E4B atteint un score LMArena supérieur à 1300, devenant ainsi le premier modèle de moins de 10 milliards de paramètres à franchir ce seuil. Gemma 3n offre des améliorations de qualité sur le plan du multilinguisme, prenant en charge 140 langues pour le texte et la compréhension multimodale de 35 langues, ainsi que des capacités renforcées en mathématiques, codage et raisonnement.

La confidentialité est un élément clé, l’exécution locale permettant des fonctionnalités qui respectent la vie privée des utilisateurs et fonctionnent de manière fiable même sans connexion Internet. Le modèle a été créé en étroite collaboration avec des leaders du matériel mobile tels que Qualcomm Technologies, MediaTek et la division System LSI de Samsung, et il est optimisé pour une IA multimodale ultra-rapide, permettant des expériences véritablement personnelles et privées directement sur les appareils.

La sortie complète fait suite à une présentation lors de Google I/O en mai 2025. Le modèle est désormais disponible via des frameworks populaires tels que Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama et MLX. Ce lancement complet permet aux développeurs de créer une nouvelle génération d’applications intelligentes embarquées, capables de comprendre et de répondre à leur environnement.

Source:

Google dévoile Gemma 3n : une IA multimodale puissante pour les appareils mobiles

Latest News

OpenTools.AI lance une veille quotidienne sur l’IA à destination des professionnels du secteur

Les drones IA de Helsing transforment la stratégie de défense de l’Ukraine

L’ancienne CTO d’OpenAI lève un montant record de 2 milliards de dollars pour sa startup d’IA

EraDrive de Stanford décroche un contrat de 1 million de dollars avec la NASA pour une technologie spatiale basée sur l’IA

Les géants d’Hollywood affrontent une entreprise d’IA dans une affaire de droits d’auteur historique

La révolution de l’IA transforme le paysage des appels d’offres fédéraux

Nvidia consolide sa domination dans l’IA avec une trajectoire de croissance record

Une interface cerveau-ordinateur alimentée par l’IA transforme les pensées en mots

La Chine réduit l'écart avec les États-Unis dans l'IA, selon une étude du RAND

Les puces quantiques photoniques dopent les performances de l’IA tout en réduisant la consommation d’énergie

Google dévoile Gemma 3n : une IA multimodale puissante pour les appareils mobiles

Related Articles

OpenTools.AI lance une veille quotidienne sur l’IA à destination des professionnels du secteur

La Chine réduit l'écart avec les États-Unis dans l'IA, selon une étude du RAND

Meta lance une offensive de 65 milliards de dollars dans l’IA avec un nouveau laboratoire de superintelligence

TomTom supprime des emplois alors que l’IA redéfinit l’avenir du géant de la navigation

Anthropic s’attaque à l’impact économique de l’IA avec une nouvelle initiative de recherche

Latest News

OpenTools.AI lance une veille quotidienne sur l’IA à destination des professionnels du secteur

Les drones IA de Helsing transforment la stratégie de défense de l’Ukraine

L’ancienne CTO d’OpenAI lève un montant record de 2 milliards de dollars pour sa startup d’IA

EraDrive de Stanford décroche un contrat de 1 million de dollars avec la NASA pour une technologie spatiale basée sur l’IA

Les géants d’Hollywood affrontent une entreprise d’IA dans une affaire de droits d’auteur historique

La révolution de l’IA transforme le paysage des appels d’offres fédéraux

Nvidia consolide sa domination dans l’IA avec une trajectoire de croissance record

Une interface cerveau-ordinateur alimentée par l’IA transforme les pensées en mots

La Chine réduit l'écart avec les États-Unis dans l'IA, selon une étude du RAND

Les puces quantiques photoniques dopent les performances de l’IA tout en réduisant la consommation d’énergie