menu
close

Google dote Gemini Live des pouvoirs visuels de Project Astra

Google a intégré les capacités avancées de compréhension visuelle de Project Astra à Gemini Live, permettant à l’assistant IA de voir et d’interpréter le monde à travers les caméras et écrans des smartphones des utilisateurs. Cette mise à niveau majeure, annoncée lors de la Google I/O 2025, permet à Gemini de fournir une assistance en temps réel en analysant les informations visuelles pendant les conversations. Cette fonctionnalité, auparavant réservée aux abonnés payants, est désormais accessible à tous les utilisateurs Android et iOS, marquant une étape importante vers la vision de Google d’un assistant IA universel.
Google dote Gemini Live des pouvoirs visuels de Project Astra

Google a franchi une étape importante dans le développement d’assistants IA plus conscients de leur environnement visuel en intégrant les capacités de Project Astra à Gemini Live, comme annoncé lors de la Google I/O 2025 le 20 mai.

Project Astra, présenté pour la première fois à la Google I/O 2024, incarne la vision de Google DeepMind d’un « assistant IA universel véritablement utile au quotidien ». L’objectif ultime est de transformer l’application Gemini en un assistant IA universel capable d’accomplir des tâches quotidiennes, de gérer l’administratif et de proposer des recommandations personnalisées pour rendre les utilisateurs plus productifs et enrichir leur vie. Cela commence par des fonctionnalités explorées initialement dans Project Astra, telles que la compréhension vidéo, le partage d’écran et la mémoire.

Google a annoncé que Project Astra — l’expérience IA multimodale à faible latence de l’entreprise — alimentera une série de nouvelles expériences dans la Recherche, l’application Gemini et les produits de développeurs tiers. Le plus notable est la nouvelle fonctionnalité Search Live dans Google Search, propulsée par Project Astra. Lors de l’utilisation du Mode IA ou de Lens, les utilisateurs peuvent cliquer sur le bouton « Live » pour poser des questions sur ce qu’ils voient à travers la caméra de leur smartphone. Project Astra diffuse la vidéo et l’audio en direct dans un modèle IA et répond quasi instantanément.

Dans l’application Gemini, Google indique que les capacités de vidéo en temps réel et de partage d’écran de Project Astra seront disponibles pour tous les utilisateurs. Alors que Project Astra propulse déjà les conversations à faible latence de Gemini Live, cet apport visuel était auparavant réservé aux abonnés payants. Gemini Live est très apprécié, les conversations y étant en moyenne cinq fois plus longues que les interactions textuelles, car il offre de nouvelles façons d’obtenir de l’aide, que ce soit pour dépanner un appareil ou recevoir des conseils d’achat personnalisés. C’est pourquoi, dès aujourd’hui, Google rend Gemini Live avec caméra et partage d’écran accessible gratuitement à tous sur Android et iOS.

Les applications concrètes sont impressionnantes. Google a fait la démonstration des capacités de Project Astra en montrant une vidéo où Gemini Live aide lors d’activités quotidiennes, comme la réparation d’un vélo. Dans la vidéo, l’utilisateur demande à Project Astra de chercher le manuel du vélo qu’il répare. L’IA navigue sur le web, trouve le document et demande ce que l’utilisateur souhaite voir ensuite. L’utilisateur demande alors à Project Astra de faire défiler le document jusqu’à la section sur les freins. L’écran du téléphone Android montre Project Astra exécutant cette tâche et trouvant l’information. Ce type de comportement agentif suggère que Project Astra pourra accéder à des informations précises en ligne, même à l’intérieur de documents.

Au cours de l’année écoulée, Google a intégré ces capacités à Gemini Live pour permettre à un plus grand nombre d’utilisateurs d’en bénéficier. L’entreprise continue d’améliorer et d’explorer de nouvelles innovations, notamment en rendant la voix plus naturelle grâce à l’audio natif, en améliorant la mémoire et en ajoutant le contrôle de l’ordinateur. Google recueille actuellement les retours de testeurs de confiance sur ces fonctionnalités et travaille à leur intégration dans Gemini Live, dans de nouvelles expériences de Recherche, dans l’API Live pour les développeurs, ainsi que dans de nouveaux formats comme les lunettes connectées.

Cette intégration représente une avancée majeure pour rendre les assistants IA plus conscients du contexte et utiles dans les situations quotidiennes, permettant à la technologie de mieux comprendre l’environnement des utilisateurs et de fournir une assistance plus pertinente.

Source:

Latest News