menu
close

Google apporte les capacités visuelles de Project Astra à Gemini Live

Google a intégré les capacités avancées de compréhension visuelle de Project Astra à Gemini Live, permettant à l’assistant IA de voir et d’interpréter le monde à travers la caméra et l’écran des téléphones intelligents des utilisateurs. Cette mise à niveau majeure, annoncée lors de Google I/O 2025, permet à Gemini d’offrir une assistance en temps réel en analysant l’information visuelle durant les conversations. Cette fonctionnalité, auparavant réservée aux abonnés payants, est désormais offerte à tous les utilisateurs Android et iOS, marquant une étape importante vers la vision de Google de créer un assistant IA universel.
Google apporte les capacités visuelles de Project Astra à Gemini Live

Google a franchi un pas important pour rendre les assistants IA plus conscients de leur environnement visuel en intégrant les capacités de Project Astra à Gemini Live, comme annoncé lors de Google I/O 2025 le 20 mai.

Project Astra, dévoilé pour la première fois à Google I/O 2024, représente la vision de Google DeepMind pour un « assistant IA universel réellement utile dans la vie quotidienne ». L’objectif ultime est de transformer l’application Gemini en un assistant IA universel capable d’accomplir des tâches quotidiennes, de gérer l’administration routinière et de proposer des recommandations personnalisées pour rendre les utilisateurs plus productifs et enrichir leur vie. Cela commence par des capacités explorées initialement dans Project Astra, telles que la compréhension vidéo, le partage d’écran et la mémoire.

Google a annoncé que Project Astra — l’expérience IA multimodale à faible latence de l’entreprise — alimentera une gamme de nouvelles expériences dans la Recherche, l’application Gemini AI et les produits de développeurs tiers. Plus particulièrement, Project Astra propulse une nouvelle fonctionnalité Search Live dans Google Recherche. Lorsqu’ils utilisent le Mode IA ou Lens, les utilisateurs peuvent cliquer sur le bouton « Live » pour poser des questions sur ce qu’ils voient à travers la caméra de leur téléphone intelligent. Project Astra diffuse la vidéo et l’audio en direct dans un modèle IA et répond avec peu ou pas de latence.

Dans l’application Gemini, Google indique que les capacités de vidéo en temps réel et de partage d’écran de Project Astra seront offertes à tous les utilisateurs. Alors que Project Astra alimentait déjà les conversations à faible latence de Gemini Live, cette entrée visuelle était auparavant réservée aux abonnés payants. Les gens adorent Gemini Live, avec des conversations cinq fois plus longues en moyenne que les interactions textuelles, car il offre de nouvelles façons d’obtenir de l’aide, que ce soit pour dépanner un appareil défectueux ou recevoir des conseils d’achat personnalisés. C’est pourquoi, dès aujourd’hui, Google rend Gemini Live avec caméra et partage d’écran accessible gratuitement à tous sur Android et iOS.

Les applications concrètes sont impressionnantes. Google a fait la démonstration des capacités de Project Astra en présentant une vidéo où Gemini Live aide dans des activités quotidiennes, comme réparer un vélo. Dans la vidéo, l’utilisateur demande à Project Astra de trouver le manuel du vélo qu’il répare. L’IA navigue sur le web, trouve le document et demande ce que l’utilisateur souhaite voir ensuite. L’utilisateur indique alors à Project Astra de faire défiler le document jusqu’à la section sur les freins. L’écran du téléphone Android montre Project Astra accomplissant cette tâche et trouvant l’information. Ce type de comportement agentique suggère que Project Astra pourra accéder à de l’information précise en ligne, même à l’intérieur de documents.

Au cours de la dernière année, Google a intégré ces capacités à Gemini Live afin que plus de gens puissent en faire l’expérience. L’entreprise continue d’améliorer et d’explorer de nouvelles innovations, notamment en rendant la synthèse vocale plus naturelle grâce à l’audio natif, en améliorant la mémoire et en ajoutant le contrôle de l’ordinateur. Google recueille maintenant les commentaires de testeurs de confiance concernant ces fonctionnalités et travaille à les intégrer à Gemini Live, à de nouvelles expériences dans la Recherche, à l’API Live pour les développeurs et à de nouveaux formats comme les lunettes intelligentes.

Cette intégration représente une avancée majeure pour rendre les assistants IA plus conscients du contexte et utiles dans des situations quotidiennes, permettant à la technologie de mieux comprendre l’environnement des utilisateurs et d’offrir une assistance plus pertinente.

Source:

Latest News