Google ha compiuto un notevole passo avanti nel rendere gli assistenti AI più consapevoli dal punto di vista visivo, integrando le capacità di Project Astra in Gemini Live, come annunciato al Google I/O 2025 il 20 maggio.
Project Astra, presentato per la prima volta al Google I/O 2024, rappresenta la visione di Google DeepMind di un "assistente AI universale che possa essere davvero utile nella vita quotidiana". L’obiettivo finale è trasformare l’app Gemini in un assistente AI universale in grado di svolgere compiti di tutti i giorni, occuparsi di attività amministrative ripetitive e offrire raccomandazioni personalizzate per rendere gli utenti più produttivi e arricchire le loro vite. Tutto ciò parte dalle funzionalità esplorate inizialmente in Project Astra, come la comprensione video, la condivisione dello schermo e la memoria.
Google ha annunciato che Project Astra — l’esperienza AI multimodale e a bassa latenza dell’azienda — alimenterà una serie di nuove esperienze in Ricerca, nell’app Gemini AI e nei prodotti di sviluppatori terzi. In particolare, Project Astra è alla base della nuova funzione Search Live in Google Search. Utilizzando la Modalità AI o Lens, gli utenti possono premere il pulsante "Live" per porre domande su ciò che vedono attraverso la fotocamera dello smartphone. Project Astra trasmette video e audio in diretta a un modello AI e risponde con risposte praticamente senza latenza.
Nell’app Gemini, Google afferma che le capacità di video in tempo reale e condivisione dello schermo di Project Astra saranno disponibili per tutti gli utenti. Sebbene Project Astra alimentasse già le conversazioni a bassa latenza di Gemini Live, questo input visivo era precedentemente riservato agli abbonati a pagamento. Gli utenti apprezzano molto Gemini Live, con conversazioni in media cinque volte più lunghe rispetto alle interazioni testuali, perché offre nuovi modi per ricevere aiuto, che si tratti di risolvere un elettrodomestico guasto o ricevere consigli personalizzati per lo shopping. Per questo motivo, a partire da oggi, Google rende Gemini Live con fotocamera e condivisione dello schermo disponibile gratuitamente per tutti su Android e iOS.
Le applicazioni pratiche sono impressionanti. Google ha mostrato le capacità di Project Astra attraverso un video in cui Gemini Live aiuta nelle attività quotidiane, come riparare una bicicletta. Nel video, l’utente chiede a Project Astra di cercare il manuale della bici che sta riparando. L’AI naviga sul web, trova il documento e chiede cosa l’utente desideri vedere successivamente. L’utente quindi chiede a Project Astra di scorrere il documento fino a trovare la sezione sui freni. Lo schermo dello smartphone Android mostra Project Astra che esegue proprio questa operazione e trova le informazioni richieste. Questo tipo di comportamento agentico suggerisce che Project Astra sarà in grado di accedere a informazioni specifiche online, anche all’interno dei documenti.
Nell’ultimo anno, Google ha integrato queste capacità in Gemini Live per permettere a più persone di sperimentarle. L’azienda continua a migliorare e a esplorare nuove innovazioni, tra cui il potenziamento della voce per renderla più naturale con audio nativo, il miglioramento della memoria e l’aggiunta del controllo del computer. Google sta ora raccogliendo feedback su queste funzionalità da tester fidati e lavora per portarle su Gemini Live, nelle nuove esperienze di Ricerca, nell’API Live per sviluppatori e su nuovi dispositivi come gli occhiali.
Questa integrazione rappresenta un importante progresso nel rendere gli assistenti AI più consapevoli del contesto e utili negli scenari quotidiani, permettendo alla tecnologia di comprendere meglio l’ambiente degli utenti e offrire assistenza più pertinente.