Google udělal významný krok vpřed v oblasti vizuálního vnímání AI asistentů tím, že integroval schopnosti Project Astra do Gemini Live, jak bylo oznámeno na Google I/O 2025 dne 20. května.
Project Astra, poprvé představený na Google I/O 2024, představuje vizi Google DeepMind pro „univerzálního AI asistenta, který může být skutečně užitečný v každodenním životě.“ Konečným cílem je proměnit aplikaci Gemini v univerzálního AI asistenta, který zvládne každodenní úkoly, rutinní administrativu a poskytne personalizovaná doporučení, aby uživatelé byli produktivnější a jejich životy bohatší. Začíná to schopnostmi poprvé testovanými v Project Astra, jako je porozumění videu, sdílení obrazovky a paměť.
Google oznámil, že Project Astra – firemní multimodální AI s nízkou latencí – bude pohánět řadu nových funkcí ve Vyhledávání, aplikaci Gemini AI a produktech třetích stran. Nejvýrazněji Project Astra pohání novou funkci Search Live ve Vyhledávání Google. Při použití AI režimu nebo Lupy mohou uživatelé kliknout na tlačítko „Live“ a ptát se na to, co právě vidí skrze kameru svého telefonu. Project Astra streamuje živé video i zvuk do AI modelu a odpovídá s minimální nebo žádnou prodlevou.
V aplikaci Gemini Google uvádí, že funkce Project Astra pro video v reálném čase a sdílení obrazovky budou dostupné všem uživatelům. Zatímco Project Astra už nyní pohání rychlé konverzace Gemini Live, tento vizuální vstup byl dosud vyhrazen pouze platícím uživatelům. Lidé milují Gemini Live – konverzace jsou v průměru pětkrát delší než textové interakce, protože nabízí nové způsoby, jak získat pomoc, ať už jde o opravu rozbitého spotřebiče nebo personalizované rady při nakupování. Proto Google od dnešního dne zpřístupňuje Gemini Live s kamerou a sdílením obrazovky zdarma všem uživatelům Androidu a iOS.
Praktické využití je působivé. Google předvedl schopnosti Project Astra videem, kde Gemini Live pomáhá s každodenními činnostmi, například opravou kola. Ve videu uživatel požádá Project Astra, aby našel manuál k opravovanému kolu. AI prohledá web, najde dokument a zeptá se, co chce uživatel vidět dál. Uživatel pak požádá Project Astra, aby posunul dokument na část o brzdách. Obrazovka telefonu ukazuje, jak Project Astra přesně to provádí a nachází požadované informace. Tento typ agentního chování naznačuje, že Project Astra bude schopna přistupovat ke konkrétním informacím online, i v rámci dokumentů.
Během uplynulého roku Google tyto schopnosti postupně integroval do Gemini Live, aby je mohlo vyzkoušet více lidí. Firma pokračuje v inovacích, například vylepšuje hlasový výstup pro přirozenější zvuk, zlepšuje paměť a přidává ovládání počítače. Google nyní sbírá zpětnou vazbu od ověřených testerů a pracuje na tom, aby tyto funkce přinesl do Gemini Live, nových zážitků ve Vyhledávání, Live API pro vývojáře a nových zařízení, například brýlí.
Tato integrace představuje významný pokrok v tom, jak mohou být AI asistenti kontextově vnímavější a užitečnější v každodenních situacích, což umožňuje technologiím lépe rozumět prostředí uživatelů a poskytovat relevantnější asistenci.