Google зробила значний крок уперед у розвитку візуальної обізнаності AI-асистентів, інтегрувавши можливості Project Astra у Gemini Live, про що було оголошено на Google I/O 2025 20 травня.
Project Astra, вперше представлений на Google I/O 2024, втілює бачення Google DeepMind щодо «універсального AI-асистента, який може бути справді корисним у повсякденному житті». Кінцева мета — перетворити додаток Gemini на універсального AI-асистента, який виконує повсякденні завдання, бере на себе рутинну адміністративну роботу та пропонує персоналізовані рекомендації для підвищення продуктивності й покращення життя користувачів. Все це починається з функцій, вперше випробуваних у Project Astra, таких як розуміння відео, спільний доступ до екрана та пам’ять.
Google оголосила, що Project Astra — низьколатентний, мультимодальний AI-досвід компанії — стане основою для нових можливостей у Search, додатку Gemini AI та продуктах сторонніх розробників. Найпомітніше, Project Astra забезпечує нову функцію Search Live у Google Search. Під час використання AI Mode або Lens користувачі можуть натиснути кнопку «Live», щоб ставити запитання про те, що бачать через камеру смартфона. Project Astra транслює відео та аудіо в реальному часі в AI-модель і майже миттєво надає відповіді.
У додатку Gemini, за словами Google, можливості Project Astra щодо відео в реальному часі та спільного доступу до екрана стануть доступними для всіх користувачів. Хоча Project Astra вже забезпечує низьколатентні розмови Gemini Live, раніше цей візуальний ввід був доступний лише підписникам.
Користувачі цінують Gemini Live: у середньому розмови тут у п’ять разів довші, ніж текстові взаємодії, адже сервіс пропонує нові способи отримання допомоги — від усунення несправностей побутової техніки до персоналізованих порад щодо покупок. Саме тому відсьогодні Google відкриває Gemini Live з підтримкою камери та спільного доступу до екрана для всіх користувачів Android та iOS безкоштовно.
Практичні застосування вражають. Google продемонструвала можливості Project Astra, показавши відео, де Gemini Live допомагає у повсякденних справах, наприклад, під час ремонту велосипеда. У ролику користувач просить Project Astra знайти інструкцію до велосипеда, який ремонтує. AI знаходить потрібний документ в інтернеті та запитує, що показати далі. Користувач просить прокрутити документ до розділу про гальма. На екрані Android-телефона видно, як Project Astra виконує це завдання та знаходить потрібну інформацію. Така агентна поведінка свідчить, що Project Astra зможе знаходити конкретну інформацію онлайн, навіть у межах документів.
Протягом останнього року Google інтегрувала ці можливості у Gemini Live, щоб більше людей змогли їх випробувати. Компанія продовжує вдосконалювати й досліджувати нові інновації, зокрема покращення голосового виходу для більш природного звучання, розвиток пам’яті та додавання керування комп’ютером. Зараз Google збирає відгуки про ці функції від довірених тестувальників і працює над їх впровадженням у Gemini Live, нові можливості Search, Live API для розробників та нові форм-фактори, наприклад, окуляри.
Ця інтеграція є значним кроком у підвищенні контекстної обізнаності AI-асистентів і їхньої користі у повсякденних ситуаціях, дозволяючи технологіям краще розуміти оточення користувачів і надавати більш релевантну допомогу.