menu
close

Google интегрировала визуальные возможности Project Astra в Gemini Live

Google внедрила передовые технологии визуального восприятия Project Astra в Gemini Live, позволив ИИ-ассистенту видеть и интерпретировать окружающий мир через камеры и экраны смартфонов пользователей. Это значительное обновление, анонсированное на Google I/O 2025, позволяет Gemini оказывать помощь в реальном времени, анализируя визуальную информацию во время диалога. Ранее функция была доступна только платным подписчикам, а теперь открыта для всех пользователей Android и iOS, что стало важным шагом к созданию универсального ИИ-ассистента по видению Google.
Google интегрировала визуальные возможности Project Astra в Gemini Live

Google совершила значительный шаг вперёд в развитии визуальной осведомлённости ИИ-ассистентов, интегрировав возможности Project Astra в Gemini Live, как было объявлено на Google I/O 2025 20 мая.

Project Astra, впервые представленная на Google I/O 2024, отражает видение Google DeepMind по созданию «универсального ИИ-ассистента, который действительно помогает в повседневной жизни». Конечная цель — превратить приложение Gemini в универсального ИИ-ассистента, выполняющего повседневные задачи, рутинные административные процессы и предоставляющего персонализированные рекомендации для повышения продуктивности и обогащения жизни пользователей. Всё начинается с возможностей, впервые реализованных в Project Astra, таких как понимание видео, совместное использование экрана и память.

Google объявила, что Project Astra — низколатентный мультимодальный ИИ-опыт компании — станет основой для ряда новых функций в Поиске, приложении Gemini AI и продуктах сторонних разработчиков. Особенно важно, что Project Astra лежит в основе новой функции Search Live в Google Поиске. При использовании AI Mode или Lens пользователи могут нажать кнопку «Live», чтобы задавать вопросы о том, что они видят через камеру смартфона. Project Astra транслирует видео и аудио в реальном времени в ИИ-модель и практически мгновенно возвращает ответы.

В приложении Gemini, по словам Google, функции Project Astra по обработке видео в реальном времени и совместному использованию экрана становятся доступны всем пользователям. Хотя Project Astra уже обеспечивает низколатентные диалоги Gemini Live, визуальный ввод ранее был доступен только платным подписчикам. Пользователи любят Gemini Live: средняя продолжительность разговоров здесь в пять раз выше, чем при текстовых взаимодействиях, поскольку сервис предлагает новые способы получения помощи — от устранения неисправностей бытовой техники до персональных советов по покупкам. Поэтому, начиная с сегодняшнего дня, Google делает Gemini Live с поддержкой камеры и совместного использования экрана бесплатным для всех пользователей Android и iOS.

Практические применения впечатляют. Google продемонстрировала возможности Project Astra на видео, где Gemini Live помогает в повседневных задачах, например, при ремонте велосипеда. Пользователь просит Project Astra найти инструкцию для велосипеда, который он чинит. ИИ ищет документ в интернете, находит его и спрашивает, что пользователь хочет увидеть дальше. Затем пользователь просит прокрутить документ до раздела о тормозах. На экране Android-смартфона видно, как Project Astra выполняет это и находит нужную информацию. Такое агентное поведение говорит о том, что Project Astra сможет получать доступ к конкретной информации онлайн, даже внутри документов.

В течение последнего года Google интегрировала эти возможности в Gemini Live, чтобы больше пользователей могли их опробовать. Компания продолжает совершенствовать и исследовать новые инновации, включая более естественную озвучку с помощью нативного аудио, улучшение памяти и добавление управления компьютером. Сейчас Google собирает отзывы о новых возможностях от доверенных тестировщиков и работает над их внедрением в Gemini Live, новые функции Поиска, Live API для разработчиков и новые форм-факторы, такие как очки.

Эта интеграция знаменует собой значительный прогресс в создании ИИ-ассистентов, более чутко воспринимающих контекст и полезных в повседневных ситуациях, позволяя технологиям лучше понимать окружение пользователя и оказывать более релевантную помощь.

Source:

Latest News