menu
close

Google udostępnia wizualne możliwości Project Astra w Gemini Live

Google zintegrowało zaawansowane możliwości rozumienia obrazu z Project Astra z Gemini Live, umożliwiając asystentowi AI widzenie i interpretowanie świata za pomocą kamer i ekranów smartfonów użytkowników. Ta znacząca aktualizacja, ogłoszona podczas Google I/O 2025, pozwala Gemini udzielać pomocy w czasie rzeczywistym poprzez analizę informacji wizualnych podczas rozmów. Funkcja, wcześniej dostępna wyłącznie dla subskrybentów premium, jest teraz dostępna dla wszystkich użytkowników Androida i iOS, co stanowi ważny krok w kierunku realizacji wizji Google dotyczącej uniwersalnego asystenta AI.
Google udostępnia wizualne możliwości Project Astra w Gemini Live

Google wykonało znaczący krok naprzód w kierunku uczynienia asystentów AI bardziej świadomymi wizualnie, integrując możliwości Project Astra z Gemini Live, co zostało ogłoszone podczas Google I/O 2025 w dniu 20 maja.

Project Astra, po raz pierwszy zaprezentowany na Google I/O 2024, reprezentuje wizję Google DeepMind dotyczącą „uniwersalnego asystenta AI, który może być naprawdę pomocny w codziennym życiu”. Ostatecznym celem jest przekształcenie aplikacji Gemini w uniwersalnego asystenta AI, który wykonuje codzienne zadania, zajmuje się rutynową administracją i proponuje spersonalizowane rekomendacje, aby zwiększyć produktywność użytkowników i wzbogacić ich życie. Zaczyna się to od możliwości po raz pierwszy eksplorowanych w Project Astra, takich jak rozumienie wideo, udostępnianie ekranu i pamięć.

Google ogłosiło, że Project Astra — niskolatencyjne, multimodalne doświadczenie AI firmy — zasili szereg nowych funkcji w Wyszukiwarce, aplikacji Gemini AI oraz produktach firm trzecich. Najważniejsze jest to, że Project Astra napędza nową funkcję Search Live w Google Search. Podczas korzystania z trybu AI lub Lens użytkownicy mogą kliknąć przycisk „Live”, aby zadawać pytania dotyczące tego, co widzą przez kamerę swojego smartfona. Project Astra przesyła strumieniowo wideo i dźwięk do modelu AI i odpowiada niemal bez opóźnień.

W aplikacji Gemini, Google informuje, że możliwości Project Astra w zakresie wideo na żywo i udostępniania ekranu trafiają do wszystkich użytkowników. Chociaż Project Astra już wcześniej napędzał rozmowy Gemini Live o niskim opóźnieniu, ten rodzaj wejścia wizualnego był dotąd zarezerwowany dla subskrybentów premium. Użytkownicy uwielbiają Gemini Live, a rozmowy są średnio pięć razy dłuższe niż interakcje tekstowe, ponieważ oferuje nowe sposoby uzyskiwania pomocy — czy to przy naprawie zepsutego urządzenia, czy przy uzyskiwaniu spersonalizowanych porad zakupowych. Dlatego od dziś Google udostępnia Gemini Live z obsługą kamery i udostępnianiem ekranu wszystkim użytkownikom Androida i iOS za darmo.

Praktyczne zastosowania są imponujące. Google zademonstrowało możliwości Project Astra, pokazując wideo, na którym Gemini Live pomaga w codziennych czynnościach, takich jak naprawa roweru. Na filmie użytkownik prosi Project Astra o znalezienie instrukcji obsługi roweru, który naprawia. AI przeszukuje internet, znajduje dokument i pyta, co użytkownik chce zobaczyć dalej. Następnie użytkownik poleca Project Astra przewinąć dokument do sekcji dotyczącej hamulców. Ekran telefonu z Androidem pokazuje, jak Project Astra wykonuje to zadanie i znajduje odpowiednie informacje. Tego typu agentowe zachowanie sugeruje, że Project Astra będzie w stanie uzyskiwać dostęp do konkretnych informacji online, nawet wewnątrz dokumentów.

W ciągu ostatniego roku Google integrowało te możliwości z Gemini Live, aby więcej osób mogło ich doświadczyć. Firma stale doskonali i eksploruje nowe innowacje, w tym ulepszenie naturalności głosu dzięki natywnemu dźwiękowi, poprawę pamięci oraz dodanie możliwości sterowania komputerem. Google obecnie zbiera opinie na temat tych funkcji od zaufanych testerów i pracuje nad ich wdrożeniem w Gemini Live, nowych funkcjach w Wyszukiwarce, Live API dla deweloperów oraz nowych formach, takich jak okulary.

Ta integracja stanowi znaczący postęp w uczynieniu asystentów AI bardziej kontekstowo świadomymi i użytecznymi w codziennych sytuacjach, pozwalając technologii lepiej rozumieć otoczenie użytkowników i oferować bardziej trafną pomoc.

Source:

Latest News