Google udostępnia wizualne możliwości Project Astra w Gemini Live

Google zintegrowało zaawansowane możliwości rozumienia obrazu z Project Astra z Gemini Live, umożliwiając asystentowi AI widzenie i interpretowanie świata za pomocą kamer i ekranów smartfonów użytkowników. Ta znacząca aktualizacja, ogłoszona podczas Google I/O 2025, pozwala Gemini udzielać pomocy w czasie rzeczywistym poprzez analizę informacji wizualnych podczas rozmów. Funkcja, wcześniej dostępna wyłącznie dla subskrybentów premium, jest teraz dostępna dla wszystkich użytkowników Androida i iOS, co stanowi ważny krok w kierunku realizacji wizji Google dotyczącej uniwersalnego asystenta AI.

Google wykonało znaczący krok naprzód w kierunku uczynienia asystentów AI bardziej świadomymi wizualnie, integrując możliwości Project Astra z Gemini Live, co zostało ogłoszone podczas Google I/O 2025 w dniu 20 maja.

Project Astra, po raz pierwszy zaprezentowany na Google I/O 2024, reprezentuje wizję Google DeepMind dotyczącą „uniwersalnego asystenta AI, który może być naprawdę pomocny w codziennym życiu”. Ostatecznym celem jest przekształcenie aplikacji Gemini w uniwersalnego asystenta AI, który wykonuje codzienne zadania, zajmuje się rutynową administracją i proponuje spersonalizowane rekomendacje, aby zwiększyć produktywność użytkowników i wzbogacić ich życie. Zaczyna się to od możliwości po raz pierwszy eksplorowanych w Project Astra, takich jak rozumienie wideo, udostępnianie ekranu i pamięć.

Google ogłosiło, że Project Astra — niskolatencyjne, multimodalne doświadczenie AI firmy — zasili szereg nowych funkcji w Wyszukiwarce, aplikacji Gemini AI oraz produktach firm trzecich. Najważniejsze jest to, że Project Astra napędza nową funkcję Search Live w Google Search. Podczas korzystania z trybu AI lub Lens użytkownicy mogą kliknąć przycisk „Live”, aby zadawać pytania dotyczące tego, co widzą przez kamerę swojego smartfona. Project Astra przesyła strumieniowo wideo i dźwięk do modelu AI i odpowiada niemal bez opóźnień.

W aplikacji Gemini, Google informuje, że możliwości Project Astra w zakresie wideo na żywo i udostępniania ekranu trafiają do wszystkich użytkowników. Chociaż Project Astra już wcześniej napędzał rozmowy Gemini Live o niskim opóźnieniu, ten rodzaj wejścia wizualnego był dotąd zarezerwowany dla subskrybentów premium. Użytkownicy uwielbiają Gemini Live, a rozmowy są średnio pięć razy dłuższe niż interakcje tekstowe, ponieważ oferuje nowe sposoby uzyskiwania pomocy — czy to przy naprawie zepsutego urządzenia, czy przy uzyskiwaniu spersonalizowanych porad zakupowych. Dlatego od dziś Google udostępnia Gemini Live z obsługą kamery i udostępnianiem ekranu wszystkim użytkownikom Androida i iOS za darmo.

Praktyczne zastosowania są imponujące. Google zademonstrowało możliwości Project Astra, pokazując wideo, na którym Gemini Live pomaga w codziennych czynnościach, takich jak naprawa roweru. Na filmie użytkownik prosi Project Astra o znalezienie instrukcji obsługi roweru, który naprawia. AI przeszukuje internet, znajduje dokument i pyta, co użytkownik chce zobaczyć dalej. Następnie użytkownik poleca Project Astra przewinąć dokument do sekcji dotyczącej hamulców. Ekran telefonu z Androidem pokazuje, jak Project Astra wykonuje to zadanie i znajduje odpowiednie informacje. Tego typu agentowe zachowanie sugeruje, że Project Astra będzie w stanie uzyskiwać dostęp do konkretnych informacji online, nawet wewnątrz dokumentów.

W ciągu ostatniego roku Google integrowało te możliwości z Gemini Live, aby więcej osób mogło ich doświadczyć. Firma stale doskonali i eksploruje nowe innowacje, w tym ulepszenie naturalności głosu dzięki natywnemu dźwiękowi, poprawę pamięci oraz dodanie możliwości sterowania komputerem. Google obecnie zbiera opinie na temat tych funkcji od zaufanych testerów i pracuje nad ich wdrożeniem w Gemini Live, nowych funkcjach w Wyszukiwarce, Live API dla deweloperów oraz nowych formach, takich jak okulary.

Ta integracja stanowi znaczący postęp w uczynieniu asystentów AI bardziej kontekstowo świadomymi i użytecznymi w codziennych sytuacjach, pozwalając technologii lepiej rozumieć otoczenie użytkowników i oferować bardziej trafną pomoc.

Source:

Google udostępnia wizualne możliwości Project Astra w Gemini Live

Latest News

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Fundusz Norwegii o wartości 1,8 biliona dolarów czyni AI obowiązkowym narzędziem dla pracowników

OpenTools.ai prezentuje AI News Hub dla profesjonalistów z branży technologicznej

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania

Google udostępnia wizualne możliwości Project Astra w Gemini Live

Related Articles

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania

Modele Claude 4 od Anthropic ustanawiają nowy standard w kodowaniu AI

Google rozszerza tryb AI w wyszukiwarce na cały kraj z zaawansowanymi funkcjami

Latest News

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Fundusz Norwegii o wartości 1,8 biliona dolarów czyni AI obowiązkowym narzędziem dla pracowników

OpenTools.ai prezentuje AI News Hub dla profesjonalistów z branży technologicznej

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania