menu
close

Google ger Project Astras visuella krafter till Gemini Live

Google har integrerat Project Astras avancerade visuella förståelse i Gemini Live, vilket gör det möjligt för AI-assistenten att se och tolka världen genom användarnas mobilkameror och skärmar. Denna betydande uppgradering, som presenterades på Google I/O 2025, låter Gemini ge realtidsassistans genom att analysera visuell information under samtal. Funktionen, som tidigare var begränsad till betalande prenumeranter, är nu tillgänglig för alla Android- och iOS-användare och markerar ett stort steg mot Googles vision om en universell AI-assistent.
Google ger Project Astras visuella krafter till Gemini Live

Google har tagit ett stort steg framåt för att göra AI-assistenter mer visuellt medvetna genom att integrera Project Astras kapacitet i Gemini Live, vilket tillkännagavs på Google I/O 2025 den 20 maj.

Project Astra, som först presenterades på Google I/O 2024, representerar Google DeepMinds vision om en "universell AI-assistent som verkligen kan vara hjälpsam i vardagen." Det slutgiltiga målet är att förvandla Gemini-appen till en universell AI-assistent som utför vardagliga uppgifter, hanterar tråkig administration och ger personliga rekommendationer för att göra användarna mer produktiva och berika deras liv. Detta börjar med funktioner som först utforskades i Project Astra, såsom videoförståelse, skärmdelning och minne.

Google meddelade att Project Astra – företagets AI-upplevelse med låg latens och multimodala funktioner – kommer att driva en rad nya upplevelser i Sök, Gemini AI-appen och produkter från tredjepartsutvecklare. Mest anmärkningsvärt är att Project Astra driver en ny Search Live-funktion i Google Sök. När man använder AI-läge eller Lens kan användare klicka på "Live"-knappen för att ställa frågor om vad de ser genom mobilkameran. Project Astra strömmar livevideo och ljud till en AI-modell och svarar med minimal eller ingen fördröjning.

I Gemini-appen säger Google att Project Astras realtidsvideo och skärmdelningsfunktioner nu kommer till alla användare. Även om Project Astra redan driver Gemini Lives konversationer med låg latens, var denna visuella input tidigare reserverad för betalande prenumeranter. Användarna älskar Gemini Live, med samtal som i genomsnitt är fem gånger längre än textbaserade interaktioner, eftersom det erbjuder nya sätt att få hjälp – oavsett om det gäller att felsöka en trasig apparat eller få personliga shoppingråd. Därför gör Google från och med idag Gemini Live med kamera- och skärmdelning tillgängligt för alla på Android och iOS utan kostnad.

De praktiska användningsområdena är imponerande. Google demonstrerade Project Astras kapacitet genom att visa en video där Gemini Live hjälper till med vardagliga aktiviteter, som att laga en cykel. I videon ber användaren Project Astra att leta upp manualen till cykeln som repareras. AI:n söker på webben, hittar dokumentet och frågar vad användaren vill se härnäst. Användaren ber sedan Project Astra att bläddra i dokumentet tills den hittar avsnittet om bromsar. Android-telefonens skärm visar hur Project Astra gör just detta och hittar informationen. Denna typ av agentbeteende antyder att Project Astra kommer att kunna hämta specifik information online, även inuti dokument.

Under det senaste året har Google integrerat dessa funktioner i Gemini Live för att fler ska kunna ta del av dem. Företaget fortsätter att förbättra och utforska nya innovationer, inklusive att göra röstutmatningen mer naturlig med inbyggt ljud, förbättra minnet och lägga till datorstyrning. Google samlar nu in feedback om dessa funktioner från betrodda testare och arbetar för att ta dem till Gemini Live, nya upplevelser i Sök, Live API för utvecklare och nya formfaktorer som glasögon.

Denna integration representerar ett betydande framsteg för att göra AI-assistenter mer kontextmedvetna och användbara i vardagliga situationer, så att tekniken bättre kan förstå användarnas omgivning och ge mer relevant assistans.

Source:

Latest News