menu
close

Google bringt die visuellen Fähigkeiten von Project Astra zu Gemini Live

Google hat die fortschrittlichen visuellen Verständnisfähigkeiten von Project Astra in Gemini Live integriert und ermöglicht es dem KI-Assistenten, die Welt durch die Smartphone-Kameras und Bildschirme der Nutzer zu sehen und zu interpretieren. Dieses bedeutende Upgrade, das auf der Google I/O 2025 angekündigt wurde, erlaubt es Gemini, während Gesprächen visuelle Informationen in Echtzeit zu analysieren und Unterstützung zu bieten. Die Funktion, die zuvor zahlenden Abonnenten vorbehalten war, steht nun allen Android- und iOS-Nutzern zur Verfügung und markiert einen wichtigen Schritt auf Googles Weg zu einem universellen KI-Assistenten.
Google bringt die visuellen Fähigkeiten von Project Astra zu Gemini Live

Google hat einen bedeutenden Schritt gemacht, um KI-Assistenten visuell bewusster zu machen, indem es die Fähigkeiten von Project Astra in Gemini Live integriert hat, wie am 20. Mai auf der Google I/O 2025 angekündigt wurde.

Project Astra, erstmals auf der Google I/O 2024 vorgestellt, repräsentiert die Vision von Google DeepMind für einen „universellen KI-Assistenten, der im Alltag wirklich hilfreich sein kann“. Das ultimative Ziel ist es, die Gemini-App in einen universellen KI-Assistenten zu verwandeln, der alltägliche Aufgaben übernimmt, Routinearbeiten erledigt und personalisierte Empfehlungen liefert, um die Produktivität der Nutzer zu steigern und ihr Leben zu bereichern. Dies beginnt mit Fähigkeiten, die erstmals in Project Astra erforscht wurden, wie Videoverständnis, Bildschirmfreigabe und Gedächtnis.

Google kündigte an, dass Project Astra – das latenzarme, multimodale KI-Erlebnis des Unternehmens – eine Reihe neuer Funktionen in der Suche, der Gemini-KI-App und Produkten von Drittentwicklern antreiben wird. Besonders hervorzuheben ist, dass Project Astra eine neue Search Live-Funktion in der Google-Suche ermöglicht. Bei der Nutzung des KI-Modus oder von Lens können Nutzer auf die Schaltfläche „Live“ tippen, um Fragen zu dem zu stellen, was sie durch die Smartphone-Kamera sehen. Project Astra streamt Live-Video und -Audio in ein KI-Modell und liefert nahezu verzögerungsfreie Antworten.

In der Gemini-App, so Google, kommen die Echtzeit-Video- und Bildschirmfreigabefunktionen von Project Astra nun für alle Nutzer. Während Project Astra bereits die latenzarmen Gespräche von Gemini Live ermöglicht, war dieser visuelle Input zuvor zahlenden Abonnenten vorbehalten. Die Nutzer lieben Gemini Live – die Gespräche sind im Durchschnitt fünfmal länger als textbasierte Interaktionen, weil es neue Möglichkeiten der Unterstützung bietet, sei es bei der Fehlersuche an einem defekten Gerät oder bei personalisierter Einkaufsberatung. Deshalb stellt Google ab sofort Gemini Live mit Kamera- und Bildschirmfreigabe allen Nutzern auf Android und iOS kostenlos zur Verfügung.

Die praktischen Anwendungen sind beeindruckend. Google demonstrierte die Fähigkeiten von Project Astra anhand eines Videos, in dem Gemini Live bei alltäglichen Aktivitäten wie der Reparatur eines Fahrrads hilft. Im Video bittet der Nutzer Project Astra, das Handbuch für das zu reparierende Fahrrad zu suchen. Die KI durchsucht das Internet, findet das Dokument und fragt, was der Nutzer als Nächstes sehen möchte. Daraufhin bittet der Nutzer Project Astra, im Dokument bis zum Abschnitt über Bremsen zu scrollen. Der Bildschirm des Android-Smartphones zeigt, wie Project Astra genau das tut und die gewünschten Informationen findet. Dieses agentenartige Verhalten deutet darauf hin, dass Project Astra künftig in der Lage sein wird, gezielt Informationen online zu finden – auch innerhalb von Dokumenten.

Im vergangenen Jahr hat Google diese Fähigkeiten schrittweise in Gemini Live integriert, damit mehr Menschen sie erleben können. Das Unternehmen arbeitet kontinuierlich an Verbesserungen und neuen Innovationen, darunter eine natürlichere Sprachausgabe mit nativer Audioausgabe, ein verbessertes Gedächtnis und die Steuerung von Computern. Google sammelt derzeit Feedback zu diesen Funktionen von vertrauenswürdigen Testern und arbeitet daran, sie in Gemini Live, neue Sucherlebnisse, die Live-API für Entwickler und neue Formfaktoren wie Brillen zu bringen.

Diese Integration stellt einen bedeutenden Fortschritt dar, um KI-Assistenten kontextbewusster und im Alltag nützlicher zu machen. Sie ermöglicht es der Technologie, die Umgebung der Nutzer besser zu verstehen und relevantere Unterstützung zu bieten.

Source:

Latest News