Google hat seine Fähigkeiten zur KI-basierten Medienerzeugung mit der Einführung von Veo 3 und Imagen 4 auf der jährlichen I/O-Entwicklerkonferenz am 20. Mai 2025 deutlich erweitert.
Veo 3, das neueste Videogenerierungsmodell von Google, markiert einen bedeutenden Fortschritt, da es erstmals auch Audio erzeugen kann. Das Modell erstellt Videos mit synchronisierten Hintergrundgeräuschen wie Verkehrslärm oder Vogelgezwitscher und kann sogar Dialoge zwischen Charakteren mit präzisem Lippenabgleich generieren. Veo 3 zeigt ein verbessertes Verständnis für reale Physik und menschliche Ausdrucksformen, was zu realistischeren und detailreicheren Videoergebnissen führt.
Neben Veo 3 stellte Google auch Imagen 4 vor, das bisher fortschrittlichste Bildgenerierungsmodell des Unternehmens. Imagen 4 überzeugt durch die Darstellung feinster Details wie komplexer Stoffstrukturen, Wassertropfen oder Tierfell mit außergewöhnlicher Klarheit. Das Modell unterstützt verschiedene Seitenverhältnisse und kann Bilder mit Auflösungen bis zu 2K erzeugen, wodurch sie sich auch für den Druck oder Präsentationen eignen. Google kündigte zudem eine „schnelle Variante“ von Imagen 4 an, die bis zu zehnmal schneller als der Vorgänger sein und für schnelles Prototyping sowie kreative Workflows optimiert werden soll.
Diese leistungsstarken KI-Modelle bilden das Fundament für Flow, Googles neues KI-gestütztes Filmemacher-Tool. Flow vereint die Fähigkeiten von Veo, Imagen und Gemini, um Geschichtenerzählern die Erstellung cineastischer Clips und Szenen zu ermöglichen. Zu den Funktionen gehören Camera Controls für präzise Kamerafahrten, SceneBuilder für nahtlose Erweiterungen von Einstellungen und Asset Management zur Organisation kreativer Elemente. Flow erlaubt es Kreativen, konsistente Charaktere und Szenen über mehrere Clips hinweg beizubehalten und so ein stimmiges Storytelling-Erlebnis zu schaffen.
Veo 3 steht derzeit Google AI Ultra-Abonnenten in den USA für 249,99 US-Dollar pro Monat zur Verfügung, während Imagen 4 über die Gemini-App, Whisk, Vertex AI und verschiedene Google Workspace-Anwendungen zugänglich ist. Alle von diesen Modellen erzeugten Inhalte enthalten SynthID-Wasserzeichen, um Transparenz zu gewährleisten und der Verbreitung von Fehlinformationen entgegenzuwirken.
Diese Entwicklungen unterstreichen Googles Engagement, seine KI-Fähigkeiten für mehr Nutzer zugänglich zu machen. Das Unternehmen gab zudem bekannt, dass die Gemini-Apps mittlerweile mehr als 400 Millionen monatlich aktive Nutzer verzeichnen – ein Beleg für die rasante Verbreitung der KI-Technologien von Google.