Google hebt die KI-Videoerzeugung mit der Einführung von Veo 3 auf ein neues Niveau: Das bahnbrechende Modell ermöglicht erstmals die Integration von Audio in KI-generierte Videos.
Veo 3, das im Mai auf der Google I/O 2025 vorgestellt wurde, stellt einen bedeutenden Fortschritt gegenüber bisherigen KI-Videogeneratoren dar, da es synchronisierte Dialoge, Umgebungsgeräusche und Hintergrundmusik direkt in die generierten Clips einbindet. „Zum ersten Mal verlassen wir die stumme Ära der Videoerzeugung“, sagte Demis Hassabis, CEO von Google DeepMind, bei der Ankündigung.
Die Technologie überzeugt durch realistische Videos mit korrekter Physik, präzisem Lippenabgleich und natürlicher Bewegung. Nutzer können Videos anhand von Textbeschreibungen oder Bildreferenzen generieren, wobei die KI automatisch passende Audioelemente hinzufügt, die zum visuellen Inhalt passen. Damit hebt sich Veo 3 deutlich von Konkurrenten wie OpenAIs Sora ab, das derzeit keine native Audiogenerierung bietet.
Parallel zu Veo 3 hat Google auch das beliebte Modell Veo 2 um zahlreiche leistungsstarke Funktionen erweitert. Dazu gehören referenzbasierte Videos für konsistente Charaktere und Objekte, erweiterte Kamerasteuerung für filmische Bewegungen, Outpainting zur Erweiterung von Videoframes über die ursprünglichen Grenzen hinaus sowie intelligente Funktionen zum Hinzufügen und Entfernen von Objekten.
Um das kreative Potenzial dieser Tools zu demonstrieren, hat Google Flow vorgestellt – eine neue KI-Filmplattform, die Veo, Imagen und Gemini kombiniert. Mehrere Filmemacher haben bereits professionelle Kurzfilme mit der Technologie realisiert, darunter Henry Daubrez mit seiner emotionalen Sci-Fi-Geschichte „Kitsune“ und Junie Lau mit der Identitätserkundung „Dear Stranger“.
Veo 3 ist derzeit für US-Abonnenten des 249,99-Dollar-teuren AI-Ultra-Tarifs über die Gemini-App sowie für Unternehmenskunden über Googles Vertex-AI-Plattform verfügbar. Die Technologie enthält SynthID-Wasserzeichen, um KI-generierte Inhalte zu kennzeichnen und Bedenken hinsichtlich Deepfakes und Desinformation entgegenzuwirken.