Google posunul generování videí pomocí umělé inteligence na novou úroveň s uvedením modelu Veo 3, průlomového systému, který poprvé přináší do AI generovaných videí zvukové možnosti.
Představený na konferenci Google I/O 2025 v květnu, Veo 3 představuje významný pokrok oproti předchozím generátorům videí s umělou inteligencí díky integraci synchronizovaných dialogů, ambientních zvuků a hudby přímo do generovaných klipů. „Poprvé opouštíme němou éru generování videí,“ uvedl při oznámení Demis Hassabis, generální ředitel Google DeepMind.
Technologie vyniká tvorbou realistických videí s přesnou fyzikou, precizní synchronizací rtů a přirozeným pohybem. Uživatelé mohou generovat videa zadáním textového popisu nebo poskytnutím obrazových referencí, přičemž AI automaticky přidá odpovídající zvukové prvky, které ladí s vizuálním obsahem. Tato schopnost odlišuje Veo 3 od konkurentů, jako je Sora od OpenAI, která zatím nativní generování zvuku nenabízí.
Spolu s Veo 3 Google vylepšil i svůj populární model Veo 2 o několik nových funkcí. Patří mezi ně generování videí na základě referencí pro konzistentní postavy a objekty, pokročilé ovládání kamery pro filmové pohyby, rozšiřování obrazu za původní okraje (outpainting) a inteligentní přidávání či odstraňování objektů.
Aby Google předvedl kreativní potenciál těchto nástrojů, představil také Flow, novou platformu pro tvorbu filmů s pomocí AI, která kombinuje modely Veo, Imagen a Gemini. Několik filmařů už díky této technologii vytvořilo profesionálně působící krátké filmy, například emotivní sci-fi příběh „Kitsune“ od Henryho Daubreze nebo zkoumání identity „Dear Stranger“ od Junie Lau.
Veo 3 je aktuálně dostupný pro americké předplatitele měsíčního plánu Google AI Ultra za 249,99 USD prostřednictvím aplikace Gemini a také pro firemní zákazníky přes platformu Google Vertex AI. Technologie obsahuje vodoznak SynthID, který pomáhá identifikovat obsah vytvořený umělou inteligencí a řešit obavy z deepfake videí a dezinformací.