Google tar AI-generering av video till nya höjder med lanseringen av Veo 3 – en banbrytande modell som för första gången ger AI-genererade videor ljudmöjligheter.
Veo 3 presenterades på Google I/O 2025 i maj och innebär ett betydande steg framåt jämfört med tidigare AI-videogeneratorer genom att integrera synkroniserad dialog, omgivningsljud och bakgrundsmusik direkt i de skapade klippen. "För första gången lämnar vi den stumma eran av videoproduktion," sade Demis Hassabis, VD för Google DeepMind, vid tillkännagivandet.
Tekniken utmärker sig genom att skapa realistiska videor med korrekt fysik, exakt läppsynk och naturliga rörelser. Användare kan generera videor genom att ange textbeskrivningar eller bildreferenser, och AI:n lägger automatiskt till passande ljudelement som matchar det visuella innehållet. Denna förmåga särskiljer Veo 3 från konkurrenter som OpenAI:s Sora, som för närvarande saknar inbyggd ljudgenerering.
Parallellt med Veo 3 har Google även förbättrat sin populära Veo 2-modell med flera kraftfulla nya funktioner. Bland dessa finns referensbaserad video för konsekventa karaktärer och objekt, avancerade kamerakontroller för filmisk rörelse, utvidgning av videorutor utanför originalramarna (outpainting) samt intelligent tillägg och borttagning av objekt.
För att visa på de kreativa möjligheterna med dessa verktyg har Google lanserat Flow, en ny AI-plattform för filmskapande som kombinerar Veo, Imagen och Gemini-modellerna. Flera filmskapare har redan producerat professionella kortfilmer med tekniken, däribland Henry Daubrez känslosamma sci-fi-berättelse "Kitsune" och Junie Laus utforskning av identitet i "Dear Stranger".
Veo 3 är för närvarande tillgänglig för amerikanska prenumeranter på Googles AI Ultra-plan (249,99 dollar/månad) via Gemini-appen samt för företagsanvändare via Googles Vertex AI-plattform. Tekniken innehåller SynthID-vattenmärkning för att identifiera AI-genererat innehåll och motverka problem med deepfakes och desinformation.