Google repousse les limites de la génération vidéo par intelligence artificielle avec le lancement de Veo 3, un modèle révolutionnaire qui ajoute, pour la première fois, des capacités audio aux vidéos générées par IA.
Dévoilé lors de Google I/O 2025 en mai, Veo 3 représente une avancée majeure par rapport aux générateurs vidéo IA précédents en intégrant des dialogues synchronisés, des sons ambiants et de la musique de fond directement dans les clips générés. « Pour la première fois, nous sortons de l’ère silencieuse de la génération vidéo », a déclaré Demis Hassabis, PDG de Google DeepMind, lors de l’annonce.
La technologie excelle dans la création de vidéos réalistes avec une physique fidèle, un synchronisme labial précis et des mouvements naturels. Les utilisateurs peuvent générer des vidéos à partir de descriptions textuelles ou de références visuelles, l’IA ajoutant automatiquement des éléments sonores appropriés qui correspondent au contenu visuel. Cette capacité distingue Veo 3 de ses concurrents comme Sora d’OpenAI, qui ne propose pas encore de génération audio native.
En parallèle à Veo 3, Google a enrichi son populaire modèle Veo 2 avec plusieurs nouvelles fonctionnalités puissantes. Parmi celles-ci, on retrouve la vidéo basée sur des références pour assurer la cohérence des personnages et objets, des contrôles de caméra avancés pour des mouvements cinématographiques, l’outpainting pour étendre les cadres vidéo au-delà des bordures originales, ainsi que l’ajout et la suppression intelligente d’objets.
Pour démontrer le potentiel créatif de ces outils, Google a lancé Flow, une nouvelle plateforme de création cinématographique par IA qui combine les modèles Veo, Imagen et Gemini. Plusieurs cinéastes ont déjà réalisé des courts-métrages professionnels grâce à cette technologie, dont « Kitsune », une histoire de science-fiction émouvante signée Henry Daubrez, et « Dear Stranger », une exploration de l’identité par Junie Lau.
Veo 3 est actuellement offert aux abonnés américains du forfait AI Ultra de Google à 249,99 $ US par mois via l’application Gemini, ainsi qu’aux clients entreprises via la plateforme Vertex AI de Google. La technologie intègre le filigrane SynthID afin d’identifier le contenu généré par IA et de répondre aux préoccupations liées aux deepfakes et à la désinformation.