Google a considérablement fait progresser ses capacités de génération de médias par l’IA avec le lancement de Veo 3 et Imagen 4 lors de sa conférence annuelle des développeurs I/O, le 20 mai 2025.
Veo 3, le dernier modèle de génération vidéo de Google, marque une avancée majeure en intégrant pour la première fois la génération audio. Ce modèle peut créer des vidéos complètes avec des sons de fond synchronisés, tels que le bruit de la circulation ou le chant des oiseaux, et générer des dialogues entre personnages avec un synchronisme labial précis. Veo 3 démontre une meilleure compréhension de la physique du monde réel et des expressions humaines, produisant ainsi des vidéos plus réalistes et détaillées.
Parallèlement à Veo 3, Google a dévoilé Imagen 4, son modèle de génération d’images le plus avancé à ce jour. Imagen 4 excelle dans le rendu de détails fins, comme des tissus complexes, des gouttes d’eau ou la fourrure d’animaux, avec une clarté impressionnante. Le modèle prend en charge divers formats d’image et peut générer des visuels jusqu’à une résolution de 2K, les rendant adaptés à l’impression ou à la présentation. Google a également annoncé le développement d’une « variante rapide » d’Imagen 4, jusqu’à dix fois plus rapide que la version précédente, optimisée pour le prototypage rapide et les flux créatifs.
Ces puissants modèles d’IA constituent la base de Flow, le nouvel outil de création cinématographique propulsé par l’IA de Google. Flow combine les capacités de Veo, Imagen et Gemini pour aider les conteurs à créer des séquences et des scènes cinématographiques. L’outil propose des fonctionnalités telles que Camera Controls pour des mouvements de caméra précis, SceneBuilder pour prolonger les plans sans rupture, et Asset Management pour organiser les éléments créatifs. Flow permet aux créateurs de maintenir la cohérence des personnages et des scènes sur plusieurs séquences, offrant ainsi une expérience narrative plus homogène.
Veo 3 est actuellement disponible pour les abonnés Google AI Ultra aux États-Unis, au prix de 249,99 $ par mois, tandis qu’Imagen 4 est accessible via l’application Gemini, Whisk, Vertex AI et diverses applications Google Workspace. Tous les contenus générés par ces modèles sont marqués par des filigranes SynthID afin de garantir la transparence et de lutter contre la désinformation.
Ces avancées témoignent de l’engagement de Google à élargir l’accès à ses capacités d’IA, l’entreprise annonçant également que les applications Gemini comptent désormais plus de 400 millions d’utilisateurs actifs mensuels, illustrant l’adoption rapide de ses technologies d’intelligence artificielle.