Google a franchi une étape majeure dans la génération de médias par intelligence artificielle avec le lancement de Veo 3 et d’Imagen 4 lors de sa conférence annuelle I/O du 20 mai 2025.
Veo 3, le plus récent modèle de génération vidéo de Google, marque une avancée importante en intégrant pour la première fois la génération audio. Ce modèle peut créer des vidéos comprenant des sons d’ambiance synchronisés, comme le bruit de la circulation ou le chant des oiseaux, et même générer des dialogues entre personnages avec un synchronisme labial précis. Veo 3 démontre une meilleure compréhension de la physique du monde réel et des expressions humaines, ce qui se traduit par des vidéos plus réalistes et détaillées.
En parallèle, Google a dévoilé Imagen 4, son modèle de génération d’images le plus avancé à ce jour. Imagen 4 excelle dans le rendu des détails fins, comme les tissus complexes, les gouttelettes d’eau ou la fourrure d’animaux, avec une clarté remarquable. Le modèle prend en charge divers formats d’image et peut générer des images jusqu’à une résolution de 2K, ce qui les rend adaptées à l’impression ou à la présentation. Google prévoit aussi de lancer une « variante rapide » d’Imagen 4, jusqu’à 10 fois plus rapide que la version précédente, optimisée pour le prototypage rapide et les flux de travail créatifs.
Ces puissants modèles d’IA constituent la base de Flow, le nouvel outil de création cinématographique propulsé par l’IA de Google. Flow combine les capacités de Veo, Imagen et Gemini pour aider les conteurs à créer des clips et des scènes cinématographiques. L’outil offre des fonctionnalités comme Camera Controls pour des mouvements de caméra précis, SceneBuilder pour prolonger les plans de façon fluide, et Asset Management pour organiser les éléments créatifs. Flow permet aux créateurs de maintenir la cohérence des personnages et des scènes à travers plusieurs clips, offrant ainsi une expérience narrative plus homogène.
Veo 3 est actuellement offert aux abonnés Google AI Ultra aux États-Unis, au coût de 249,99 $ US par mois, tandis qu’Imagen 4 est accessible via l’application Gemini, Whisk, Vertex AI et diverses applications Google Workspace. Tout le contenu généré par ces modèles inclut des filigranes SynthID afin d’assurer la transparence et de lutter contre la désinformation.
Ces avancées témoignent de l’engagement de Google à élargir l’accès à ses capacités d’IA, l’entreprise ayant également annoncé que les applications Gemini comptent désormais plus de 400 millions d’utilisateurs actifs mensuels, illustrant l’adoption rapide de ses technologies d’intelligence artificielle.