Google ha compiuto un notevole passo avanti nelle sue capacità di generazione multimediale tramite intelligenza artificiale con il lancio di Veo 3 e Imagen 4, presentati alla conferenza annuale per sviluppatori I/O il 20 maggio 2025.
Veo 3, l’ultimo modello di generazione video di Google, rappresenta un salto di qualità introducendo per la prima volta la generazione di audio. Il modello è in grado di creare video completi di suoni di sottofondo sincronizzati, come rumori del traffico o cinguettii di uccelli, e persino di generare dialoghi tra personaggi con sincronizzazione labiale accurata. Veo 3 dimostra una comprensione migliorata della fisica reale e delle espressioni umane, producendo risultati video più realistici e dettagliati.
Insieme a Veo 3, Google ha svelato Imagen 4, il suo modello di generazione immagini più avanzato fino ad oggi. Imagen 4 eccelle nella resa di dettagli minuziosi come tessuti complessi, gocce d’acqua e pellicce animali con straordinaria nitidezza. Il modello supporta vari rapporti d’aspetto e può creare immagini con risoluzione fino a 2K, rendendole adatte sia alla stampa che alle presentazioni. Google ha inoltre annunciato l’arrivo di una “variante veloce” di Imagen 4, fino a 10 volte più rapida rispetto alla precedente, ottimizzata per prototipazione rapida e flussi di lavoro creativi.
Questi potenti modelli AI costituiscono la base di Flow, il nuovo strumento di filmmaking alimentato dall’intelligenza artificiale di Google. Flow combina le capacità di Veo, Imagen e Gemini per aiutare narratori e creatori a realizzare clip e scene cinematografiche. Lo strumento offre funzionalità come Camera Controls per movimenti di camera precisi, SceneBuilder per estendere le inquadrature in modo fluido e Asset Management per organizzare gli elementi creativi. Flow consente ai creatori di mantenere coerenza tra personaggi e scene in più clip, offrendo un’esperienza narrativa più omogenea.
Veo 3 è attualmente disponibile per gli abbonati a Google AI Ultra negli Stati Uniti, al prezzo di 249,99 dollari al mese, mentre Imagen 4 è accessibile tramite l’app Gemini, Whisk, Vertex AI e diverse applicazioni di Google Workspace. Tutti i contenuti generati da questi modelli includono watermark SynthID per garantire trasparenza e contrastare la disinformazione.
Questi progressi riflettono l’impegno di Google nell’espandere le proprie capacità AI a un pubblico sempre più ampio; l’azienda ha inoltre annunciato che le app Gemini hanno superato i 400 milioni di utenti attivi mensili, a testimonianza della rapida adozione delle sue tecnologie di intelligenza artificiale.