Google znacząco rozwinęło swoje możliwości generowania mediów za pomocą sztucznej inteligencji, prezentując Veo 3 i Imagen 4 podczas dorocznej konferencji deweloperskiej I/O 20 maja 2025 roku.
Veo 3, najnowszy model generowania wideo od Google, stanowi ogromny krok naprzód dzięki wprowadzeniu po raz pierwszy możliwości generowania dźwięku. Model potrafi tworzyć filmy z pełną synchronizacją dźwięków tła, takich jak odgłosy ruchu ulicznego czy śpiew ptaków, a także generować dialogi między postaciami z precyzyjną synchronizacją ruchu warg. Veo 3 wykazuje lepsze zrozumienie fizyki świata rzeczywistego i ludzkich emocji, co przekłada się na bardziej realistyczne i szczegółowe efekty wideo.
Obok Veo 3 Google zaprezentowało Imagen 4 – najbardziej zaawansowany dotąd model generowania obrazów. Imagen 4 wyróżnia się odwzorowywaniem drobnych detali, takich jak misternie tkane tkaniny, krople wody czy futro zwierząt, z niezwykłą dokładnością. Model obsługuje różne proporcje obrazu i pozwala tworzyć grafiki w rozdzielczości do 2K, co czyni je odpowiednimi do druku lub prezentacji. Google zapowiedziało także wprowadzenie „szybkiej wersji” Imagen 4, która będzie nawet 10 razy szybsza od poprzednika i zoptymalizowana pod kątem szybkiego prototypowania oraz kreatywnych procesów.
Te potężne modele AI stanowią fundament Flow – nowego narzędzia filmowego Google opartego na sztucznej inteligencji. Flow łączy możliwości Veo, Imagen oraz Gemini, by wspierać twórców w tworzeniu kinowych klipów i scen. Narzędzie oferuje funkcje takie jak Camera Controls do precyzyjnego sterowania ruchem kamery, SceneBuilder do płynnego wydłużania ujęć oraz Asset Management do organizacji elementów kreatywnych. Flow umożliwia twórcom zachowanie spójności postaci i scen w wielu klipach, zapewniając bardziej konsekwentną narrację.
Veo 3 jest obecnie dostępny dla subskrybentów Google AI Ultra w Stanach Zjednoczonych w cenie 249,99 USD miesięcznie, natomiast Imagen 4 można używać za pośrednictwem aplikacji Gemini, Whisk, Vertex AI oraz różnych aplikacji Google Workspace. Wszystkie treści generowane przez te modele są oznaczane znakami wodnymi SynthID, co zapewnia transparentność i przeciwdziała dezinformacji.
Te innowacje odzwierciedlają zaangażowanie Google w udostępnianie zaawansowanych technologii AI szerszemu gronu użytkowników. Firma ogłosiła również, że aplikacje Gemini mają już ponad 400 milionów aktywnych użytkowników miesięcznie, co potwierdza szybkie tempo adaptacji jej rozwiązań AI.