A Google deu um passo significativo nas suas capacidades de geração de media com IA ao lançar o Veo 3 e o Imagen 4 na conferência anual de programadores I/O, a 20 de maio de 2025.
O Veo 3, o mais recente modelo de geração de vídeo da Google, representa um avanço notável ao introduzir, pela primeira vez, capacidades de geração de áudio. O modelo consegue criar vídeos completos com sons de fundo sincronizados, como ruído de trânsito ou chilrear de pássaros, e até gerar diálogos entre personagens com sincronização labial precisa. O Veo 3 demonstra uma compreensão melhorada da física do mundo real e das expressões humanas, resultando em vídeos mais realistas e detalhados.
A par do Veo 3, a Google revelou o Imagen 4, o seu modelo de geração de imagens mais avançado até à data. O Imagen 4 destaca-se na renderização de detalhes finos, como tecidos intrincados, gotas de água e pelo de animais, com uma clareza impressionante. O modelo suporta vários rácios de aspeto e pode criar imagens com resoluções até 2K, tornando-as adequadas para impressão ou apresentações. A Google anunciou ainda planos para lançar uma "variante rápida" do Imagen 4, que será até 10 vezes mais rápida do que o seu antecessor, optimizada para prototipagem rápida e fluxos criativos.
Estes poderosos modelos de IA servem de base ao Flow, a nova ferramenta de realização cinematográfica da Google alimentada por IA. O Flow combina as capacidades do Veo, Imagen e Gemini para ajudar contadores de histórias a criar clips e cenas cinematográficas. A ferramenta oferece funcionalidades como Controlo de Câmara para movimentos precisos, SceneBuilder para prolongar planos de forma fluida e Gestão de Recursos para organizar elementos criativos. O Flow permite aos criadores manter personagens e cenas consistentes ao longo de vários clips, proporcionando uma experiência narrativa mais coesa.
O Veo 3 está atualmente disponível para subscritores do Google AI Ultra nos Estados Unidos, com um preço de 249,99 dólares por mês, enquanto o Imagen 4 pode ser acedido através da aplicação Gemini, Whisk, Vertex AI e várias aplicações do Google Workspace. Todo o conteúdo gerado por estes modelos inclui marcas de água SynthID para garantir transparência e combater a desinformação.
Estes avanços refletem o compromisso da Google em expandir as suas capacidades de IA a mais utilizadores, tendo a empresa anunciado também que as aplicações Gemini contam agora com mais de 400 milhões de utilizadores ativos mensais, demonstrando a rápida adoção das suas tecnologias de IA.