Google ha avanzado significativamente en sus capacidades de generación de medios mediante IA con el lanzamiento de Veo 3 e Imagen 4 durante su conferencia anual para desarrolladores I/O, celebrada el 20 de mayo de 2025.
Veo 3, el modelo más reciente de generación de video de Google, representa un gran salto al incorporar por primera vez capacidades de generación de audio. El modelo puede crear videos completos con sonidos de fondo sincronizados, como ruido de tráfico o canto de aves, e incluso generar diálogos entre personajes con sincronización labial precisa. Veo 3 demuestra una mejor comprensión de la física del mundo real y de las expresiones humanas, lo que resulta en videos más realistas y detallados.
Junto con Veo 3, Google presentó Imagen 4, su modelo de generación de imágenes más avanzado hasta la fecha. Imagen 4 sobresale en la representación de detalles finos como telas intrincadas, gotas de agua y pelaje de animales con una claridad impresionante. El modelo soporta varios formatos de aspecto y puede crear imágenes en resoluciones de hasta 2K, haciéndolas aptas para impresión o presentaciones. Google también anunció planes para lanzar una "variante rápida" de Imagen 4 que será hasta 10 veces más veloz que su predecesora, optimizada para prototipado rápido y flujos creativos ágiles.
Estos potentes modelos de IA sirven como base para Flow, la nueva herramienta de creación cinematográfica impulsada por IA de Google. Flow combina las capacidades de Veo, Imagen y Gemini para ayudar a los narradores a crear clips y escenas cinematográficas. La herramienta ofrece funciones como Controles de Cámara para movimientos precisos, SceneBuilder para extender tomas de manera fluida y Gestión de Activos para organizar elementos creativos. Flow permite a los creadores mantener personajes y escenas consistentes a lo largo de varios clips, brindando una experiencia narrativa más cohesionada.
Veo 3 está disponible actualmente para suscriptores de Google AI Ultra en Estados Unidos, con un precio de $249.99 USD al mes, mientras que Imagen 4 se puede acceder a través de la app de Gemini, Whisk, Vertex AI y diversas aplicaciones de Google Workspace. Todo el contenido generado por estos modelos incluye marcas de agua SynthID para garantizar la transparencia y combatir la desinformación.
Estos avances reflejan el compromiso de Google por expandir sus capacidades de IA a más usuarios, y la compañía también anunció que las apps de Gemini ya cuentan con más de 400 millones de usuarios activos mensuales, demostrando la rápida adopción de sus tecnologías de inteligencia artificial.