Google значительно продвинулась в области генерации медиа с помощью искусственного интеллекта, представив Veo 3 и Imagen 4 на ежегодной конференции разработчиков I/O 20 мая 2025 года.
Veo 3 — новейшая модель для генерации видео от Google — знаменует собой серьёзный прорыв благодаря внедрению возможностей генерации аудио. Модель способна создавать видео с синхронизированными фоновыми звуками, такими как шум улицы или пение птиц, а также генерировать диалоги между персонажами с точной синхронизацией губ. Veo 3 демонстрирует улучшенное понимание физики реального мира и человеческих эмоций, что приводит к более реалистичным и детализированным видеороликам.
Вместе с Veo 3 Google представила Imagen 4 — свою самую продвинутую на сегодняшний день модель для генерации изображений. Imagen 4 превосходно справляется с прорисовкой мельчайших деталей, таких как сложные текстуры тканей, капли воды и шерсть животных, обеспечивая исключительную чёткость. Модель поддерживает различные соотношения сторон и способна создавать изображения с разрешением до 2K, что делает их подходящими для печати и презентаций. Google также анонсировала выпуск «быстрой версии» Imagen 4, которая будет работать до 10 раз быстрее предыдущей, что особенно актуально для быстрого прототипирования и креативных рабочих процессов.
Эти мощные модели ИИ стали основой для Flow — нового инструмента Google для кинопроизводства на базе искусственного интеллекта. Flow объединяет возможности Veo, Imagen и Gemini, помогая авторам создавать кинематографические клипы и сцены. Среди функций инструмента — Camera Controls для точного управления движением камеры, SceneBuilder для плавного расширения сцен и Asset Management для организации творческих элементов. Flow позволяет поддерживать единых персонажей и сцены на протяжении нескольких клипов, обеспечивая целостность повествования.
Veo 3 уже доступен подписчикам Google AI Ultra в США по цене $249,99 в месяц, а Imagen 4 можно использовать через приложения Gemini, Whisk, Vertex AI и различные сервисы Google Workspace. Весь контент, созданный этими моделями, содержит водяные знаки SynthID для обеспечения прозрачности и борьбы с дезинформацией.
Эти достижения отражают стремление Google расширять возможности ИИ для большего числа пользователей. Компания также сообщила, что приложения Gemini теперь насчитывают более 400 миллионов активных пользователей в месяц, что свидетельствует о быстром распространении её технологий искусственного интеллекта.