Google вывела генерацию видео с помощью искусственного интеллекта на новый уровень, представив Veo 3 — революционную модель, впервые добавляющую аудио в создаваемые ИИ видеоролики.
Анонс Veo 3 состоялся на конференции Google I/O 2025 в мае. Новая версия существенно превосходит предыдущие генераторы видео на базе ИИ, поскольку теперь в сгенерированных клипах появляются синхронизированные диалоги, окружающие звуки и фоновая музыка. «Впервые мы выходим из немой эры генерации видео», — заявил Демис Хассабис, генеральный директор Google DeepMind, во время презентации.
Технология позволяет создавать реалистичные видеоролики с точной физикой, синхронизацией губ и естественными движениями. Пользователи могут генерировать видео, задавая текстовое описание или предоставляя изображение, а ИИ автоматически добавляет подходящие аудиодорожки, соответствующие визуальному содержанию. Эта возможность выгодно отличает Veo 3 от конкурентов, таких как Sora от OpenAI, которая пока не поддерживает генерацию звука.
Вместе с Veo 3 компания улучшила популярную модель Veo 2, добавив ряд новых функций: создание видео с сохранением персонажей и объектов по референсу, расширенное управление камерой для кинематографичных движений, outpainting для увеличения границ кадра, а также интеллектуальное добавление и удаление объектов.
Чтобы продемонстрировать творческий потенциал новых инструментов, Google запустила Flow — новую платформу для кинопроизводства на базе ИИ, объединяющую модели Veo, Imagen и Gemini. Уже несколько режиссеров создали с помощью этой технологии профессиональные короткометражные фильмы, среди которых эмоциональная научно-фантастическая история «Kitsune» Анри Добре и исследование идентичности «Dear Stranger» Джуни Лау.
Veo 3 уже доступна подписчикам тарифа AI Ultra за $249,99 в месяц в США через приложение Gemini, а также корпоративным пользователям на платформе Vertex AI. Технология оснащена водяными знаками SynthID для идентификации контента, созданного ИИ, что помогает бороться с дипфейками и дезинформацией.