谷歌发布Veo 3：原生音频AI视频生成模型

谷歌正式推出了Veo 3，这是迄今为止其最先进的AI视频生成模型，能够生成高质量1080p视频并集成音频功能。该模型在运动追踪、物理模拟和精确编辑控制方面实现了重大突破。作为OpenAI Sora的直接竞争对手，Veo 3加剧了AI视频生成市场的激烈竞争。

Google DeepMind通过发布Veo 3，再次提升了AI生成视频的行业标准。这款最新且最为复杂的视频生成模型在2025年Google I/O大会上正式亮相，能够以1080p分辨率输出具备电影级画质的视频，实现了前所未有的真实感与可控性。

Veo 3最引人注目的特性是其原生音频生成能力，能够为视频自动生成环境音效、音效特效，甚至是同步角色对白——这成为其与OpenAI Sora等竞品的核心差异。音视频一体化的集成，省去了额外音频制作工具的需求，大幅简化了创作流程。

“Veo 3在文本与图像提示、真实物理模拟以及精准唇形同步等方面表现卓越，”Google DeepMind产品副总裁Eli Collins表示。该模型在提示遵循性上有显著提升，用户可高精度指定诸如镜头运动、灯光效果和场景构图等电影制作细节。

目前，Veo 3已面向美国地区的Google AI Ultra订阅用户开放，月费为249.99美元。该模型还集成了谷歌全新AI影视创作工具Flow，专为专业创作者设计，帮助影视工作者和内容创作者无需传统制作资源即可生成高质量视频内容。

该技术还内置多项安全措施，包括为每一帧添加SynthID水印，以标识AI生成内容，有效应对外界对深度伪造和媒体操控的担忧。

随着AI视频生成工具日益成熟，谷歌与OpenAI之间的竞争也愈发激烈。虽然Sora在生成更长视频片段和物理模拟方面表现突出，但Veo 3凭借原生音频和电影级控制，为专业内容创作者提供了一体化视频制作的有力选择。

Source:

Latest News