Google Veo 3为AI视频生成带来声音革新

Google发布了Veo 3，这是其迄今为止最先进的AI视频生成模型，首次实现了视频与音频（包括对白和音效）的同步生成。该技术现已向美国的Google AI Ultra订阅用户和Vertex AI企业用户开放，标志着AI视频生成“无声时代”的终结。与此同时，Google还为Veo 2带来了包括摄像机控制、画面扩展和对象操作等新功能。

Google通过发布Veo 3，将AI视频生成技术推向了全新高度。这一突破性模型首次为AI生成视频赋予了音频能力。

Veo 3于2025年5月的Google I/O大会上正式亮相，相较于此前的AI视频生成器，Veo 3实现了质的飞跃：它能够在生成的视频片段中直接同步对白、环境音和背景音乐。Google DeepMind首席执行官Demis Hassabis在发布会上表示：“我们首次走出了AI视频生成的无声时代。”

该技术擅长生成物理效果逼真、口型精准同步、动作自然流畅的视频。用户只需提供文本描述或图片参考，AI便会自动为视觉内容匹配合适的音频元素。这一能力使Veo 3在与OpenAI的Sora等竞争产品的对比中脱颖而出——后者目前尚不具备原生音频生成能力。

除了Veo 3，Google还为其广受欢迎的Veo 2模型带来了多项强大新功能，包括基于参考的角色与物体一致性、支持电影级运动的高级摄像机控制、画面扩展（outpainting）以突破原始边界，以及智能对象添加和移除。

为展示这些工具的创意潜力，Google还推出了全新的AI影视创作平台Flow，将Veo、Imagen和Gemini模型集于一体。已有多位电影人利用该技术创作出专业级短片，包括Henry Daubrez的情感科幻故事《Kitsune》和Junie Lau关于身份探索的《Dear Stranger》。

目前，Veo 3已通过Gemini应用向美国地区每月249.99美元的AI Ultra订阅用户开放，企业用户则可通过Google的Vertex AI平台使用。该技术还集成了SynthID水印功能，以便识别AI生成内容，应对深度伪造和虚假信息等问题。

Source:

Google Veo 3为AI视频生成带来声音革新

Latest News

Meta发布LLaMA 4：AI语音革命来袭

家得宝以AI驱动的Magic Apron数字化专家建议

Shield AI 融资 2.4 亿美元，防务科技热潮加速升温

AI设计药物Rentosertib在里程碑式临床试验中展现前景

科技巨头发布企业级AI聊天机器人新功能

瑞士AI突破性进展大幅削减水泥碳排放

OpenAI年营收突破100亿美元，AI应用加速普及

谷歌 Gemini 2.5 Flash 带来更强大的编程能力

微软以全新AI推理技术挑战OpenAI

具备推理能力的AI模型碳排放量是基础模型的50倍

Google Veo 3为AI视频生成带来声音革新

Related Articles

微软以全新AI推理技术挑战OpenAI

谷歌 Gemini 2.5 Flash 带来更强大的编程能力

Google 发布 Imagen 4，AI 图像生成迈入逼真细节新时代

谷歌推出 SynthID Detector，打击 AI 内容欺诈

Meta发布LLaMA 4：AI语音革命来袭

Latest News

Meta发布LLaMA 4：AI语音革命来袭

家得宝以AI驱动的Magic Apron数字化专家建议

Shield AI 融资 2.4 亿美元，防务科技热潮加速升温

AI设计药物Rentosertib在里程碑式临床试验中展现前景

科技巨头发布企业级AI聊天机器人新功能

瑞士AI突破性进展大幅削减水泥碳排放

OpenAI年营收突破100亿美元，AI应用加速普及

谷歌 Gemini 2.5 Flash 带来更强大的编程能力

微软以全新AI推理技术挑战OpenAI

具备推理能力的AI模型碳排放量是基础模型的50倍