谷歌 Gemini Diffusion 革新 AI 文本生成技术

谷歌发布了 Gemini Diffusion，这是一款突破性的文本生成模型，能够将随机噪声转化为连贯文本，生成速度比以往模型快五倍。该实验性模型采用了类似于图像生成的扩散技术，每秒可生成高达 2,000 个 token，并在编程表现上与现有模型持平。同时，谷歌还为 Gemini 2.5 系列引入了“思考预算”，让开发者能够精确控制推理能力和成本。

Google DeepMind 推出了 Gemini Diffusion，这是一种革命性的 AI 文本生成方法，标志着与传统自回归语言模型的重大突破。

与以往按顺序逐个 token 生成文本的传统模型不同，Gemini Diffusion 采用了此前主要用于图像和视频生成的扩散技术，通过迭代过程将随机噪声逐步精炼为连贯文本。DeepMind 研究人员表示，这一创新方法使模型能够以每秒高达 2,000 个 token 的惊人速度生成内容。

谷歌在公告中解释道：“它们不是直接预测文本，而是通过逐步精炼噪声来生成输出。这意味着模型可以非常快速地迭代解决方案，并在生成过程中进行纠错。”

目前，该实验性演示已开放候补名单，展示了该技术如何在大幅缩短生成时间的同时，达到谷歌现有模型的编程表现。在基准测试中，Gemini Diffusion 在 HumanEval 和 MBPP 等编程任务上的表现与 Gemini 2.0 Flash-Lite 几乎一致。

Google DeepMind 研究副总裁、深度学习负责人兼 Gemini 项目联合负责人 Oriol Vinyals 表示，这一发布是其个人的里程碑，并透露演示运行速度极快，以至于需要放慢视频播放速度才能看清。

与此同时，谷歌还为 Gemini 2.5 系列带来了新功能。公司推出了配备“思考预算”的 Gemini 2.5 Flash，让开发者能够前所未有地控制 AI 的推理深度。通过为模型的推理过程设置 token 上限（最高 24,576 个 token），用户可以在质量、延迟和成本之间灵活平衡。

谷歌还计划将“思考预算”扩展至 Gemini 2.5 Pro，预计将在未来几周内全面开放。此外，公司还为 Gemini API 增加了对 Model Context Protocol（MCP）定义的原生 SDK 支持，便于与开源工具集成和构建自主智能体应用。

这些进步共同体现了谷歌致力于让 AI 更高效、可控且易于开发者使用，同时保持高性能标准的努力。

Source:

谷歌 Gemini Diffusion 革新 AI 文本生成技术

Latest News

美国证监会加大对虚假AI宣传的打击力度

法官权衡AI影响，谷歌反垄断案补救措施成焦点

2025卓越奖表彰顶尖AI创新者

WildFusion赋予机器人类人感知能力，实现户外自主导航

指尖反馈：新型触觉工具革新工业机器人安全

VentureBeat 聚焦 2025 年 5 月重大 AI 进展

AI大脑助力中国人形机器人革命

机器人在无人工监督下掌握社交技能

《纽约时报》与亚马逊达成首个AI内容授权协议，内容将用于Alexa

Grammarly 获得 10 亿美元融资，转型为 AI 平台

谷歌 Gemini Diffusion 革新 AI 文本生成技术

Related Articles

法官权衡AI影响，谷歌反垄断案补救措施成焦点

VentureBeat 聚焦 2025 年 5 月重大 AI 进展

DeepSeek升级R1 AI模型，挑战西方科技巨头

Google Beam：革命性3D视频通话将于2025年发布

谷歌在 I/O 2025 发布 Gemini 2.5 Deep Think

Latest News

美国证监会加大对虚假AI宣传的打击力度

法官权衡AI影响，谷歌反垄断案补救措施成焦点

2025卓越奖表彰顶尖AI创新者

WildFusion赋予机器人类人感知能力，实现户外自主导航

指尖反馈：新型触觉工具革新工业机器人安全

VentureBeat 聚焦 2025 年 5 月重大 AI 进展

AI大脑助力中国人形机器人革命

机器人在无人工监督下掌握社交技能

《纽约时报》与亚马逊达成首个AI内容授权协议，内容将用于Alexa

Grammarly 获得 10 亿美元融资，转型为 AI 平台