Google DeepMind 推出了 Gemini Diffusion,这是一种革命性的 AI 文本生成方法,标志着与传统自回归语言模型的重大突破。
与以往按顺序逐个 token 生成文本的传统模型不同,Gemini Diffusion 采用了此前主要用于图像和视频生成的扩散技术,通过迭代过程将随机噪声逐步精炼为连贯文本。DeepMind 研究人员表示,这一创新方法使模型能够以每秒高达 2,000 个 token 的惊人速度生成内容。
谷歌在公告中解释道:“它们不是直接预测文本,而是通过逐步精炼噪声来生成输出。这意味着模型可以非常快速地迭代解决方案,并在生成过程中进行纠错。”
目前,该实验性演示已开放候补名单,展示了该技术如何在大幅缩短生成时间的同时,达到谷歌现有模型的编程表现。在基准测试中,Gemini Diffusion 在 HumanEval 和 MBPP 等编程任务上的表现与 Gemini 2.0 Flash-Lite 几乎一致。
Google DeepMind 研究副总裁、深度学习负责人兼 Gemini 项目联合负责人 Oriol Vinyals 表示,这一发布是其个人的里程碑,并透露演示运行速度极快,以至于需要放慢视频播放速度才能看清。
与此同时,谷歌还为 Gemini 2.5 系列带来了新功能。公司推出了配备“思考预算”的 Gemini 2.5 Flash,让开发者能够前所未有地控制 AI 的推理深度。通过为模型的推理过程设置 token 上限(最高 24,576 个 token),用户可以在质量、延迟和成本之间灵活平衡。
谷歌还计划将“思考预算”扩展至 Gemini 2.5 Pro,预计将在未来几周内全面开放。此外,公司还为 Gemini API 增加了对 Model Context Protocol(MCP)定义的原生 SDK 支持,便于与开源工具集成和构建自主智能体应用。
这些进步共同体现了谷歌致力于让 AI 更高效、可控且易于开发者使用,同时保持高性能标准的努力。