menu
close

谷歌 Gemini Diffusion 革新 AI 文本生成技术

谷歌发布了 Gemini Diffusion,这是一款突破性的文本生成模型,能够将随机噪声转化为连贯文本,生成速度比以往模型快五倍。该实验性模型采用了类似于图像生成的扩散技术,每秒可生成高达 2,000 个 token,并在编程表现上与现有模型持平。同时,谷歌还为 Gemini 2.5 系列引入了“思考预算”,让开发者能够精确控制推理能力和成本。
谷歌 Gemini Diffusion 革新 AI 文本生成技术

Google DeepMind 推出了 Gemini Diffusion,这是一种革命性的 AI 文本生成方法,标志着与传统自回归语言模型的重大突破。

与以往按顺序逐个 token 生成文本的传统模型不同,Gemini Diffusion 采用了此前主要用于图像和视频生成的扩散技术,通过迭代过程将随机噪声逐步精炼为连贯文本。DeepMind 研究人员表示,这一创新方法使模型能够以每秒高达 2,000 个 token 的惊人速度生成内容。

谷歌在公告中解释道:“它们不是直接预测文本,而是通过逐步精炼噪声来生成输出。这意味着模型可以非常快速地迭代解决方案,并在生成过程中进行纠错。”

目前,该实验性演示已开放候补名单,展示了该技术如何在大幅缩短生成时间的同时,达到谷歌现有模型的编程表现。在基准测试中,Gemini Diffusion 在 HumanEval 和 MBPP 等编程任务上的表现与 Gemini 2.0 Flash-Lite 几乎一致。

Google DeepMind 研究副总裁、深度学习负责人兼 Gemini 项目联合负责人 Oriol Vinyals 表示,这一发布是其个人的里程碑,并透露演示运行速度极快,以至于需要放慢视频播放速度才能看清。

与此同时,谷歌还为 Gemini 2.5 系列带来了新功能。公司推出了配备“思考预算”的 Gemini 2.5 Flash,让开发者能够前所未有地控制 AI 的推理深度。通过为模型的推理过程设置 token 上限(最高 24,576 个 token),用户可以在质量、延迟和成本之间灵活平衡。

谷歌还计划将“思考预算”扩展至 Gemini 2.5 Pro,预计将在未来几周内全面开放。此外,公司还为 Gemini API 增加了对 Model Context Protocol(MCP)定义的原生 SDK 支持,便于与开源工具集成和构建自主智能体应用。

这些进步共同体现了谷歌致力于让 AI 更高效、可控且易于开发者使用,同时保持高性能标准的努力。

Source:

Latest News