Inception Labs 的 Mercury 2 AI 在自己的游戏中击败了 Google 的 DiffusionGemma

Inception Labs 于周四推出了 Mercury 2，称其为世界上最快的推理语言模型。根据该公司的公告，它每秒生成约 1,000 个令牌（AI 模型读取和写入的文本块），而 Anthropic 的 Claude Haiku 4.5 Reasoning 每秒生成约 89 个令牌，OpenAI 的 GPT-5 Mini 每秒生成约 71 个令牌。

这使其与 Google 后来声称的 DiffusionGemma 的速度等级相同。

Welcome to the diffusion era.

We bet on parallel generation years ago, when it was a contrarian idea. It's great to see the industry arrive.

Mercury 2 continues to lead the Pareto frontier for quality, speed, and cost among publicly available diffusion LLMs. pic.twitter.com/qSHuiR7vmH

— Inception (@_inception_ai) June 18, 2026

这两种模型都是通过放弃打字机的写作方式来实现这一目标的。标准的聊天机器人会写一个单词，检查刚刚写的内容，然后写下一个单词，循环直到答案完成。相反，扩散模型会用随机占位符标记填充文本块，并在几次并行传递中消除噪声，这与在稳定扩散等图像生成器中将静态图像转换为照片的技巧相同，直到整个块立即锁定为完成的响应。

两者的分歧之处在于这个过程中幸存下来的东西。在 AIME 2026 上（根据真实的美国数学邀请赛考试题构建，并根据正确解决的百分比进行评分），Mercury 2 达到了 90%。 Google 在同一组上测试了 DiffusionGemma，得分为 69.1%，而标准的非扩散 Gemma 4 在同一测试中得分为 88.3%。

在博士级科学基准 GPQA 上，两个模型的得分几乎相同：Mercury 2 为 77%，而 DiffusionGemma 为 73.2%。但 Google 自己的开发者指南推荐标准 Gemma 4 用于需要最高质量的应用程序，并承认 DiffusionGemma 全面落后于它。

&amp;amp;amp;lt;span data-mce-type="bookmark" style="width: 0px;溢出:隐藏；行高：0" class="mce_SELRES_start"&amp;amp;gt;&amp;amp;lt;/span&amp;amp;gt;

这种速度主张在实验室之外也成立。根据联合案例研究，AI 编码代理公司 Augment Code 在其上下文压缩子代理上将 Mercury 2 替换为 Anthropic 的 Claude Opus 4.7，延迟降低了 82%，成本降低了 90%，同时报告了相同的输出质量。

Inception 是建立在其创始人 Stefano Ermon 的研究基础上的，Stefano Ermon 是一位斯坦福大学教授，他与人合着了一些为当今图像生成器提供支持的基于分数的扩散技术。该初创公司的 5000 万美元融资得到了 Nvidia 风险投资部门以及个人投资者 Andrew Ng 和 Andrej Karpathy 的支持。

对于非技术用户来说，大多数人都不会注意到最重要的事情，直到他们觉得这是“流程”。传统模型让您在长时间的思考过程中等待。像这样的扩散模型让人工智能感觉它与你保持同步——即时自动完成、代码或计划的快速迭代，以及可以处理无聊的大量工作而不拖累整个系统的子代理。

子代理层是有趣的架构转变。复杂的人工智能系统不再是一个巨大的智能模型。它们是由专门的助手组成的管弦乐队：一个用于深度推理，几个用于快速总结、路由、工具查找、输出检查等。顺序模型使这些实用程序调用昂贵且缓慢。并行扩散使它们足够便宜且速度快，可以自由使用。

对普通用户的现实警告：这些仍然最适合工作流程中速度敏感、大容量的部分，而不是绝对最难的前沿推理（其中最大的 AR 模型目前可能仍然具有优势）。 Mercury 2 不是开放权重，因此目前是 API/云。与 Google 的版本一样，完整的生态系统（本地运行时、代理框架）仍在迎头赶上，以使其在任何地方都无缝。

GPT-5.6 谣言升温，用户发誓 ChatGPT 突然变得更聪明

立即出现的用例：实时快速编程和“vibe 编码”（模型与您的编辑保持同步）、多代理编码或支持系统（发生大量快速子调用）、不会感觉滞后的语音界面，以及任何对延迟敏感的自动完成或下一步操作预测。从规模上看，标准硬件上更高的吞吐量所节省的成本和能源会快速增加。

数字Inception 份额（以及独立评估）直观地说明了这一点：Mercury 2 位于扩散模型的“快速且良好”象限，将过去需要特殊硬件的东西推向了商用 GPU。