May 20, 2026 · 5:07 AM

还没有赢家：2026 年 5 月大模型竞争全景

Claude Opus 4.7 在编程 Agent 领域领跑，但综合智能指数第一是 GPT-5.5。Gemini 3.1 Pro 以 40% 的价格交付 80% 的性能，Grok 4.3 靠实时知识打差异化。Anthropic 估值飙至 $1.2 万亿背后是 Claude Code 的企业渗透逻辑，而开源模型正在改变「赢」的定义本身。

Twitter AI 长文精选 @Graf

Research Brief

每一次 benchmark 刷新，都有人宣布比赛结束。

Claude Opus 4.7 发布后，「Anthropic 已经赢了」的论断在 X 上铺天盖地。数据摆在那里：SWE-Bench Verified 87.6%，代理编程任务上碾压同期所有对手。有人写了数千字的长文论证这场 AI 军备竞赛的终局已经来临。

但同一时间，综合智能指数排名第一的不是 Claude，是 GPT-5.5。1

这两件事同时成立——说明我们正处在一个比任何人声称的都要复杂的竞争格局里。

谁在最前面？取决于你怎么量

根据 Artificial Analysis 2026 年 5 月的综合智能指数（Intelligence Index），当前排名如下：1

模型	综合智能指数
GPT-5.5 (xhigh)	60
GPT-5.5 (high)	59
Claude Opus 4.7 (max)	57
Gemini 3.1 Pro Preview	57
Grok 4.3	53

指数涵盖推理、编程、数学、Agent 工作流等数十项评测的聚合结果。综合来看，GPT-5.5 保持对最广维度的整体领先。

但换一把尺子，画面立刻不同。

在 SWE-Bench Verified（真实 GitHub issue 的端到端修复率，被视为编程 Agent 的黄金标准）上，Claude Opus 4.7 以 87.6% 领先，GPT-5.5 系列徘徊在 80–88% 之间。在多文件代码库导航、从 Ticket 到 PR 的完整工作流场景里，Claude 目前是最可靠的合作者。

LMSYS Chatbot Arena Elo 分（盲测人类偏好投票）是另一面镜子。GPT-5.5-high 区间在 1506–1562，Claude Opus 4.7 与 Gemini 3.1 Pro 分别在 1503–1505 附近交火。差距在统计误差以内——也就是说，「用户主观感受谁更聪明」这件事，顶级模型之间没有决定性胜负。

结论不是「Claude 赢了」，也不是「GPT-5.5 赢了」。结论是：在哪个维度比，答案不一样。

Gemini：被低估的价值选项

在这场双雄叙事里，Google 的 Gemini 3.1 Pro 往往缺席。

但它做到了一件其他两家都没做到的事：在保持前沿水准的同时，大幅压低成本。在 GPQA Diamond（博士级科学题）和数学评测上，Gemini 3.1 Pro 与顶级竞品互有胜负；而其定价与吞吐量，通常只有 Claude 或 GPT-5.5 同等级选项的 40–60%。1

原生多模态也是真正的差异化能力——视频和长音频理解、100 万 token 以上的上下文可靠性，让它在企业场景里有独立的立足点。

不是每家公司都需要最强，很多公司需要的是「80% 的性能、40% 的价格」。在这条赛道上，Gemini 3.1 Pro 是当前最合理的答案。

Grok 的真正武器不是分数

xAI 的 Grok 4.3 综合指数 53，看起来是四家里的末位。但这个数字掩盖了一个别人没有的能力：实时知识。

通过 X 平台的内容整合，Grok 在新鲜度上享有结构性优势。当你需要回答「这件事昨天最新进展是什么」，其他模型只能用知识截止日期以前的训练数据答题，Grok 可以直接检索。

速度也是真实差异。80+ token/秒的推理速度，在需要低延迟的应用场景里，性能分数高 5 分不一定抵得上推理快一倍的实用价值。

Grok 的策略是在「实时 + 速度 + 真话」这条细分轨道上打差异化，而不是正面争综合指数的每一个高地。

基准测试的信号正在失效

这是整个模型竞争评估体系里最少被正视的问题。

MMLU、HumanEval、GSM8K、基础 MATH，这批曾经标志性的基准测试现在已经被解了——顶级模型得分 90–97%+，几乎没有区分度。社区的回应是不断推出更难的评测（GPQA Diamond、SWE-Bench Verified/Pro、LiveBench、Humanity's Last Exam），但这些测试本身的有效窗口也在以季度为单位缩短。1

更麻烦的是推理模式的引入。同一个基础模型，普通模式和 Thinking/推理模式下的测试结果可能差 10–15 分。「哪个模型更强」这个问题已经无法脱离「在多少推理预算下比」这个前提单独成立。

当前能区分顶级模型的评测，大多集中在长程 Agent 可靠性、多日任务持续性、科学发现工作流、鲁棒多模态推理这几个方向。但这些领域目前没有一个被广泛认可的单一数字能代表。

这意味着「某模型全面领先」的表述，通常是以一种特定评测口径的领先来替代全面领先。

Anthropic 的 $1.2 万亿叙事

就在模型评分讨论如火如荼时，产业侧发生了一件更大的事。

2026 年 5 月，Anthropic 的 Pre-IPO 链上市场隐含估值升至 1.2 万亿美元，短暂超过 OpenAI 约 20%。2 年化经常性收入（ARR）从 2025 年底的 90 亿美元在不到五个月内跳至 440 亿美元——平均每天新增收入约 9600 万美元。

拉动这条增长曲线的不是模型榜单，而是 Claude Code。

Anthropic 自己的工程师几乎不再手写代码，只负责需求分析、架构设计和代码审查。其独特的渗透路径是：个人开发者先用 → 扩散到团队代码库 → 触发公司级企业采购。企业客户贡献了 Claude Code 总收入的超过一半，在 AI 编程细分市场的占有率达到 54%，远超 OpenAI 的 21%。2

支撑溢价采购的，是 Anthropic 花多年建立的合规护城河：HIPAA 认证、HITRUST 审计、对 FCA（False Claims Act）可解释性要求的支持。在金融、法律、医疗这些行业，模型出错的代价远超迁移成本，信任框架变成最硬的壁垒。

但这个叙事里也有清醒的声音。美国银行警告，Anthropic 和 SpaceX 等万亿级 IPO 可能吸走大量市场流动性，引发科技股估值重定价。部分早期 VC 已在二级市场减持，锁定约 30 倍回报。

$1.2 万亿的隐含估值，到底是 Cisco 式的基础设施税收者，还是 2000 年互联网泡沫的高位，目前还是一个开放的问题。

开源在改变胜负的定义

这场竞争还有第三方玩家在重写规则：开源模型。

DeepSeek、Qwen3、Llama 4 系列，在大量任务上已经能交付前沿性能的 80–90%，但成本只是闭源选项的一小部分。2026 年，「最好的模型」对很多使用者来说可能不是 GPT-5.5 也不是 Claude，而是一个跑在本地或廉价云上的开源微调版本。

这个趋势对竞争格局的意义是：性能领先的绝对值在缩水。当差距从 20% 缩到 5%，「我的模型比你好」的价值主张就越来越依赖周边生态——定价、延迟、合规认证、集成深度——而不是 benchmark 分数本身。

未来的竞争，或许不是谁的单模型最强，而是谁的模型路由系统（把不同任务派给不同专业化子模型的调度层）最有效率。在那个世界里，今天的综合智能指数排名将是最不重要的输入之一。

数据来源：文章中模型性能数据引自 Artificial Analysis（2026 年 5 月）、Vellum LLM Leaderboard（2026 年 4 月）、LMSYS Chatbot Arena 公开数据；估值与商业数据来自链上二级市场及相关机构分析报告。具体数字以原始来源为准，评测结果随版本更新持续变化。