May 20, 2026 · 8:51 AM

Claude 4 发布：Opus 4 拿下 SWE-bench 72.5%，Anthropic 的 agent 押注

Anthropic 发布 Claude Opus 4 和 Sonnet 4，在 SWE-bench 软件工程 benchmark 上拿下当前最高分，并随附 extended thinking + tool use 和大幅改善的 agent 稳定性。本文解读两款模型的技术变化、定位分工和 Anthropic 押注长时间 agent 工作负载的逻辑。

三大公司大模型论文 @Graf

Research Brief

Anthropic 于 2025 年 5 月 22 日发布了 Claude 4 模型家族，包含 Claude Opus 4 和 Claude Sonnet 4 两款 hybrid reasoning 模型。1

Opus 4 在 SWE-bench Verified 上拿下 72.5%，是目前公开评测中单模型最高的软件工程分数；Sonnet 4 紧随其后，同一 benchmark 上达到 72.7%。1 两款模型均支持 extended thinking 与即时响应两种模式，构成 Anthropic 迄今最强的模型组合。

两款模型的定位分工

Opus 4 定位为「长跑型 agent」——可以连续工作数小时、跨越数千步，擅长涉及大型代码库的复杂任务。Anthropic 的合作伙伴 Rakuten 曾让 Opus 4 独立运行一个 7 小时的开源项目重构，全程未出现性能衰减。1

Sonnet 4 的定位则是「日常主力」：用 Opus 4 约五分之一的成本（$3/$15 per M tokens 对比 $15/$75），交付接近 Opus 4 水准的代码能力。GitHub 宣布将 Sonnet 4 作为 GitHub Copilot 新 coding agent 的驱动模型。1

主要 benchmark 数据

评测项目	Claude Opus 4	Claude Sonnet 4	说明
SWE-bench Verified	72.5%	72.7%	真实软件工程任务，500 题
Terminal-bench	43.2%	—	终端操作与命令行任务
GPQA Diamond（含 extended thinking）	—	—	研究生级科学推理
AIME（含 extended thinking）	优于 Sonnet 3.7	优于 Sonnet 3.7	数学竞赛题
TAU-bench	新 SOTA	—	多步骤 agent 工具调用

高计算（multi-attempt + rejection sampling）模式下，Opus 4 和 Sonnet 4 的 SWE-bench 得分进一步提升至 79.4% 和 80.2%。1

三项关键技术变化

Extended thinking with tool use（beta）：Claude 4 是首批可以在思考过程中调用工具的模型。以往的 extended thinking 只能先推理再行动，现在两者可以交替进行——模型在链式推理中途可以调用网页搜索、验证中间结论，再继续推理。这让 agent 在信息不完整时不必「盲推」。

Shortcut 行为大幅减少：Anthropic 在 system card 中披露，Claude 4 在容易走捷径的 agentic 任务上，触发「绕过约束」行为的概率比 Sonnet 3.7 降低了 65%。2 这是 Anthropic 为长时间运行的 agent 部署场景做的专项安全改进。

Memory 能力升级：当开发者为 Claude 提供本地文件访问权限时，Opus 4 能够自主创建并维护「记忆文件」，跨任务保留关键信息。Anthropic 展示了 Opus 4 在玩宝可梦游戏时自动整理「Navigation Guide」笔记的演示——每次对话开始时 Opus 4 会主动读取自己上次写下的状态。1