
Claude 4 发布:Opus 4 拿下 SWE-bench 72.5%,Anthropic 的 agent 押注
Anthropic 发布 Claude Opus 4 和 Sonnet 4,在 SWE-bench 软件工程 benchmark 上拿下当前最高分,并随附 extended thinking + tool use 和大幅改善的 agent 稳定性。本文解读两款模型的技术变化、定位分工和 Anthropic 押注长时间 agent 工作负载的逻辑。
Research Brief
两款模型的定位分工
主要 benchmark 数据
| 评测项目 | Claude Opus 4 | Claude Sonnet 4 | 说明 |
|---|---|---|---|
| SWE-bench Verified | 72.5% | 72.7% | 真实软件工程任务,500 题 |
| Terminal-bench | 43.2% | — | 终端操作与命令行任务 |
| GPQA Diamond(含 extended thinking) | — | — | 研究生级科学推理 |
| AIME(含 extended thinking) | 优于 Sonnet 3.7 | 优于 Sonnet 3.7 | 数学竞赛题 |
| TAU-bench | 新 SOTA | — | 多步骤 agent 工具调用 |
三项关键技术变化
Claude Code 正式开放
- VS Code 和 JetBrains 的原生扩展,将 Claude 的修改建议直接渲染进编辑器的 diff 视图
- GitHub Actions 集成:开发者可以在 PR 里 @Claude Code,让它自动响应 reviewer 反馈、修复 CI 错误
- Claude Code SDK:供开发者基于同一 agent 核心构建自定义应用
对技术路线的判断
Related content
Picked from other channels by content similarity—find new creators to follow.
Audio·Opus 4.8:Anthropic 把旗舰模型做成更稳的代理工人
Anthropic 发布 Claude Opus 4.8,同价升级 Opus,并把努力程度控制、Claude Code 动态工作流和更强调诚实性的评估放到同一条线上。本期解读它为什么指向更长时间、更高自治度的代理工作,而不只是一次跑分提升。
Claude 博客解读播客
Article·Claude 三个月迭代全景:从旗舰降价到 AI 安全分水岭
2026 年 2 月至 5 月,Anthropic 在模型、定价、产品、对齐研究四条线同步推进:Opus 4.6/4.7、Sonnet 4.6、Haiku 4.5 密集迭代,旗舰降价 67%,Mythos Preview 引发 AI 安全新关注,agent 编排架构全面成熟。
Claude 全动态追踪
Article·每日竞情速递 · 2026/04/17:Opus 4.7 对 Codex,同日开战
本期聚焦 4 月 16 日两家产品密度最高的单日:Anthropic Claude Opus 4.7 与 OpenAI Codex 大更新同日落地,正面交锋编码与 Agent 战场;Anthropic 估值被曝 $800B+,与 OpenAI 的 $852B 估值差距收窄至不足 10%;Sam Altman 亲自站台 Codex,同时面对 New Yorker 16,000 字调查的压力。
Anthropic vs OpenAI 竞争情报日报
Article·Claude Opus 4.8:当「诚实」成为旗舰模型的核心卖点
Anthropic 在 2026 年 5 月发布的 Claude Opus 4.8,以「诚实性」作为首要叙事方向:代码缺陷未标出率下降 4 倍、首个在关键 Agent 测试上漏报率为零的 Claude 模型。本文深度拆解其核心能力提升、Dynamic Workflows 新功能、benchmark 进退与竞品格局,以及 Mythos 下一代模型的时间线信号。
LLM Release Notes
Article·AI Agent 生态周报 | 2026 第 16 周:Claude Opus 4.7 重塑标杆,Salesforce 把平台全拆开
本周 AI Agent 生态核心信号:Claude Opus 4.7 在自主验证和长时任务上建立新参照系(GDPVal-AA Elo 1753),Salesforce Headless 360 将 100+ 平台能力拆成 MCP 工具开放给外部 agent,OpenAI Codex 周活超 300 万。开源侧,CrewAI 1.14 的 checkpoint+fork+TUI 体系让 multi-agent 调试进入可视化阶段;Qwen 3.6-35B-A3B 成为本地 agentic coding 新参照。GitHub 热门:Hermes Agent、claude-mem、Multica 等 5 个新兴项目。社区主题:AI agent「真实可靠性」祛魅——稳定运行需要强模型+窄工作流+大量确定性外围结构。
Agent 生态周报
Article·AI Agent 生态补充速报 | 今日动态:Claude Opus 4.7、Codex 全面升级、11 个 GitHub 爆款项目
今日早报发出约 1 小时后的临时补充更新,覆盖 2026-04-17 最新动态。商业产品侧:Claude Opus 4.7 在 Agent 任务和视觉理解上迭代,定价维持不变;OpenAI Codex 新增 computer use、记忆、90+ 插件,任务周期延伸至数周;Salesforce Headless 360 把整个平台改造为 Agent 接口,开放 60+ MCP 工具。GitHub 侧:11 个新兴 Agent 项目集中冲榜,hermes-agent(+51K)、claude-mem(+12K)、multica(+10K)领跑。社区侧:「真实的生产 Agent 需要强模型+窄工作流+大量确定性结构」这一判断获得广泛共鸣。
Agent 生态周报

Add more perspectives or context around this Post.