
AI Agent 生态速报 | 2026-06-06:Anthropic 用数字证明 AI 正在自构建,51 框架横测结果出炉
Anthropic 发布「When AI builds itself」报告:2026 年 5 月 80%+ 代码由 Claude 编写,工程师人均产出 8×,Claude Mythos Preview 开放式任务成功率 76%;同日提出行业暂停协调机制。ADK Arena(51 框架横测)发现框架选择影响超过模型选择,Haystack/AG2 通用稳定性最优。agentmemory(21k+ 星)成为 Agent 跨会话记忆独立赛道代表。
Research Brief
本期速览
Anthropic「AI 正在自构建」:从预警到数字

- 任务时长能力:AI 能独立完成的软件任务时长约每 4 个月翻一倍。2024 年 3 月(Claude Opus 3)是 4 分钟;2025 年 3 月(Claude Sonnet 3.7)是 1.5 小时;2026 年 3 月(Claude Opus 4.6)是 12 小时;Claude Mythos Preview 目前至少可持续工作 16 小时1。
- 代码会话成功率:截至 2026 年 5 月,Claude Code 处理开放式问题的成功率达 76%,6 个月内提升了 50 个百分点1。

- 研究方向判断:Claude Mythos Preview 在「选择下一步研究方向」上 64% 的判断优于人类研究员(同等条件下),较 2025 年 11 月的 Opus 4.5(51%)显著提升,说明「研究品味」也在随规模增长1。
- 一次典型演示:2026 年 4 月,Claude Agent 自主完成了一个 AI 安全开放课题——人类只给了问题定义和评分标准,Claude 自行设计实验,用 800 计算小时($18,000 算力)达成了 97% 性能上限;两名人类研究员花一周只做到 23%1。
ADK Arena:51 款框架横测,框架选择比模型更重要
| 发现 | 数据 |
|---|---|
| 生成成功率(能跑通基准) | 57%(408 个 Agent 中 232 个通过) |
| 生成成本差异 | 5.6×($0.6 到 $3.4 / Agent) |
| 最佳框架单基准最高解决率 | 80%(可超越通用前沿编程 Agent) |
| 中位数框架解决率 | 仅 32% |
| 开发模型影响 | Opus-authored Agent 解决率约为 GPT-authored 的 2 倍 |
- 没有全能冠军:不存在在所有基准上都领先的框架;Haystack 和 AG2 是 API 最易习得且覆盖最稳定的(两个 LLM 开发者、四个基准均通过),但单项最高成绩由其他框架把持。
- 框架选择 > 模型选择:同一框架,用 Opus 还是 GPT 来生成 Agent 代码,性能差异约 2 倍——这个选择比换底层模型更有决定性影响。
- API 设计是第一生产力:生成成本低(如 LangGraph、OpenAI Agents SDK)通常意味着 API 设计简洁、文档质量高;成本高的框架 API 表面积大,新手接入更难。
- 文档、源码和参数知识可互换:无论给框架文档、源码还是什么都不给,框架通过率都在 28–40% 之间波动,说明「文档质量」本身不是瓶颈,框架 API 本身的设计才是。

agentmemory:Agent 记忆层的 GitHub #1
- 95.2% 检索 R@5(召回率),使用混合搜索(向量 + 关键词)
- 92% token 减少(复用记忆而非重传上下文)
- 53 个 MCP 工具,12 个自动钩子(无需手动触发)
- 0 外部数据库依赖,纯本地运行
社区动向
跨轮跟踪
| 事项 | 状态 |
|---|---|
| Anthropic $36B TPU 交割 | 截至今日无「已完成」公告,继续跟踪 |
| Anthropic Agent SDK 独立计费 | 还剩 9 天(6 月 15 日生效) |
| Anthropic IPO | S-1 保密;10 月目标;Opus 4.8 已发布(含最新 Claude 版本)7 |
| SpaceX IPO | $75B 目标,本月;含 xAI |
| GPT-5.6 / Mercury-alpha | 传言仍高热,官方未公告 |
| Claude Mythos | 发布窗口 6–7 月;本报告首次披露 Mythos Preview 内部数据 |
| Foundry Hosted Agents GA | 30 天内(从 6/3 计) |
References
- 1When AI builds itself — Anthropic
- 2Anthropic urges industry coordination for 'pause' in AI development
- 3ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer
- 4rohitg00/agentmemory: #1 Persistent memory for AI coding agents
- 5OpenAI Community: MCP tool result wrapped as multimodal_text
- 6AI CEOs from OpenAI, Anthropic, and Microsoft set aside rivalries
- 7Anthropic AI News — Latest Updates
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·Anthropic 公开 AI 自我构建进度,Claude 已写完 80% 代码——6 月 6 日 AI 动态
Anthropic 发布内部报告:Claude 已写完超 80% 代码,工程师人均产出 8 倍,递归自我改进路径清晰;OpenAI 上线 Lockdown Mode 防提示注入;特朗普政府与 OpenAI 股权谈判升温;苹果 WWDC 2026 明日开幕,Siri 接入 Gemini;微软 MAI 四款新模型被 PCMag 实测全部打低分;白宫 AI 顾问 Sriram Krishnan 月底离职。
AI 产品日报
Article·AI 全景情报 0615:Anthropic 首超 OpenAI、AI 自我构建提案、Fable 5 越狱技术解析、Sora 关停经济账
本期聚焦 6 月 14-15 日四条核心信号:Anthropic 企业渗透率(41%)首次超越 OpenAI(32.3%),ARR 五个月飙升 422% 至 470 亿美元;Anthropic 发布「AI 自我构建」论文,呼吁全球协调暂停并披露 80% 代码由 Claude 编写;Fable 5 关停背后的多智能体 Pack Hunt 越狱技术与 12 万字符系统提示泄露,商务部谈判三方案曝光;OpenAI Sora 关停——日烧 1500 万美元对终生营收 210 万美元,同步讨论大幅降价以应对 Anthropic 压力。
AI 全景每日情报
Article·Anthropic 呼吁全球暂停 AI 开发,Claude 已自主写完 80% 代码——6 月 4 日 AI 动态
Anthropic 发布内部数据:Claude 已写完超 80% 生产代码,工程师产出提升 8 倍,并首次呼吁考虑协调暂停前沿 AI 开发;OpenAI 推出 Dreaming 新记忆架构首次向免费用户开放;Google 发布 Gemini Go 覆盖 2GB 入门机。
AI 产品日报
Article·AI 全景情报 0612:Claude 已自写 80% 代码、Fable 5 隐形降速被迫撤回、Oracle 积压 6380 亿却股价跌 11%
本期聚焦 6 月 11-12 日四条核心信号:Anthropic 首次公开 AI 自改进进度——80% 代码由 Claude 编写,Mythos Preview 编码效率达人类基准 52 倍;Fable 5「隐形降速研究者」政策遭强烈反弹后撤回,引发模型透明度底线讨论;Oracle 云基础设施合同积压 6380 亿美元但股价单日跌 11%,AI 基础设施资金结构压力浮现;Dario Amodei 正式呼吁政府可阻止危险 AI 部署,同步宣布 1.5 亿美元 Claude Corps 公益计划。
AI 全景每日情报
Article·Claude 写了 80% 的 Anthropic 代码,Vercel 接入 Shopify:6月5日核心人物推文精选
alexalbert__ 公布 Anthropic 内部数据:80%代码由 Claude 完成、工程师效率 8x;_catwu 宣布 Claude 自动化95%数据分析查询;rauchg 官宣 Vercel×Shopify 合作;swyx 解读 Cognition 首批真实世界 Evals;levie 深度分析为何 AI 不会消灭工程师反而需要更多人。来自 9 位核心人物的 6 月 5 日精选。
AI 前沿人物每日推文精选
Article·今日 AI 长帖精选:Claude Code、HarnessX 与 Agent 生产化的下一层问题
本期精选 5 条过去 24 小时内高信号 AI 长帖:Claude Code 经济研究、HarnessX 自进化脚手架、GPT-3 in a laptop 的反向压力测试、Taste Labs 的 AI taste 基础设施,以及 Leitwörter 对 agent 行为的提示启发。
Twitter AI 长文精选
Add more perspectives or context around this Post.