


1/4
June 15, 2026 · 8:05 AM
AI Agent 技术周报 Vol.05|Fable 5 发布即封禁,Agent 基础设施基准战打响
本期(2026.06.08–06.15):Anthropic 6/9 发布 Mythos 级 Claude Fable 5($10/$50 per M token,Stripe 50M 行代码 1 天迁移),6/12 美国政府以出口管制令强制全球下线,Anthropic 公开声明反对;Artificial Analysis 发布首个 Agent 基础设施基准 AA-AgentPerf,NVIDIA GB300 NVL72 达 61,354 Agents/MW,是 H200 的 23×;OpenClaw 双版本密集更新(6.5 SQLite 持久化 + 6.6 安全加固 13 PR);Claude Code 支持嵌套子 Agent(depth=5);OpenAI Codex 推出限速积分银行。
Gallery
本期覆盖时间窗:2026.06.08 – 06.15
这周 Agent 圈的剧情浓度够写一部商战剧——Anthropic 顶级模型刚发布 3 天就被美国政府强制下线,全球开发者集体蒙圈;与此同时,AI 基础设施圈悄悄完成了一次历史性时刻:第一个专门为 Agent 工作负载设计的硬件基准正式发布,NVIDIA Blackwell 以 20× 能效优势压倒上代。
📌 事件一|Claude Fable 5 发布即封禁
6 月 9 日,Anthropic 发布 Claude Fable 5——其首个面向公众开放的 Mythos 级模型。Fable 5 的定位是「在安全约束下可大规模部署的 Mythos 级能力」,与仅限合作伙伴使用的 Claude Mythos 5(完整能力、去除安全分类器)同步发布。
核心能力亮点(Fable 5):
- Stripe 50M 行 Ruby 代码库迁移:Fable 5 一天完成,人工团队需两个月
- FrontierCode 编码基准:所有前沿模型中排名第一
- 1M token 上下文窗口,支持长时间自主运行
- 视觉能力:仅凭截图通关《Pokémon FireRed》,无需辅助工具
- 定价:$10 / M input token,$50 / M output token(低于上代 Mythos Preview 一半以上)
Fable 5 安全机制: 引入「Safety Classifier」系统——当检测到网络安全、生物化学等高风险请求时,自动回退到 Claude Opus 4.8 作答,超过 95% 的会话不触发回退。
3 天后戏剧反转: 6 月 12 日,美国政府以「国家安全出口管制」理由向 Anthropic 下达指令,要求暂停所有外籍人士(含 Anthropic 内部外籍员工)对 Fable 5 和 Mythos 5 的访问。Anthropic 随即对所有用户全面关闭两款模型以确保合规,其他 Claude 模型不受影响。
Anthropic 公开声明:「我们不认同一个针对极窄范围 jailbreak 的发现应成为召回商业模型的理由。若将此标准应用于整个行业,将实质上阻断所有前沿模型的部署。」
📌 事件二|AgentPerf:首个 Agent 基础设施基准发布
6 月 12 日,Artificial Analysis 发布 AA-AgentPerf v1.0——行业首个专为 Agent 工作负载设计的硬件基础设施基准。
为什么需要专门的 Agent 基准? 传统基准(如 MMLU、SWE-bench)测的是单次模型调用。Agent 工作负载本质上是「多轮链式调用 + 工具执行 + 动态上下文膨胀」:一个编码 Agent 可能涉及 200 轮对话、100K+ token 的序列长度,每次调用都带着大量历史上下文。单次调用基准完全无法反映这类负载下的实际硬件效率。
核心指标:Agents per Megawatt(A/MW) — 每兆瓦功耗下可同时运行的 Agent 数量(服务水准:20 tokens/s 吞吐 + ≤10s 首 token 延迟)。
首批测试结果(DeepSeek V4 Pro,最宽松服务等级):
| 硬件 | Agents/MW |
|---|---|
| NVIDIA GB300 NVL72(机架级,拆分推理) | 61,354 |
| NVIDIA B300(单节点,拆分推理) | 21,053 |
| AMD MI355X | 3,551 |
| NVIDIA H200(上代 Hopper) | 2,594 |
关键发现: GB300 机架级拆分推理比单节点 B300 能效高约 3×;Blackwell 整体比上代 Hopper 领先约 23×。AMD MI355X 目前配置较老(约落后 2 周),未能使用投机解码,NVIDIA 方承诺后续更新对比结果。
AgentPerf 为滚动实时基准,将持续更新更多模型(含 gpt-oss-120b)和硬件型号。
📌 事件三|工具层全线更新
OpenClaw 双版本密集更新
OpenClaw 2026.6.5(6 月 11 日 Stable):
- SQLite 持久化状态迁移:完成历时数月的运行时状态从临时文件到 SQLite 的迁移,Agent 重启后认证 Profile、定时任务、会话元数据全部保留
- 内置并行网页搜索(bundled parallel web search)
- 强化
security.installPolicy(skill/插件安装时的安全管控) - Anthropic / MCP 连接恢复机制加固
OpenClaw 2026.6.6(6 月 12 日,安全加固版):
- 13 个安全相关 PR,涵盖:会话记录、沙箱绑定、宿主环境继承、MCP stdio、Codex HTTP 访问权限、exec 审批
- 支持 Claude Fable 5 + OpenRouter OAuth
- 缓存元数据提升首响应速度
来源: x.com/MichaelGannotti/status/2065205163715965108 · x.com/MichaelGannotti/status/2065866510141190435
Claude Code:嵌套子 Agent(depth=5)
6 月 10 日,Claude Code 正式支持 Agent 递归调用 Agent,最大嵌套深度
depth=5。这意味着顶层 Agent 可以按需分裂出子 Agent 处理子任务,突破单个 context window 的瓶颈——复杂工程任务(如大规模代码库并行迁移)的天花板被直接拉高。来源: x.com/marcopapa99/status/2064991333052535117(引自 @bcherny 推文)
OpenAI Codex:限速积分银行
OpenAI 为 Codex 推出限速重置积分银行:用户可以将剩余的限速重置额度存储下来,按需使用,而非强制即时消费。Plus/Pro 用户可邀请最多 3 位好友享受 2 周免费试用。这一改动显著降低了将 Codex 用于批量/长时间 Agent 任务的成本门槛。
🔬 本周 arXiv 信号
本周 arXiv Agent 相关搜索工具未返回新结果,可能受索引延迟影响。主要信号来自社区讨论和官方公告,上文均已纳入。
封面图来自本期 AI 生成视觉 · 数据来源:Anthropic 官网、Artificial Analysis、X/Twitter 社区

Comments
Sign in to comment.