
还没有赢家:2026 年 5 月大模型竞争全景
Claude Opus 4.7 在编程 Agent 领域领跑,但综合智能指数第一是 GPT-5.5。Gemini 3.1 Pro 以 40% 的价格交付 80% 的性能,Grok 4.3 靠实时知识打差异化。Anthropic 估值飙至 $1.2 万亿背后是 Claude Code 的企业渗透逻辑,而开源模型正在改变「赢」的定义本身。
Research Brief
谁在最前面?取决于你怎么量
| 模型 | 综合智能指数 |
|---|---|
| GPT-5.5 (xhigh) | 60 |
| GPT-5.5 (high) | 59 |
| Claude Opus 4.7 (max) | 57 |
| Gemini 3.1 Pro Preview | 57 |
| Grok 4.3 | 53 |
Gemini:被低估的价值选项
Grok 的真正武器不是分数
基准测试的信号正在失效
Anthropic 的 $1.2 万亿叙事
开源在改变胜负的定义
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·四大模型同日登场,五角大楼清洗 AI 供应商 | 5月1日
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Grok 4.3 同日亮相,闭源模型越来越贵、开源竞品越来越能打,剪刀差持续扩大;美国国防部重新划定 AI 供应商名单,Anthropic 因拒绝放松「自主武器」使用限制而被踢出;Meta 收购人形机器人公司 ARI 入局具身 AI,Musk v. Altman 庭审中 xAI 用 OpenAI 模型蒸馏 Grok 的事实被坐实;Salesforce 发布企业 Agent 运维平台,Netomi 完成 1.1 亿美元 C 轮。
AI 日报|量子位风
Article·AI Agent 生态速报 | 2026-04-22 至 24:GPT-5.5 登场、Anthropic 自曝 Bug、多 Agent 复杂度祛魅
本期覆盖 2026-04-22 至 04-24。三条主线:OpenAI GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 超越 Opus 4.7(69.4%),但 Input/Output 定价翻倍;Anthropic 主动发布事后分析,坦承三个叠加 bug(推理强度降级、缓存清除、系统 prompt 变更)导致 Claude Code 质量下滑,4 月 20 日已修复;社区多 Agent 实践持续祛魅,亲历者普遍回归单 Agent + 强提示词路线。框架侧:Haystack v2.28.0 支持 State 直传、CrewAI 1.14.3a3 冷启动提升 29%;安全侧:Agent Vault 开源,实现凭证网络层代理注入、Agent 永不接触底层密钥。
Agent 生态周报
Audio·Fable 5 来了:Anthropic 把最强能力公开发布了
Anthropic 在 2026 年 6 月 9 日正式发布 Claude Fable 5——首个对外开放的 Mythos 级模型。这期节目深度拆解 Fable 5 测了哪些能力、具体成绩怎么样,以及 Anthropic 这次发布背后的战略意图。
御三家 Benchmark 事件追踪
Article·AI Agent 生态速报 | 2026-06-09:Claude Fable 5 发布,Mythos 级能力向全员开放,OpenAI 提交 S-1
Anthropic 将 Mythos 级底层能力打包为 Claude Fable 5 向全员开放,SWE-bench Pro 得分 80.3% 高出 GPT-5.5 约 22 个百分点,定价减半至 $10/$50 每百万 token;OpenAI 向 SEC 提交 S-1,目标估值最高 $1T;Kimi Work 发布支持 300 并行本地 Sub-Agent 的桌面端;FrontierCode 推出可合并代码质量基准,Gemma 4 QAT 将部署内存需求降至 1/4。
Agent 生态周报
Article·Claude Fable 5 与 Mythos 5 双发、Gemma 4 上线——AI HOT 今日热点(2026-06-10)
Anthropic 发布 Claude Fable 5 与 Mythos 5,定价较上代降价过半;Google DeepMind 推出无编码器多模态 Gemma 4 12B;Apollo 与 Blackstone 达成 350 亿美元 AI 基础设施融资;德国法院裁定 Google AI Overviews 须为错误内容担责——2026 年 6 月 9 日精选 22 条 AI 行业动态。
AI HOT 每日热点简报
Article·Claude Fable 5 深度拆解:Mythos 级能力如何被分拆成两个产品
2026 年 6 月 9 日,Anthropic 发布 Claude Fable 5——首个对外开放的 Mythos 级模型。本文深度拆解其编码工程突破(SWE-Bench Pro 80.3%、FrontierCode Diamond 是 GPT-5.5 的五倍)、多模态与长时程记忆改进、竞品全维对比、三重安全分流机制设计,以及 Mythos 5 在蛋白质设计与基因组学研究中的具体案例;同时呈现 Andon Labs 的反向测试结果。
LLM Release Notes
Add more perspectives or context around this Post.