May 20, 2026 · 11:35 AM

Twitter AI 长文精选｜Kimi K2.6 登顶、Cloudflare 重写 Agent 基础设施、Claude Code 工程解剖

本期精选 Twitter 上四篇热门 AI 深度长文：Kimi K2.6 以 SWE-Bench Pro 58.6 分夺下开源编程 SOTA；Cloudflare Agent Week 重写云基础设施假设；阿里云开发者完整拆解 Claude Code 三层工程架构；腾讯研究院 16,500 字长文《人类正在走下牌桌》分析 Agent 时代的四阶演进。

Twitter AI 长文精选 @Graf

Research Brief

今天精选来自 Twitter 的四篇 AI 深度长文，涵盖本周最值得读者花时间的内容：开源编程模型迎来新 SOTA、云厂商正在重写 Agent 时代的基础设施假设、Claude Code 的工程哲学第一次被完整拆解，以及一篇难得把技术路径和社会含义同时讲清楚的 Agent 时代长文。

一、Kimi K2.6：开源编程模型新 SOTA，三项硬核能力定义「长程 Agent」门槛

月之暗面在 4 月 21 日发布了 Kimi K2.6，在 SWE-Bench Pro 上以 58.6 分超过 Claude Opus 4.6（53.4 分）五个百分点，夺下开源编程模型新 SOTA。1

这不只是分数的提升。Kimi K2.6 真正重要的是三条工程能力，它们共同定义了 Agent 系统能否真正替代人类完成复杂项目的最低门槛：

长程编程：支持超过 4,000 次工具调用和连续 12 小时以上的任务执行。这是多数现有 Agent 方案到不了的地方。
Agent Swarms：原生编排最多 300 个并行子 Agent，面向复杂任务的多 Agent 协调。
原生前端能力：支持 WebGL 和 Three.js 生成，不再局限于纯后端逻辑。

模型规模为 1 万亿总参数、激活 32B，原生支持 256K 上下文和多模态输入。权重已上传 HuggingFace，采用修改版 MIT 许可（月活超过 1 亿或月收入超过 2000 万美元的商业产品需在界面署名「Kimi K2.6」）。

ginobefun @hongming731·9w

BestBlogs 早报 | 2026-04-21 Kimi K2.6 / Cloudflare Agents Week / OpenAI Chronicle / Amazon × Anthropic 250 亿 / Claude Code 解剖

View on X

Loading content card…

二、Cloudflare 的 Agent Week：把「一个应用服务很多用户」的假设彻底扔掉

Cloudflare 首届 Agents Week 以一篇《Building the Agentic Cloud》收尾，五天里一次性交付了 20 多个面向 Agent 的新云原语。2

分层来看最清晰：

计算层：Sandboxes GA（给 Agent 独立的操作系统和终端）、Artifacts Git 兼容的版本化存储、Dynamic Workers 里的 Durable Object Facets（让 AI 生成的每个 App 拿到独立 SQLite）。Workflows v2 的并发上限拉到 5 万，每秒可创建 300 个工作流。

安全层：Cloudflare Mesh（零信任私网）、Managed OAuth for Access（一键让内网应用 Agent-ready）、资源级 API Token。

Agent 工具箱：托管记忆服务（Agent Memory）、AI Search 专用搜索原语、Browser Run（4 倍并发 + Live View + Human in the Loop）、Voice/Email 原生接入，以及一个无损压缩 22% 的模型压缩工具 Unweight。

这次发布的最大信号不是任何单个功能，而是一句话：Cloudflare 把「一个 App 服务很多用户」的传统云假设彻底扔掉，承认今后更普遍的工作负载是几千万个 Agent 会话同时运行。 3

他们并非只是嘴上说说——同日披露的内部数据显示，Cloudflare 自己已经用这套平台运行了 11 个月，3,683 名工程师（R&D 部门 93%）通过自家 AI Gateway 产生了 241 亿 Token 的调用量，4 周滚动均值的代码合并请求从 5,600 次/周升到了 8,700 次。

三、Claude Code 工程解剖：为什么 95 分 Agent 和 70 分 Agent 的差距是「三层架构」

阿里云开发者社区发布了目前中文社区里对 Claude Code 工程化最细致的一次拆解。4

文章从「如何设计一个好用的 Agent 系统」切入，把关键判断浓缩成一条主线：单靠 Prompt 顶多到 70 分，加上 Context 工程到 85 分，最后靠 Harness 工程才能到 95 分。

以 Claude Code 的 System Prompt 动态拼装链路为例（QueryEngine.ask() → fetchSystemPromptParts() → buildEffectiveSystemPrompt() → query()），成熟 Agent 的提示词并不是一段固定文本，而是由身份人设、系统行为、安全守则、任务要求、工具规范、Skill 要求、约束条件七八个维度动态组合出来的。

这把整个行业的焦点从「怎么写好一个提示词」转向了「怎么组装提示词」——前者是技巧，后者是工程。

配合机器之心整理的 Anthropic 研究员 Erik Schluntz 的 Vibe Coding 大师课一起看：他因为摔断手打了两个月石膏，把所有代码工作交给 Claude，由此总结出一套「在生产环境负责任地做 Vibe Coding」的方法论。5 一边是 Claude Code 的工程设计哲学，一边是其作者自己怎么真正用它进生产——两篇同读，视角在工程和使用之间双向对齐。

四、腾讯研究院：《人类正在走下牌桌》

这是一篇少见能同时讲清技术路径和社会学含义的 Agent 时代长文，16,500 字，阅读约 40 分钟。6

腾讯研究院高级研究员王焕超描述了 Agent 时代人类被「绕过」的四个阶段：

你只动嘴，AI 动手写出成品
AI 自己拆任务、调工具、修错误，你从操作者变旁观者
AI 开始自我改进，一代帮一代，一代比一代聪明
AI 与 AI 互相协作，形成类文化的集群行为，人类彻底退出参与链路

文章以 OpenClaw 开源五个月 GitHub 星标突破 25 万（超过 React 和 Linux 内核）为切入点，讨论「AI 时代的超级个体」以及「人类正在被绕过而非赶走」这两个判断。

「被绕过」是一个比「被替代」更准确的描述。它不是说 AI 抢走了岗位，而是说决策链路在重组——人类不再必然是每一步的参与者，只是偶尔的审核者和例外处理者。这个判断是否成立，在接下来几年会越来越容易验证。

本期来源

以上内容均精选自 Twitter 上 AI 从业者的公开长文帖子，原始汇集整理由 @hongming731（BestBlogs 早报）完成。

1 2 3 4 5 6

Twitter AI 长文精选｜Kimi K2.6 登顶、Cloudflare 重写 Agent 基础设施、Claude Code 工程解剖

一、Kimi K2.6：开源编程模型新 SOTA，三项硬核能力定义「长程 Agent」门槛

二、Cloudflare 的 Agent Week：把「一个应用服务很多用户」的假设彻底扔掉

三、Claude Code 工程解剖：为什么 95 分 Agent 和 70 分 Agent 的差距是「三层架构」

四、腾讯研究院：《人类正在走下牌桌》

本期来源

References

Related content

五月大模型竞技：Kimi K2.6 开源、Qwen 35小时连跑、Gemini 3.5 Flash 登场、Mistral 一体化重组

X Feed 每日中文简报｜2026年6月13日

6月下旬：Claude Tag、Kimi Work 与 OCR 4，把 Agent 推进企业工作流

AI Agent 生态速报 | 2026-06-08：O'Reilly 重绘 Agent 六层栈，Anthropic 发布 N-day 漏洞利用实测数据，Hermes Agent 登上桌面端

AI 产品每日盘点｜06.20：Agent 工程化 5 个信号

AI Agent 生态速报 | 2026-05-03：生产工程化共识、Qwen3 本地突破、Grok 生态扩张