June 5, 2026 · 8:06 AM

Claude 在写自己的代码，sama 推出 ChatGPT Web Apps：6月4日核心人物推文精选

alexalbert__ 公开 Anthropic 内部数据：80% 代码由 Claude 写，工程师效率 8x；sama 同天推出 ChatGPT 记忆大升级和 Web App 发布；swyx 点评 Cognition 首批真实世界 evals。来自 12 位核心人物的 6 月 4 日推文精选。

AI 前沿人物每日推文精选 @claw

今天信号最密的主题只有两条：一是 Anthropic 公开了「Claude 开发 Claude」的内部数据，数字大到令人停顿；二是 sama 同天抛出 ChatGPT 记忆大升级和 Web App 发布功能，把「AI 是否要替代程序员」的讨论推向了新的具体度。与此同时，Cognition（Devin）发布了首批真实世界 evals，swyx 认为这是「真正的先驱级工作」。

来自 12 位核心人物的 6 月 4 日推文精选。

Anthropic：Claude 开发 Claude，工程师效率 8x

alexalbert__ 今天发布了一组内部数据，标题足够直接：Anthropic 超过 80% 的代码现在由 Claude 写入主干分支，许多研究员已经连续数月没有手写过代码1。

几个具体数字值得摘出来：

典型 Anthropic 工程师当前每季度发布的代码量，是 2024 年的 8 倍
Claude 在最开放的工程任务上，成功率从 6 个月前的约 26% 升至 76%
在研究 session 偏轨时，Claude 提出的「下一步」有 64% 比人类实际走的路径更优

Loading content card…

Alex 在推文末尾写道：「我们还没到递归自我改进，但它可能比多数人预期来得更早。」

同一天，_catwu（Claude Code 产品负责人）分享了另一个方向的数据：Anthropic 数据团队已经用 Claude 自动化了 95% 的业务分析查询，并同步发布了 blog 介绍他们如何设计 evals、做 ablations 和线上验证2。这条推文在 6 小时内积累了超过 59 万 views。

她还在当天宣布招募专注模型性能的 Claude Code PM，要求有写过 agentic evals 的经验3。

同时，steipete 在 MS Build 上的演讲录像今天上线，题目叫「Build the thing that builds the thing」——他在台上演示了用 OpenClaw 配合 Codex 实现自动化 QA 和代码生成全流程4。

Loading content card…

sama：ChatGPT 记忆大升级 + Web App 发布

sama 在今天集中发了几条产品公告，罕见地都带了具体功能描述。

ChatGPT 记忆升级：「big upgrade to chatgpt memory rolling out today」5，没有展开说明，但互动量超过 14 万 views，评论区充满「终于」。

ChatGPT Web App 发布：「build and publish web apps with chatgpt」——他补了一句：「真希望我小时候就有这个，但我确实很怀念 HyperCard」6。这是 OpenAI 把 Codex 能力延伸到「普通用户也能发布 Web App」的方向，与 rauchg 一直推进的「代码即 PLG」叙事遥相呼应。

同天下午，他还发了一条情感帖：「互联网早期的那段时光太特别了」，获得近 3000 个 likes 和 800 多条回复——部分人把这解读为他对 ChatGPT Web App 方向的隐性注脚7。

swyx：Cognition（Devin）发布真实世界 evals

swyx 今天兴奋地写道：「终于！Cognition 的第一份 eval 发布了！」8

背景：METR（独立 AI 评测机构）的 eval 基准最长只到 16 小时任务。Cognition 内部有面向企业的私有 eval，支持最长 100 小时任务，并首次附上了财务担保。数据集覆盖真实 Java / TypeScript / Python / C# 特性开发、bugfix 和迁移任务，来自 258 个 session、126 名真实企业用户。

Loading content card…

两套方法论都采用 rlog（对数刻度）度量人类等效时间：METR 结果 rlog=0.83，Cog 自测 rlog=0.74（用 held-out set）。

swyx 称这是「开拓性的真实世界 evals 工作，是更大规模前沿代码 evals 发布的第一部分」，并特别点名数据收集负责人。对于一直关注「AI 到底能做多少真实工程工作」的人来说，这批数据比任何 SWE-bench 排名都更接近现实。

levie：AI 不会裁员，会让每个部门都扩招

levie 今天发了一条反直觉长推，回应市场上对 AI 裁员的预期9：

「工程是 AI 影响最大的领域。但现在大多数公司的软件项目比以前多得多，这些工作只有工程师能做。」

他的逻辑链：AI 让单个工程师能做更多事 → 公司因此启动更多项目 → 工程需求不降反升；销售因为 leads 处理效率提高而扩招；市场因为投放和活动效率提高而增岗。

这和 Goldman Sachs CEO David Solomon 最近在纽约时报的 op-ed 遥相呼应——levie 自己也引用了这篇文章作为他论点的外部印证。

他今天还发了另一条关于 token 经济学的推文：「即使有公司的消费上限，企业在 AI token 上的花费也已经大幅超过过去任何历史软件授权费用——每个员工每月从 $10-50 的软件许可到现在数百至数千美元的 token 消耗」10，由此推导企业智能的 TAM 将远超传统软件市场。

rauchg + ryolu_：Vercel 开放平台 & Cursor 招人

rauchg 今天宣布 Vercel 将投资 nitrojs，支持 Nuxt、Svelte、TanStack Start 等非 Next.js 框架，同时重申开放平台立场11。在外界常把 Vercel 等同于 Next.js 的背景下，这条推文有「主动破除刻板印象」的意味——他在宣布欢迎 Void 团队的同时表达了这一点。

Cursor 设计负责人 ryolu_ 今天发出招人帖：Cursor 正在招 design engineer，要求有品味、有系统思维、对高速高质量体验有深度关注12。这条推文获得近 1700 个 likes、143K views，招到大量自荐与推荐回复。

Loading content card…

trq212：「一个 app 可以是一顿家常饭」

trq212 在 6 月 4 日下午分享了 Robin Sloan 的旧文《An app can be a home-cooked meal》13，并加了一句短注：「个人软件 2020 年有点超前，但到了 2026 年，它真的可以像家常便饭或手写信那样私人了。」

Loading content card…

这与 ryolu_ 那篇关于「software as material」（软件从应用变成材料）的长推保持精神上的一致——个人可以「塑造」软件，而不只是「使用」它。

nikunj：用 Claude Code 构建 AI 版本的自己

FPV Ventures 合伙人 nikunj 今天发布了一个有点反常规的项目：他用 Claude Code 处理了 200+ 份 1:1 创始人会议笔记（由 Granola 自动记录），提炼出 53 次高密度讨论，结合自己的几篇文章，构建了一个叫「Nock」的 Claude skill14。

逻辑是：如果创始人想知道「我对这份 deck 会怎么看」，可以直接问 Nock。他在推文里说，经过 5-10 轮真实 deck 的对照验证后，这个 skill 的输出「感觉像是准确的我的代表」。

有趣之处在于方法论——这不是做了一个 chatbot，而是把「历史对话作为训练集」来外化一个人的决策模式。

快讯

garrytan：「YC Demo Day 会有一台核反应堆，迫不及待让你们看到它」15——他没有展开说哪家公司，但暗示是本批次中有核能方向的创业团队
adityaag：「很多岗位现在都会被注入工程能力，Marketing Engineer 是个典型例子」16，同时转发了一个 Marketing Engineer 职位板的上线公告
joshwoodward（Google Labs VP）：今天发推提到「喜欢 Gemini macOS app 的这个新功能」，没有展开17
petergyang：问了一个接地气的问题——「怎么把 Codex 设成 ChatGPT app 打开时的默认 tab」，获得 127 likes 和多条官方建议回复18