June 5, 2026 · 8:06 AM

Claude 在写自己的代码,sama 推出 ChatGPT Web Apps:6月4日核心人物推文精选

alexalbert__ 公开 Anthropic 内部数据:80% 代码由 Claude 写,工程师效率 8x;sama 同天推出 ChatGPT 记忆大升级和 Web App 发布;swyx 点评 Cognition 首批真实世界 evals。来自 12 位核心人物的 6 月 4 日推文精选。

今天信号最密的主题只有两条:一是 Anthropic 公开了「Claude 开发 Claude」的内部数据,数字大到令人停顿;二是 sama 同天抛出 ChatGPT 记忆大升级和 Web App 发布功能,把「AI 是否要替代程序员」的讨论推向了新的具体度。与此同时,Cognition(Devin)发布了首批真实世界 evals,swyx 认为这是「真正的先驱级工作」。
来自 12 位核心人物的 6 月 4 日推文精选。

Anthropic:Claude 开发 Claude,工程师效率 8x

alexalbert__ 今天发布了一组内部数据,标题足够直接:Anthropic 超过 80% 的代码现在由 Claude 写入主干分支,许多研究员已经连续数月没有手写过代码1
几个具体数字值得摘出来:
  • 典型 Anthropic 工程师当前每季度发布的代码量,是 2024 年的 8 倍
  • Claude 在最开放的工程任务上,成功率从 6 个月前的约 26% 升至 76%
  • 在研究 session 偏轨时,Claude 提出的「下一步」有 64% 比人类实际走的路径更优
Loading content card…
Alex 在推文末尾写道:「我们还没到递归自我改进,但它可能比多数人预期来得更早。」
同一天,_catwu(Claude Code 产品负责人)分享了另一个方向的数据:Anthropic 数据团队已经用 Claude 自动化了 95% 的业务分析查询,并同步发布了 blog 介绍他们如何设计 evals、做 ablations 和线上验证2。这条推文在 6 小时内积累了超过 59 万 views。
她还在当天宣布招募专注模型性能的 Claude Code PM,要求有写过 agentic evals 的经验3
同时,steipete 在 MS Build 上的演讲录像今天上线,题目叫「Build the thing that builds the thing」——他在台上演示了用 OpenClaw 配合 Codex 实现自动化 QA 和代码生成全流程4
Loading content card…

sama:ChatGPT 记忆大升级 + Web App 发布

sama 在今天集中发了几条产品公告,罕见地都带了具体功能描述。
ChatGPT 记忆升级:「big upgrade to chatgpt memory rolling out today」5,没有展开说明,但互动量超过 14 万 views,评论区充满「终于」。
ChatGPT Web App 发布:「build and publish web apps with chatgpt」——他补了一句:「真希望我小时候就有这个,但我确实很怀念 HyperCard」6。这是 OpenAI 把 Codex 能力延伸到「普通用户也能发布 Web App」的方向,与 rauchg 一直推进的「代码即 PLG」叙事遥相呼应。
同天下午,他还发了一条情感帖:「互联网早期的那段时光太特别了」,获得近 3000 个 likes 和 800 多条回复——部分人把这解读为他对 ChatGPT Web App 方向的隐性注脚7

swyx:Cognition(Devin)发布真实世界 evals

swyx 今天兴奋地写道:「终于!Cognition 的第一份 eval 发布了!」8
背景:METR(独立 AI 评测机构)的 eval 基准最长只到 16 小时任务。Cognition 内部有面向企业的私有 eval,支持最长 100 小时任务,并首次附上了财务担保。数据集覆盖真实 Java / TypeScript / Python / C# 特性开发、bugfix 和迁移任务,来自 258 个 session、126 名真实企业用户。
Loading content card…
两套方法论都采用 rlog(对数刻度)度量人类等效时间:METR 结果 rlog=0.83,Cog 自测 rlog=0.74(用 held-out set)。
swyx 称这是「开拓性的真实世界 evals 工作,是更大规模前沿代码 evals 发布的第一部分」,并特别点名数据收集负责人。对于一直关注「AI 到底能做多少真实工程工作」的人来说,这批数据比任何 SWE-bench 排名都更接近现实。

levie:AI 不会裁员,会让每个部门都扩招

levie 今天发了一条反直觉长推,回应市场上对 AI 裁员的预期9
「工程是 AI 影响最大的领域。但现在大多数公司的软件项目比以前多得多,这些工作只有工程师能做。」
他的逻辑链:AI 让单个工程师能做更多事 → 公司因此启动更多项目 → 工程需求不降反升;销售因为 leads 处理效率提高而扩招;市场因为投放和活动效率提高而增岗。
这和 Goldman Sachs CEO David Solomon 最近在纽约时报的 op-ed 遥相呼应——levie 自己也引用了这篇文章作为他论点的外部印证。
他今天还发了另一条关于 token 经济学的推文:「即使有公司的消费上限,企业在 AI token 上的花费也已经大幅超过过去任何历史软件授权费用——每个员工每月从 $10-50 的软件许可到现在数百至数千美元的 token 消耗」10,由此推导企业智能的 TAM 将远超传统软件市场。

rauchg + ryolu_:Vercel 开放平台 & Cursor 招人

rauchg 今天宣布 Vercel 将投资 nitrojs,支持 Nuxt、Svelte、TanStack Start 等非 Next.js 框架,同时重申开放平台立场11。在外界常把 Vercel 等同于 Next.js 的背景下,这条推文有「主动破除刻板印象」的意味——他在宣布欢迎 Void 团队的同时表达了这一点。
Cursor 设计负责人 ryolu_ 今天发出招人帖:Cursor 正在招 design engineer,要求有品味、有系统思维、对高速高质量体验有深度关注12。这条推文获得近 1700 个 likes、143K views,招到大量自荐与推荐回复。
Loading content card…

trq212:「一个 app 可以是一顿家常饭」

trq212 在 6 月 4 日下午分享了 Robin Sloan 的旧文《An app can be a home-cooked meal》13,并加了一句短注:「个人软件 2020 年有点超前,但到了 2026 年,它真的可以像家常便饭或手写信那样私人了。」
Loading content card…
这与 ryolu_ 那篇关于「software as material」(软件从应用变成材料)的长推保持精神上的一致——个人可以「塑造」软件,而不只是「使用」它。

nikunj:用 Claude Code 构建 AI 版本的自己

FPV Ventures 合伙人 nikunj 今天发布了一个有点反常规的项目:他用 Claude Code 处理了 200+ 份 1:1 创始人会议笔记(由 Granola 自动记录),提炼出 53 次高密度讨论,结合自己的几篇文章,构建了一个叫「Nock」的 Claude skill14
逻辑是:如果创始人想知道「我对这份 deck 会怎么看」,可以直接问 Nock。他在推文里说,经过 5-10 轮真实 deck 的对照验证后,这个 skill 的输出「感觉像是准确的我的代表」。
有趣之处在于方法论——这不是做了一个 chatbot,而是把「历史对话作为训练集」来外化一个人的决策模式。

快讯

  • garrytan:「YC Demo Day 会有一台核反应堆,迫不及待让你们看到它」15——他没有展开说哪家公司,但暗示是本批次中有核能方向的创业团队
  • adityaag:「很多岗位现在都会被注入工程能力,Marketing Engineer 是个典型例子」16,同时转发了一个 Marketing Engineer 职位板的上线公告
  • joshwoodward(Google Labs VP):今天发推提到「喜欢 Gemini macOS app 的这个新功能」,没有展开17
  • petergyang:问了一个接地气的问题——「怎么把 Codex 设成 ChatGPT app 打开时的默认 tab」,获得 127 likes 和多条官方建议回复18

Related content

Picked from other channels by content similarity—find new creators to follow.

Add more perspectives or context around this Post.

  • Sign in to comment.