89% 代码由 Devin 提交:Cognition 的 260 亿美元组织实验
June 26, 2026 · 8:15 AM

89% 代码由 Devin 提交:Cognition 的 260 亿美元组织实验

Cognition 把 Devin 放进自己的工程链路,让 AI 代理承担大部分代码提交,人类团队转向定义任务、审核结果和改造客户现场。本文拆解这家公司如何从竞赛型研究小队,演化成代理、IDE 与企业交付并重的 AI 原生组织。

Research Brief

如果只看估值,Cognition 已经是 AI 编程赛道里最夸张的公司之一:2026 年 5 月,它宣布完成超过 10 亿美元融资,估值 260 亿美元,运行收入达到 4.92 亿美元,企业使用量从年初以来增长超过 10 倍。更值得拆的是另一组数字:Cognition 说,自己工程师提交的代码里,89% 由 Devin 提交,其余来自 Windsurf 里的本地代理。1
这让 Cognition 比普通软件公司更像一场管理实验:当公司内部的大部分代码生产都交给 AI 工程师,人类团队到底该怎么分工、招聘和协作?
先给结论。Cognition 的组织逻辑不是「用 AI 少雇人」这么简单。它真正押注的是:把人从写代码的执行层,推到定义任务、拆问题、验收结果和训练工作流的位置上。人不再只是交付者,而是 AI 代理队伍的架构师。

先看三组数字

事实来源口径组织含义
估值 260 亿美元,运行收入 4.92 亿美元Cognition 2026 年 5 月融资公告披露1市场押注的不只是一个工具,而是「软件生产方式」的变化
2026 年年初以来,企业使用量增长超过 10 倍同一融资公告披露1销售、部署、客户工程开始变得和研究同样重要
内部工程师提交代码中,89% 由 Devin 提交Cognition 在融资公告中披露1公司把自己的产品当成组织操作系统,而不是演示工具
这三组数字放在一起,能看出 Cognition 的压力来源。它一边要保持研究型公司的技术速度,一边要服务 Citi、Mercedes-Benz、Goldman Sachs、Dell、美国陆军和海军这类企业客户。Cognition 在公告里列出这些客户,并称 Mercedes-Benz 将一个八个月的遗留系统现代化项目压缩到八天。1
这不是纯研究团队能自然承接的工作量。AI coding agent 一旦进入大企业,交付对象就从「好不好用」变成了「能不能接入代码库、流程、权限、审计、工单、日志和安全规范」。组织必须跟着产品形态一起变。

从竞赛型研究小队,到「代理 + IDE + GTM」公司

Cognition 的早期气质很像一支竞赛队。公司招聘页写到,创始团队拥有 10 枚 IOI 金牌,成员来自 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo 和 Nuro 等公司。2 Scott Wu 本人也有很强的竞赛编程背景:Stripe 对他的访谈介绍里提到,他拿过三枚国际信息学奥林匹克金牌,2016 年代表哈佛参加 ICPC,后来创办 Lunchclub,2022 年共同创办 Cognition。3
这种背景解释了 Cognition 为什么能很早押注「自主软件工程师」这个难题。Devin 不是代码补全,也不是在编辑器里给建议。Wu 在 Stripe 访谈里把 Devin 定义为一种异步体验:你把 GitHub issue、Slack、Linear 或 Jira 里的任务交给它,它在 ticket 或 project 层级把事情做完。3
但这也制造了一个组织缺口。自主代理能处理任务,不等于客户知道如何把代理放进真实工程流程。Cognition 2025 年 7 月收购 Windsurf,补上的正是这块拼图。Cognition 在收购公告里写明,交易包括 Windsurf 的 IP、产品、商标、品牌、8200 万美元 ARR、350 多家企业客户,以及数十万日活用户。4
更有意思的是人。Cognition 在给内部团队的信里说,Windsurf 带来了 GTM、工程和产品团队;TechCrunch 也报道,Cognition 收购了 Windsurf 未被 Google 挖走的团队和产品。45
这笔收购不是简单买用户。它让 Cognition 从「做 autonomous agent 的研究团队」变成了「agent + IDE + 企业 GTM」的组合体。CNBC 后来报道,收购 Windsurf 后,Cognition 的 ARR 已经翻倍,合并后的企业 ARR 增长超过 30%。6

招聘:不是找会写代码的人,而是找会定义问题的人

Cognition 的招聘页用了一个很直接的说法:「talent-dense and growing quickly」。它不是把自己描述成一个流程成熟、岗位边界清晰的大公司,而是在招能在前沿问题里快速自驱的人。2
这类公司招聘的难点不在「会不会写代码」。如果 89% 的提交可以由 Devin 生成,人类工程师的稀缺性就不再只是编码速度,而是判断力:任务是不是拆对了,验收标准是不是清楚,代码库上下文是不是给够了,生成结果有没有隐藏风险。
招聘页上的岗位分布也能看出 Cognition 的组织重心。页面列出 24 个 Sales 岗、18 个 Customer Engineering 岗、8 个 Marketing 岗,以及 7 个 Research & Development 岗。2 这不是说研发不重要,而是说明产品进入企业后,增长瓶颈正在从「能不能做出来」转向「能不能在复杂客户现场跑起来」。
Customer Engineering 在这里尤其关键。AI coding agent 的销售不像卖一个 SaaS seat。客户要把代码库、权限、工单系统、日志、CI、知识库接进来,才可能让 Devin 真正做事。能完成这件事的人,既要懂工程,又要能处理客户流程,还要会把客户的含糊需求拆成代理能执行的任务。
这也是 Cognition 和传统工具公司的区别。传统开发工具卖的是效率增强,客户买了以后由内部团队慢慢采用。Devin 卖的是「把任务交出去」。这要求 Cognition 招的人会把客户的工程组织改造为适合 AI 代理工作的形态。

协作:Devin 不是插件,是同事

Cognition 最有价值的公开材料,是它写自己如何用 Devin 构建 Devin。文章开头给了一个硬数字:某一周,Cognition 把 659 个 Devin PR 合并进自己的代码库,而 2025 年最好的单周是 154 个。7
内部工作流也很清楚。Cognition 说,他们在 web、Slack、Linear、CLI 和 API 里使用 Devin;团队成员可以像给同事发消息一样,在 Slack 或工单里 @Devin,并附上上下文。Devin 生成 PR 后,人类再 review 和测试。7
这带来一个组织变化:能提交代码的人不再局限于会配置 Git、命令行和本地环境的工程师。Cognition 在文章里写到,任何人都可以在不理解 Git 或命令行的情况下,向代码库贡献改动请求。7
听起来很激进,但它并没有取消工程师。相反,瓶颈从「写」移到了「审」。Cognition 说,随着代理写的代码越来越多,瓶颈从写代码转向 review;他们现在用 Devin Review 处理每一个 PR,并让它把大型复杂 diff 组织成更容易理解的结构。7
这套机制背后的管理原则很简单:AI 负责扩大吞吐,人负责降低错误外溢。组织如果只把 AI 当作代码生成器,就会遇到 review 堵塞;Cognition 的做法是把 review、bug triage、design system audit、数据分析、知识库索引也一起代理化,让整条工程链路都能承受更高吞吐。

管理方法:把 AI 产出折算成人类工程小时

很多公司谈 AI 效率,还停在 tokens、提交数、PR 数这些活动指标。Cognition 的管理方法更接近财务核算:它试图估算每个 Devin session 相当于节省了多少「有效工程小时」。
在 2026 年 6 月的文章里,Cognition 解释了这套系统:先判断一个 session 是否产出了有用结果,再估计人类工程师完成同样工作需要多久。它用 126 位用户的 258 个 session 建立数据集,并在 233 个 held-out session 上得到 r_log = 0.74 的相关性。8
这个指标很值得管理者看。它承认代码行数不等于价值,也承认 AI session 可能失败。Cognition 会过滤无效 session;对于有 PR 的 session,如果 PR 没有被合并,就不纳入估算。对于没有 PR 的 session,它会用分类器排除无权限、用户未回复、没有实质推进等情况。8
这是一种很 AI 原生的管理方式:不把 AI 当黑盒福利,也不把所有自动化都算作收益。它先建立验收口径,再看组织到底省下了多少人力。
如果这套指标继续成熟,Cognition 的管理层会获得一种传统工程组织没有的视图:哪些任务适合代理,哪些团队能从代理中获得最大回报,哪些流程虽然看起来自动化了,但实际没有节省有效时间。

管理者真正要学的,不是「把 89% 代码交给 AI」

Cognition 的案例容易被误读成一句话:以后公司可以少招工程师。Scott Wu 对这个问题的回答反而更克制。TechCrunch 2026 年 5 月采访他时,他说 Cognition 从没把 Devin 视为替代人类;他更愿意把 Devin 看作「帮助你构建更多东西的伙伴」。9
这句话和 Cognition 自己的内部实践并不矛盾。Devin 可以提交 89% 的代码,但仍然需要人决定架构、定义任务、review 结果、校准代理、处理客户现场的模糊问题。Wu 在 Stripe 访谈里也说,Devin 现在更像 junior engineer,常用于简单功能、修复、迁移、重构、版本升级、测试和文档等工作。3
所以,Cognition 对创业公司的启发不是「立刻裁掉工程师」。更准确的说法是:如果 AI 能承担大量执行工作,公司就必须重新设计人的岗位。
可复制的部分有三条。
  1. 把工具先变成内部工作流。 Cognition 没有只写客户案例,而是公开自己如何用 Devin 处理 PR、bug triage、数据分析、文档和设计系统漂移。内部自用越深,产品反馈越快。7
  2. 让非工程角色也能触达代码库。 如果运营、支持、产品、数据人员都能通过代理发起代码级改动,组织速度会提升;但前提是 review、权限和回滚机制足够硬。
  3. 用有效产出而不是活动量管理 AI。 PR 数、代码行、token 消耗都可能误导管理者。Cognition 用「人类等价工程小时」做口径,至少把讨论拉回了业务上真正关心的时间和成本。8
边界也很明显。Cognition 这套方法适合代码库、任务、日志、工单和 review 流程高度数字化的团队。越依赖模糊判断、线下协作和隐性知识的组织,越难直接复制。它还要求团队有足够强的工程文化:任务要写清楚,验收要具体,review 要认真,否则代理会把混乱放大。
Cognition 的组织实验最值得盯的地方,不是它能不能继续把估值推高,而是它能否证明一种新公司形态:人负责判断、设计和验收,AI 代理负责大规模执行。真要复制 Cognition,先别问能不能买到同样的模型。先问自己的团队,能不能把工作拆到足够清楚,让一支「代理队伍」真的接得住。

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.