← 返回
VIDEO INSIGHT

Building Claude Code with Boris Cherny

嘉宾
日期
2026-03
时长
98 min

概要

  • Claude Code 现在平均写了 Anthropic 约 80% 的代码,技术员工几乎 100% 每天使用,非技术员工也在逼近 100%(销售团队约一半在用)。Boris 本人在一次"coding vacation"里每天出 10-20 个 PR、Opus 4.5 写 100%、一行手动代码都没改,整月只引入约 2 个 bug("手写的话会有 20 个");切换到全 AI 写代码是用上 Opus 4.5 的那一刻"瞬间"发生的,之后他干脆卸载了 IDE。
  • Claude Code 起源于一个"别把模型装进盒子"的顿悟。Boris 给模型一个 bash 工具、随口问"我现在在听什么歌",Sonnet 3.5 一次就写出 AppleScript 查出来了——他意识到"模型就是想用工具,你给它工具它就会想办法把事办成"。这是 bitter lesson 的一个推论:别把模型当成大程序里被 stub 掉的一个模块,让它自己跑、自己写程序。
  • 最反直觉的技术选择是放弃 RAG。早期用本地向量数据库做检索,但遇到代码漂移、索引权限、数据隔离一堆问题;试遍各种方案后,"Agentic search"——其实就是 glob + grep——跑赢了一切。灵感来自 Boris 在 Instagram 的经历:那里 click-to-definition 老坏,工程师改成搜 foo(,"这招对模型一样好使"。
  • 代码评审被重塑成"确定性 + 非确定性"的多层防线:每个 PR 由 Claude-P(Claude agent SDK 跑在 CI 里)先审,能抓约 80% 的 bug;Claude 还会把自己 launch 成子进程做端到端自测(Opus 4.5 起自发这么做);再加 type checker/linter/build 等确定性手段和 best-of-N(并行 agents + 去重 agents)——但始终有一个人在环里最终批准。
  • Anthropic 的工程文化是"不写、只展示":人人头衔都是 member of technical staff(无职级),默认假设每个人什么都做;不写 PRD,直接发 PR/做原型(to-do list 做了 15-20 个可交互原型、一天半搞定);数据科学家、财务、设计师全都在写代码。Cowork 这个面向非工程师的新产品10 天就造出来了,插件系统是一个 agent 群(swarm)一个周末跑数百个 agent、自建 100 个 Asana 任务造出来的。
  • 贯穿全场的主线是 Boris 反复强调的"intellectual humility(智识上的谦卑)":模型进步太快,旧的好想法会失效、旧的坏想法会变好,所以要永远带"beginner mindset"、第一次可以"每几个月重试同一个想法"。他用印刷术作类比——抄写员(< 1% 识字的精英)没有消失,而是变成了作家,文学市场暴涨到没人能预测;今天的工程师就是抄写员,而这场转变之后会出现什么,"今天根本无法预测"。
01

从 eBay 卖卡到辍学创业:Boris 的"一切为实用"底色

核心要点:Boris 的工程观从一开始就是"代码是手段不是目的"——为了把事办成,他什么都肯做。

  • 入行的两条线在中学交汇:13 岁在 eBay 卖旧宝可梦卡,发现 listing 能写 HTML,看到别人用大字大色,于是发现了 标签——"加上 blink 标签,我的卡能卖 99 美分而不是 49 美分",就这么学会了 HTML。另一条线是 TI-83 图形计算器:先把数学答案直接编进去,题变难就写解题器,再难就从 BASIC 降到汇编让程序跑快点(八九年级)。同学发现他有解题器都眼红,他买了串口线分发,结果全班数学考试都拿 A,老师查出来了。
  • 大学学经济,辍学去做创业,从没想过 coding 会是职业。第一个创业是"大麻测评"网站(为了搞到大麻样品来测评),意外火了,进而钻进了化学检测。后来很早加入 YC。
  • 一个完整的产品市场契合(PMF)故事——Agile Diagnosis(2011-2012,YC 早期医疗软件):想把芝加哥某医院的心脏症状临床决策协议标准化推广到全美。Boris 写了在 IE6 上跑的 SVG 决策树渲染器,上线后 DAU 曲线一条水平线,查不出原因。于是他骑摩托车去 UCSF 跟了医生几天,发现医生看完一个病人到下一个只有 5 分钟,要走到电脑前、开机要 3 分钟、开 IE6 要 30 秒、再登录 App——"5 分钟就没了"。重写到 Android 还是没人用。最后才悟到:医生身后跟着一群住院医师,这是个社交场合,重点是被看作权威,他们不想被看到在低头看手机。于是再次 pivot 到护士/技师。"找到 PMF 是我最喜欢的事,因为永远出人意料——你不可能押一个大想法,因为想法八成是错的。"
"对我来说工程一直是很实用的事……我一直是个通才,做设计、做工程、做用户调研,都无所谓。" —— Boris Cherny
02

Meta 七年:把"代码质量"做成了可测量的生产力

核心要点:Boris 在 Meta 领导了全公司代码质量,用因果分析证明"干净代码库"对工程效率有两位数百分比的贡献——这个结论如今对模型同样成立。

  • 七年四次晋升:Facebook Groups(被 Vlad Kolesnikov 招进,一批早期 JavaScript 人,Vlad 做的 Bolt JS 后来变成 React JS)→ 当上 Groups tech lead,工作从"建造"变成"写文档、对齐、协调、补隐私安全的债",早期 Facebook 文化在消失。
  • Instagram 阶段的转折很有戏剧性:妻子拿到日本奈良(rural Japan)的 offer,时差 12 小时(2021),Boris 为了搬过去得绕过 HR 关于时区/团队 co-location 的规则,找到 Will Bailey(Instagram Stories 作者)在东京的初创团队。他对比两边技术栈感受强烈:Facebook 是世界上最好的 web 服务栈(Hack 语言→HHVM→GraphQL→Relay→React,全链路优化),而 Instagram 是"Python 但类型检查器不工作、click-to-definition 不工作、一坨拼起来的 Django + CPython fork"。于是他转去做 Dev Infra(从 Python 迁到 Facebook 单体、迁移 Instagram GraphQL,"要几百个工程师干好几年")——也在这里遇到现在 Claude Code 团队的经理 Fiona Fung。
  • 离开时他领导整个 Meta 的代码质量(Instagram/Facebook/Messenger/WhatsApp/Reality Labs)。Meta 有个叫 Better Engineering 的项目(约 2016/2018 起):Zuck 强制每个工程师把 20% 的时间用于修技术债;Facebook 规模下每年有数万次迁移。Boris 发现这事缺秩序(没目标、没人知道产出、没追踪),于是建了集中式的代码质量优先级排序,并量化代码质量对工程效率的影响。
  • 量化方法是因果分析/因果推断(causal inference):找出让工程师更高效的因素。结论是代码质量贡献了"两位数百分比"的效率——"Meta 重返办公室(而非 WFH),部分就是被这个驱动的,因为我们发现了一些我们认为是因果的强相关。"他强调:如果每写一个功能都要纠结用框架 X/Y/Z(因为代码库处在半迁移状态),工程师、新人、模型都会很难受——"模型可能直接选错,然后用户得纠正它。所以正确做法永远是保持干净的代码库,开始迁移就一定要完成迁移。这对工程师好,如今对模型也一样好。"
"代码质量实际上贡献了两位数百分比的生产力——哪怕在最大的规模上也成立。" —— Boris Cherny
03

加入 Anthropic:第一个 PR 被拒,因为"你手写了"

核心要点:Boris 的"feel the AI"时刻来自一次被拒的 PR——它把他从"手写代码是天经地义"里摇醒。

  • 选 Anthropic 是因为使命(safety)。Boris 是重度科幻读者,"我知道这东西要是搞砸了能有多坏",而 Anthropic 是"有认真的思考者、把这件事当回事"的地方。
  • 名场面:他入职后第一个 PR 手写完成("我以为代码就该这么写,过去也确实是这么写的"),结果 ramp-up buddy Adam Wolf 把 PR 拒了——不是因为代码烂,而是说"你应该用这个叫 Clyde 的东西"。当时这个 Claude Code 前身极其简陋:Python 写的、启动要 40 秒、是研究代码、还不是 agentic,"但只要你很小心地 prompt、把工具摆正,它能替你写代码"。Boris 花了半天搞懂怎么用(要传一堆 flag),然后它一次就吐出一个能跑的 PR
  • "这是我在 Anthropic 第一个 feel the AI 的时刻。我当时就'我的天'——我习惯了 IDE 里那种 tab 补全、行级补全,根本不知道它能直接给我做一个能用的 pull request。"(约 2024 年 8-9 月)
"Adam 拒了我的 PR,说'其实你该用这个 Clyde'……它一次就把活干完了。这是我第一个 feel the AI 的时刻。" —— Boris Cherny
04

Claude Code 的起源:别把模型装进盒子

核心要点:Claude Code 不是规划出来的产品,而是从"给模型一个 bash 工具看它能干嘛"的实验里长出来的——核心顿悟是"模型就想用工具,别给它套盒子"。

  • 起点很随意:Boris 想搞懂 Anthropic 的公开 API(他没用过),不想做 UI,就写了个小 bash 工具——本质是个终端里的聊天应用("因为当时 AI 就是这样")。最初它甚至不叫 Claude Code,就是个 chatbot,"因为我以为 AI 就是 chatbot"。
  • 转折点的故事:tool use 刚出来,Boris 不知道拿它干嘛,给了模型唯一一个工具——bash,然后随口问"我现在在听什么歌?"——他甚至不确定它能不能做到。结果 Sonnet 3.5 写了个 AppleScript 程序,打开他的音乐播放器、查出正在播放的歌,一次搞定。"这是我紧接着第一个之后的第二个 feel the AGI 时刻。模型就是想用工具——你给它一个工具,它会想办法用它把事办成。"
  • 由此引出核心心智模型的转变。当时所有人想 AI+coding 的方式是"把模型放进盒子里":你有个程序,stub 掉某个模块/函数说"这块现在是 AI 了",其余还是普通程序。"这就是错的想法。正确的想法是:模型是它自己的东西,你给它工具、给它能跑的程序,让它跑程序、写程序,但别把它做成大系统里的一个组件。这是 bitter lesson 的一个推论——让模型做它自己的事,别试图把它装进盒子、别强迫它按某种方式行事。"
  • 演进路径:最初 3 个月只有 Boris 一人;工具从 bash 开始,第二个是 file edit,然后团队扩大。
"我不觉得它只是个组件。模型是它自己的东西——你给它工具,它会想办法把事办成。别试图把它装进盒子。" —— Boris Cherny
05

内部辩论与"垂直"的采用曲线:为发布而发布,是为了在真实世界研究安全

核心要点:Claude Code 一度被考虑"只自用",最终决定发布的理由是 Anthropic 的立身之本——safety,只有放到真实世界才能研究它的真实风险。

  • 它在内部一传开就让全工程团队效率暴涨,于是有了"要不别发布、自己留着用"的辩论。最终决定发布,"这样我们能在真实世界研究安全"。Boris 解释 Anthropic 看安全分几层:模型层的对齐与可解释性 → evals(把模型放进培养皿合成地研究)→ 在真实世界里看它到底怎么表现、用户怎么谈论它、有什么真实风险——"这样能学到很多,也确实让模型安全了很多。事后看,发布完全是对的决定。"
  • Anthropic 的产品观很反常:"我们是研究实验室、安全实验室,产品是贴在旁边的东西——产品存在是为了更好地服务研究、让模型更安全。"讽刺的是,一些创业公司刻意去做开发者工具求采用,反而是这个"研究工具"拿到了更高采用率。
  • 发布评审的名场面:房间里有 Mike Krieger、Dario 等人,看着内部采用曲线——"就是一条垂直线,简直疯了"。如今"100%——Anthropic 每个技术员工每天都用 Claude Code,非技术员工也在快速逼近 100%,销售团队差不多一半在用"。Dario 当时问"它怎么长这么快?你是不是逼大家用的?"Boris 说"没有,我们提供工具,人们用脚投票"。
"我们把内部采用图调出来,就是一条垂直线……Dario 问'你是不是逼大家用的?'我说'没有,人们用脚投票'。" —— Boris Cherny
06

Boris 的工作流:5 个终端、plan mode、在手机上起 agent

核心要点:没有唯一正确的用法(Claude Code 刻意做得 hackable),但 Boris 的实战流是高度并行 + 先把 plan 调对 + 一次性实现。

  • 切换是"瞬间"的:用上 Opus 4.5 那一刻,他发现"再也不用打开 IDE 了",一个月后才意识到自己早就不用了,于是卸载。"老实说它写的代码比我好——我不想承认,想保留点骄傲,但大概是真的。"
  • "Coding vacation"案例(12 月在欧洲边游牧边写):每天 10-20 个 PR,Opus 4.5 + Claude Code 写 100%一行没手动改;整月 Opus 只引入约 2 个 bug,"手写的话会有 20 个"。而且和过去不同——以前高产工程师的 20-30 个 PR 多是一行改动或 A→B 迁移,"现在我每天 20-30 个 PR 每个都完全不同,有几千行的、几百行的、一行的,没有一个是迁移——因为迁移 Claude 直接做了,我不用参与"。
  • 具体配置:5 个终端 tab,每个一个并行 checkout,round-robin 地在每个里起 Claude,几乎都从 plan mode 开始(终端里 shift+tab 两次);tab 不够就溢出到 web(claude.ai/code),现在更多用桌面 app(内置 worktree 支持,自动建 Git worktree 做环境隔离,"因为我讨厌在命令行手动折腾 worktree")。
  • 最意外的是 iOS app:"每天我一醒来就在手机上起几个 agent"——同一个 Claude Code,只是跑在云端(用 session start hook 配置环境)。"如果半年前你告诉我,我会有 1/3 到一半的代码是在手机上写的,我会觉得疯了,但今天就是这样。"
  • 并行 agents 的节奏:起第一个进 plan mode 给 prompt,趁它跑去第二个 tab 起第二个 plan mode,第三、第四个……被通知某个 plan 好了就回去。"最重要的是来回几次把 plan 调对——plan 一旦好了,Opus 4.5/4.6 几乎每次都能一次性实现。"
  • 给新人的建议:进新代码库时强烈推荐 learn / explanatory 输出风格(/config 切换),熟悉之后就切到"只想高产"的模式。
"如果半年前你告诉我,我有一半代码会是在手机上写的,我会觉得疯了。但今天就是这样。" —— Boris Cherny
07

代码评审:从"电子表格记账"到 Claude 审 Claude

核心要点:Boris 一贯的信条是"把自己自动化掉"——过去靠人肉记账+lint,现在靠 Claude 写 lint、Claude 在 CI 里审每个 PR,但永远保留一个人做最后把关。

  • 过去的做法(他曾是 Meta 最高产的评审者之一,"不是超人,只是在另一个时区没有会"):每次要评论什么,就丢进一张电子表格——某个参数命名差、某个 React 反模式……攒着,某一行出现超过 3-4 次,就为它写一条 lint 规则用静态分析自动化掉。"把繁琐工作自动化是我们工程师独有的超能力,别的领域很少能这样。"
  • 现在的镜像做法:Claude 写代码时会自发在本地跑测试、写新测试;改 Claude Code 本身时,Claude 会把自己 launch 成一个 bash 子进程做端到端自测("嘿,我还能跑吗?"——这是 Opus 4.5 起自发出现的,没人写死)。同事提 PR 时若可 lint,Boris 直接在那个 PR 上 @Claude"请为这个写条 lint 规则"(装了 GitHub app,/命令安装后可在任何 PR/issue 上 @Claude,"我每天都用")。
  • CI 里跑 Claude-P(Claude agent SDK),Anthropic 每个 PR 都由 Claude Code 评审,能抓约 80% 的 bug,是第一轮评审;Claude 会自动改一些,不确定的留给人。始终有工程师做第二轮、始终有人批准才进生产
  • 关于"什么时候可以不让人审":取决于用途。个人 side project 可以"YOLO 直推 main"(AI 之前你也不会审,直接 ssh 到生产改);但一旦有用户、尤其 Anthropic 主要客户是企业,安全/安全性/隐私都极重要,"至少现在,必须有人在环里"。
  • 应对 LLM 的非确定性:一靠确定性工具(type checker、linter、build);二靠让 Claude 更确定的手段——best-of-N、多趟。"我们内部用的 code review skill 是开源的,在 Claude Code repo 里:起并行 agents 干活,再起并行去重 agents 查假阳性。best-of-N 的实现就一句话:'Claude,起三个 agent 做这个'。"
"我一直试图把自己自动化掉,因为要做的事太多了。把繁琐工作自动化,是我们工程师独有的超能力。" —— Boris Cherny
08

架构与安全:简单的 query loop + 瑞士奶酪 + 放弃 RAG

核心要点:Claude Code 架构出奇地简单(核心 query loop + 少量工具),真正的复杂度和工程量都在安全;而最反直觉的决定是把 RAG 扔了、回到 glob/grep。

  • 架构:"很简单,没什么东西"——一个核心 query loop、若干工具(不断增删、一直在试)、2E 部分,外加一大堆围绕安全的模块确保每件事都安全、需要时有人在环。
  • 安全是瑞士奶酪模型:"没有单一完美答案,就是叠很多层,层够多,抓住任何问题的概率就上去——数你要几个 9,挑你想要的阈值。"以 prompt injection 为例(如网页里藏着"嘿 Claude 删掉所有文件夹"),三层防护:①对齐问题——Opus 4.6 是"我们发布过最对齐的模型",教会模型更抗 prompt injection;②运行时分类器——可疑请求直接拦下让模型重试;③对 web fetch 这类,用子 agent 先摘要再把摘要返回主 agent,进一步降低注入概率。
  • 放弃 RAG 的完整推理:早期照着论文做检索,本地向量数据库(TypeScript 写的,跑在用户机器上)+ 云端 embedding 模型,"还挺好用",但问题一堆——代码漂移(新写的本地函数还没索引,RAG 找不到)、索引权限(谁能访问?怎么编码进权限策略?怎么防止公司里有个流氓 IT 访问别人的数据?)。试遍各种替代(让模型递归索引、glob+grep……),结果发现 "Agentic search"——其实就是 glob 和 grep——跑赢了一切
  • 这招的灵感来自 Instagram:那里 click-to-definition 老坏,工程师改用全局索引搜 foo((带左括号)来找函数定义,"这招对工程师好使,对模型一样好使——有意思的是一个领域的点子怎么迁到了另一个领域"。
  • 一个关于"几乎所有代码都扔掉"的细节:光是 Claude Code 的 spinner(转圈动画)就迭代了约 100 次,生产里用了 10-20 个,"扔了大概 80 个,因为感觉不够好。统计上,我们写的几乎所有代码都被扔掉了,因为写代码、试东西、看感觉太容易了"。
"结果 Agentic search 跑赢了一切。Agentic search 是什么?就是 glob 和 grep 的花哨说法,仅此而已。" —— Boris Cherny
09

权限与沙箱:从第一版就有的"不确定就问人"

核心要点:agentic 安全一度被认为可能无解;Claude Code 给出的答案是 permission prompt——把无法自动判定的决定交还给人。

  • 权限系统极复杂,同样是瑞士奶酪:一串分类器 + 静态分析判断命令是否安全;用户可自定义 allow list 标注已知安全的模式(系统也会校验这个 list 安不安全)。
  • 一个反直觉的点:默认很少有工具被预放行。即便是 find 命令也有办法借系统 flag 执行任意代码,sed/set 也有办法——"这些 Unix 工具有一堆隐秘的坑,没你想的那么安全",所以默认很保守。
  • 历史:"run once / 整个 session / 全局放行"这套从 2024 年 9 月第一版(首个内部发布)就是这样。当时安全团队强烈反对:"你不能让模型随便跑 bash 命令,这不安全、这问题无解、不能发布。"Boris 和 Ben Mann(Anthropic 创始人之一、labs 团队发起人,也是把 Boris 招进来的人)头脑风暴出 permission prompt——"如果不确定,就问人,让人来决定"。沙箱(sandboxing)现已开源。
"agentic 安全当时甚至不确定能不能解。我和 Ben Mann 头脑风暴出 permission prompt——不确定就问人。" —— Boris Cherny
10

Anthropic 的工程文化:无头衔、不写 PRD、"我们不写,我们展示"

核心要点:当造原型的成本趋近于零,工程组织的形态随之改变——人人通才、不写文档、用一堆可交互原型代替规划。

  • 无头衔:所有人都是 member of technical staff。理由是"大家都在摸索,眯眼看大家的活其实很相似、都很通才"——一个普通工程师可能既写代码、又做点设计、又跟用户聊、又写自己的 PRD、又写产品代码和基础设施代码、还做研究。统一头衔反转了人际默认:"如果你名字下写着 software engineer,我就默认不问你产品问题;但如果人人都是 member of technical staff,我默认你什么都做。"——"是一种被写进结构里的乐观主义,也是软件工程乃至各学科的未来:更通才。"
  • 引 Mark Andreessen 的"墨西哥对峙":设计师说自己在做 PM 和工程,工程师说自己在做设计——人人都觉得自己在干别人的活——但现实是每个人的角色都在扩张,多半拜 AI 所赐(它让工程师做产品、让产品人做工程都更容易)。
  • 一个生动的扩散故事:去年六七月 Boris 走进办公室,看到 Quad Code 团队旁边一排数据科学家中的一个,屏幕上开着 Claude Code 在跑 SQL(终端里还有小小的 ASCII 可视化)。Boris 问"你是数据科学家,为啥用终端?是在 dogfood 吗?"对方说"不是,我在用它跑查询"。下一周,整排数据科学家电脑上都跑着 Claude Code。今天 Quad Code 团队"人人都写代码——工程师、工程经理、设计师、数据科学家、连财务都写"。
  • 不写 PRD:部分因为还是 startup(不用和很多人对齐,Slack 聊聊就行),部分是产品团队的信条"better just send a PR,多做原型"。to-do list 当年做了 15-20 个可交互、能用的原型,一天半全部做完,Gergely 感叹"换以前要一两周、而且没人会做 20 个,最多做 3 个"。
  • "我们团队的文化是不写、只展示"。Agent teams(swarms 的实现)由 Daisy、Suzanne、Karen 等人原型了好几个月、试了上百个版本才得到手感好的体验——"没有静态 Figma mock 或纯文档能做出来,你必须把它建出来、用它、感受它"。
  • 哲学:"过去建造成本高,你得在开枪前仔细瞄准,因为很难改;现在建造成本极低,但我们不知道往哪瞄,所以只能试、只能看感觉——非常探索性。这背后是谦卑:我一半的点子是坏的,而且不试就不知道哪一半坏。"
"我们团队的文化是:不写,只展示。一切都被原型过很多次。" —— Boris Cherny
11

Claude Cowork:10 天造出,面向"不会写 bash 的人"

核心要点:当你看到非工程师"削尖脑袋"用一个不为他们设计的产品(latent demand),就该为他们造一个新产品了——这就是 Cowork。

  • latent demand 的信号:长期以来非工程师在硬用 Claude Code——Twitter 上有人用它监控番茄植株(接个 webcam,Claude 天天看着"天哪我好开心咱们的植株发芽了""番茄在长"),有人用它从损坏硬盘里恢复婚礼照片;Anthropic 整个财务团队、销售团队都在用。"看到人们为一个不为他们设计的产品跳火圈,就是该为他们造新产品的好信号。"
  • Claude Code 已铺满各种形态(终端、各种 VS Code/JetBrains 系 IDE 扩展、iOS/Android、桌面、web、Slack、GitHub app),但没有一个是为非工程师造的。于是团队 hack 了几个月找正确形态,最后的点子是"拿 Claude Code 加上护栏"——比如配虚拟机("让非技术用户不用读 bash 命令就知道它在干嘛")。约 10 天、全程用 Claude Code 造出来,然后发布
  • 复杂度在哪?产品侧很简单——就是 Claude 桌面 app 里多一个 Cowork tab(和 code、chat tab 并列),底层还是同一个 Claude Code、同一个 Claude agent SDK。大部分复杂度在安全:知道用户非技术,要防止"启动后不小心删掉一堆家庭照片",所以后端一堆分类器(含 prompt injection 等额外缓解)、前端整个虚拟机、一堆操作系统级集成防误删,还要重新设计权限系统。
  • 技术栈:Electron + TypeScript;Cowork 创造者 Felix 是早期 Electron 工程师。macOS 先行(Windows 将至,"大概这播客上线时就有了")——延续 Anthropic"总是在没完全 ready 时就先发、早点向用户学"的风格(Claude Code 当初发布时也不支持 Windows,几周后才补全所有栈)。
  • 配 Chrome 扩展才是精髓(非技术用户的工具往往不是 CLI,而在浏览器里)。Boris 自己每周用 Cowork 做团队项目管理:让它查那张追踪每人在做什么的表格里状态没填的行,然后开两个 Chrome tab(表格 + Slack)直接在 Slack 上挨个 ping 工程师,"一次搞定,只有一个工程师的名字它自动补全不出来"。
  • Cowork 的增长曲线比当年 Claude Code 陡得多——"Claude Code 当初其实不是一夜爆红,是慢热,2025 年 5 月发 Opus 4 / Sonnet 4 才真正 click、增长变指数级;而 Cowork 是即时爆火,挺意外的"。
"看到人们为一个不为他们设计的产品跳火圈,就是该为他们造新产品的最好信号。" —— Boris Cherny
12

Agent 群(swarms)、隐私,与"用周末造出插件系统"

核心要点:把更多 token 砸到"互不相关的上下文窗口"上是一种 test-time compute,能给出更好结果;而一个 agent 群在一个周末就把插件系统造出来了。

  • 多种"压榨上下文"的办法:扩展上下文、自动压缩(实现近乎无限上下文)、子 agent。核心概念是 uncorrelated context windows(互不相关的上下文窗口)——多个从零开始、彼此不知道对方的窗口。对比:同一窗口里做完任务 A 再做 B,B 知道 A;而子 agent 的窗口是全新的,除了那条 prompt 不知道父窗口里有什么。(skill / slash command 能看到父窗口,子 agent 看不到。)"窗口互不相关时,多砸 token 反而给出更好结果——这其实是一种 test-time compute。"
  • Agent teams 刚发布,从约去年 9/10 月就在试,"用上 Opus 4.6 才真正 click,模型搞懂了怎么用"。有时能看到 agent 之间互相讨论的"可爱对话,很有人味",有时直接给出很好的结果。内部评测里让 Claude 造比单个 Claude 能造的更复杂的东西,Opus 4.6 + teams 结果显著提升。它是 opt-in 研究预览,因为"就是一堆 Claude 在跑,烧大量 token"。
  • 插件系统的造法:约三个月前发布 plugins,是 Daisy 用一个很早期的 Swarm 版本,给它一个容器、开 dangerous mode,让它整个周末跑——"任务是造插件:先出 spec,再建 Asana board 拆任务,然后不同 agent 去实现"。它spawn 了数百个 agent、在 Asana 上建了 100 个任务、然后实现了,"这基本就是我们发布的那版插件"。"这类协调系统过去是给人用的,现在同样是给模型用的。"
  • 隐私的代价:Anthropic 作为企业公司极重隐私安全,看不到用户数据——"有人报 bug,我其实拉不到你的日志看发生了什么",所以花大量功夫做隐私保护式的事件日志。可观测性是现成厂商 + 自研混用,"没什么惊人的"。
"她开了 dangerous mode、给它一个容器,让它跑一整个周末。它 spawn 了几百个 agent、建了 100 个 Asana 任务、然后实现了——这基本就是我们发布的那版插件。" —— Boris(讲 Daisy 造插件)
13

印刷术时刻:抄写员没有消失,他们成了作家

核心要点:面对"模型进步快到让人焦虑",Boris 的解药是 intellectual humility;他用印刷术类比给出一个既诚实又乐观的框架——这场转变之后会出现什么,今天根本无法预测。

  • 起点是 Karpathy 12 月发帖"作为程序员从未如此落后",Boris 回了"用老办法 debug 内存泄漏、结果 Claude 一发入魂"的故事。"这是我真正挣扎的事:模型进步太快,对旧模型管用的想法对新模型可能不管用,对旧模型不管用的对新模型可能管用,而几乎没有别的技术是这样的,我没什么经验可借。"
  • 解法是一种新技能——永远带 beginner mindset 和 intellectual humility:"所有以前坏的点子现在变好了,反之亦然。"过去有人重试一个失败过的想法会被"你为什么又来"地 gatekeep(架构上"我们试过微服务,不行",一两年前这么说还算有理因为变化不大);"但现在是史上第一次,每隔几个月重试同一个想法不再疯狂,因为模型变好了,它就成了"。团队里更新的工程师有时做得比他好,他得去看、去学、去调整预期(devrel 的 Tariq 让 Claude Code 自动生成自己的发布视频——Boris 觉得"也许可能"但不会去试,因为以为模型还没 ready,"他直接做了,就成了")。
  • Gergely 的诚实反思(coding 身份的"grief"):学 coding 极其费劲(从瞎折腾到大学学 C/C++"难得要命"),很多人的身份认同绑在"擅长写代码"上——这是过去拿(更高薪)工作的方式;他在 Uber 设计面试环路时,因为开发者约 50% 时间在写代码,就把约 50% 的信号放在 coding 上。"现在感觉有什么东西被这么快地拿走了,我没想到会这么快,有一种 grief(哀悼感)。"
  • Boris 的回应与印刷术类比:coding"曾是我们软件工程师做的事,正在变成人人都能做的事"。印刷术(1400s):欧洲 < 1% 识字,抄写员是被国王(常常自己不识字)雇佣的极稀缺高地位技能;印刷术后印刷品成本降约 100x(30-50 年)、数量增约 10,000x(50-100 年),而识字率到 70% 花了 200-300 年(因为学读写很难,要教育系统、纸墨、不用下地的闲暇)。"把锁在象牙塔里的东西变得人人可及——没有它,连造这支麦克风的人都不识字,现代经济根本不会存在。"
  • 关键的乐观与对称:"抄写员没有消失,他们变成了作家和作者——这些人之所以存在,是因为文学的市场暴涨。"映照到今天:不会写代码的老板(不识字的国王)雇工程师(抄写员),"我们爱嘲笑那些拿着白板草图说'这很简单吧'的 CEO,但当国王能自己读写、不需要中间人时,事情会变得更高效"。"最激动人心的是:今天根本无法预测这场转变之后会出现什么——就像当年没人能从印刷术预测到麦克风。"
"如果想想抄写员后来怎么了:他们不再是抄写员,但出现了作家和作者这个全新群体。而他们之所以存在,是因为文学的市场暴涨了。" —— Boris Cherny
14

还需要哪些技能:通才之年、ADHD 之年

核心要点:该丢掉对语言/框架的执念;该留住 methodical + hypothesis-driven;该放大好奇心、跨界与多学科——下一个万亿美元产品可能就是一个能横跨工程/产品/商业/设计的人。

  • 该留在身后的:对代码风格、语言、框架的强烈意见。"我等不及越过这些没完没了的语言之争、框架之争了——模型随便用什么语言框架,你不喜欢它能给你重写,所以不重要了。"
  • 仍然重要:methodical(有方法)+ hypothesis-driven(假设驱动)——既用于这个"一切被颠覆、要想下一步造什么"的产品设计,也用于日常工程(如调试,"你得非常有方法,模型能做也能帮很多,但当下仍需要你具备这个技能——6 个月后是否还需要我不知道")。
  • 更值钱的:好奇心、愿意跨出自己的 swim lane、多学科。"下一个像 Claude Code 之后的万亿美元创业,可能就是一个人——他有个酷点子,脑子能横跨工程、产品、商业,或设计、财务……人会越来越多学科,而这会越来越被奖励。某种意义上,这是通才之年。"
  • 一个反直觉判断——"ADHD 之年":短注意力如今被奖励。"某种意义上对社会有点危险,你想要能深度思考、沉淀想法、不一刷就跳走的人;但今年恰恰是奖励它的一年——因为我的工作已经变成在多个 Claude 之间跳转、变成管理 Claude,不再是深度工作,而是看我多擅长在多个上下文间快速 context switch。"Gergely 补了一条"adaptability(适应力)":Boris 早年也能极深地专注一件事,难得的是他对调整工作方式、看什么适配当前阶段非常开放——"唯一确定的是下个模型出来又会变,你得保持好奇、保持开放"。
  • 标杆工程师的画像("我职业生涯共事过最强的一批人"):擅长原型的(0→0.5,搞清楚酷点子和技术解锁)、擅长找 PMF 的(0.5→1 或 0→1)、跨学科的 hybrid(产品+工程+基础设施、产品+设计、设计+工程——"越来越多")。
  • 改变的信念:以前不确定安全问题有多大,"从内部看到过去一年新出现的风险,让我更担心了——现在它是对我最重要的事:怎么确保这东西走向好的结局"。
"下一个万亿美元创业,可能就是一个人——他能横跨工程、产品、商业、设计。这会是通才之年,也是 ADHD 之年。" —— Boris Cherny
15

附录:关键人/机构/产品/数据

项目详情
Boris ChernyClaude Code 创造者兼负责人,Anthropic;前 Meta 7 年(领导全公司代码质量);《Programming TypeScript》作者
Gergely Orosz主持,The Pragmatic Engineer,前 Uber 工程经理
Adam WolfBoris 的 ramp-up buddy,拒了他第一个(手写的)PR
Ben MannAnthropic 创始人之一,labs 团队发起人,招 Boris 进来;共同想出 permission prompt
Mike Krieger / Dario出现在 Claude Code 发布评审;Dario 问"是不是逼大家用的"
Fiona Fung现 Claude Code 团队经理,Boris 在 Instagram 共事过
FelixCowork 创造者,早期 Electron 工程师
Daisy / Suzanne / Karenagent teams(swarms)的原型者;Daisy 用 swarm 周末造出插件系统
Tariqdevrel,让 Claude Code 自动生成发布视频
ClydeClaude Code 的前身,Python,启动 40 秒,研究代码
Claude-PClaude agent SDK 跑在 CI,审 Anthropic 每个 PR,抓约 80% bug
Agentic search"就是 glob + grep",跑赢 RAG/向量数据库
瑞士奶酪模型安全靠叠多层;prompt injection 三层(对齐/分类器/子agent摘要)
uncorrelated context windows互不相关的上下文窗口,一种 test-time compute
Claude Cowork面向非工程师,10 天造出,Electron+TS,macOS 先行
80%Claude Code 平均写了 Anthropic ~80% 的代码
10-20 PR/天,0 手改,~2 bug/月Boris "coding vacation"数据(手写约 20 bug)
20% 时间修技术债Zuck 的 Meta "Better Engineering"强制令
代码质量→两位数% 生产力Meta 因果分析结论,部分驱动重返办公室
spinner 迭代~100 次生产用 10-20,扔约 80
印刷术数据识字<1%→70%(花200-300年);成本降~100x(30-50年);数量增~10,000x(50-100年)
荐书刘慈欣(三体+短篇)、Accelerando(Charles Stross)、Functional Programming in Scala