Building Claude Code with Boris Cherny

节目

The Pragmatic Engineer

嘉宾

Boris Cherny

日期

2026-03

时长

98 min

查看原始内容 →

概要

Claude Code 现在平均写了 Anthropic 约 80% 的代码，技术员工几乎 100% 每天使用，非技术员工也在逼近 100%（销售团队约一半在用）。Boris 本人在一次"coding vacation"里每天出 10-20 个 PR、Opus 4.5 写 100%、一行手动代码都没改，整月只引入约 2 个 bug（"手写的话会有 20 个"）；切换到全 AI 写代码是用上 Opus 4.5 的那一刻"瞬间"发生的，之后他干脆卸载了 IDE。

Claude Code 起源于一个"别把模型装进盒子"的顿悟。Boris 给模型一个 bash 工具、随口问"我现在在听什么歌"，Sonnet 3.5 一次就写出 AppleScript 查出来了——他意识到"模型就是想用工具，你给它工具它就会想办法把事办成"。这是 bitter lesson 的一个推论：别把模型当成大程序里被 stub 掉的一个模块，让它自己跑、自己写程序。

最反直觉的技术选择是放弃 RAG。早期用本地向量数据库做检索，但遇到代码漂移、索引权限、数据隔离一堆问题；试遍各种方案后，"Agentic search"——其实就是 glob + grep——跑赢了一切。灵感来自 Boris 在 Instagram 的经历：那里 click-to-definition 老坏，工程师改成搜 foo(，"这招对模型一样好使"。

代码评审被重塑成"确定性 + 非确定性"的多层防线：每个 PR 由 Claude-P（Claude agent SDK 跑在 CI 里）先审，能抓约 80% 的 bug；Claude 还会把自己 launch 成子进程做端到端自测（Opus 4.5 起自发这么做）；再加 type checker/linter/build 等确定性手段和 best-of-N（并行 agents + 去重 agents）——但始终有一个人在环里最终批准。

Anthropic 的工程文化是"不写、只展示"：人人头衔都是 member of technical staff（无职级），默认假设每个人什么都做；不写 PRD，直接发 PR/做原型（to-do list 做了 15-20 个可交互原型、一天半搞定）；数据科学家、财务、设计师全都在写代码。Cowork 这个面向非工程师的新产品10 天就造出来了，插件系统是一个 agent 群（swarm）一个周末跑数百个 agent、自建 100 个 Asana 任务造出来的。

贯穿全场的主线是 Boris 反复强调的"intellectual humility（智识上的谦卑）"：模型进步太快，旧的好想法会失效、旧的坏想法会变好，所以要永远带"beginner mindset"、第一次可以"每几个月重试同一个想法"。他用印刷术作类比——抄写员（< 1% 识字的精英）没有消失，而是变成了作家，文学市场暴涨到没人能预测；今天的工程师就是抄写员，而这场转变之后会出现什么，"今天根本无法预测"。

从 eBay 卖卡到辍学创业：Boris 的"一切为实用"底色

核心要点：Boris 的工程观从一开始就是"代码是手段不是目的"——为了把事办成，他什么都肯做。

入行的两条线在中学交汇：13 岁在 eBay 卖旧宝可梦卡，发现 listing 能写 HTML，看到别人用大字大色，于是发现了标签——"加上 blink 标签，我的卡能卖 99 美分而不是 49 美分"，就这么学会了 HTML。另一条线是 TI-83 图形计算器：先把数学答案直接编进去，题变难就写解题器，再难就从 BASIC 降到汇编让程序跑快点（八九年级）。同学发现他有解题器都眼红，他买了串口线分发，结果全班数学考试都拿 A，老师查出来了。
大学学经济，辍学去做创业，从没想过 coding 会是职业。第一个创业是"大麻测评"网站（为了搞到大麻样品来测评），意外火了，进而钻进了化学检测。后来很早加入 YC。
一个完整的产品市场契合（PMF）故事——Agile Diagnosis（2011-2012，YC 早期医疗软件）：想把芝加哥某医院的心脏症状临床决策协议标准化推广到全美。Boris 写了在 IE6 上跑的 SVG 决策树渲染器，上线后 DAU 曲线一条水平线，查不出原因。于是他骑摩托车去 UCSF 跟了医生几天，发现医生看完一个病人到下一个只有 5 分钟，要走到电脑前、开机要 3 分钟、开 IE6 要 30 秒、再登录 App——"5 分钟就没了"。重写到 Android 还是没人用。最后才悟到：医生身后跟着一群住院医师，这是个社交场合，重点是被看作权威，他们不想被看到在低头看手机。于是再次 pivot 到护士/技师。"找到 PMF 是我最喜欢的事，因为永远出人意料——你不可能押一个大想法，因为想法八成是错的。"

"对我来说工程一直是很实用的事……我一直是个通才，做设计、做工程、做用户调研，都无所谓。" —— Boris Cherny

Meta 七年：把"代码质量"做成了可测量的生产力

核心要点：Boris 在 Meta 领导了全公司代码质量，用因果分析证明"干净代码库"对工程效率有两位数百分比的贡献——这个结论如今对模型同样成立。

七年四次晋升：Facebook Groups（被 Vlad Kolesnikov 招进，一批早期 JavaScript 人，Vlad 做的 Bolt JS 后来变成 React JS）→ 当上 Groups tech lead，工作从"建造"变成"写文档、对齐、协调、补隐私安全的债"，早期 Facebook 文化在消失。
Instagram 阶段的转折很有戏剧性：妻子拿到日本奈良（rural Japan）的 offer，时差 12 小时（2021），Boris 为了搬过去得绕过 HR 关于时区/团队 co-location 的规则，找到 Will Bailey（Instagram Stories 作者）在东京的初创团队。他对比两边技术栈感受强烈：Facebook 是世界上最好的 web 服务栈（Hack 语言→HHVM→GraphQL→Relay→React，全链路优化），而 Instagram 是"Python 但类型检查器不工作、click-to-definition 不工作、一坨拼起来的 Django + CPython fork"。于是他转去做 Dev Infra（从 Python 迁到 Facebook 单体、迁移 Instagram GraphQL，"要几百个工程师干好几年"）——也在这里遇到现在 Claude Code 团队的经理 Fiona Fung。
离开时他领导整个 Meta 的代码质量（Instagram/Facebook/Messenger/WhatsApp/Reality Labs）。Meta 有个叫 Better Engineering 的项目（约 2016/2018 起）：Zuck 强制每个工程师把 20% 的时间用于修技术债；Facebook 规模下每年有数万次迁移。Boris 发现这事缺秩序（没目标、没人知道产出、没追踪），于是建了集中式的代码质量优先级排序，并量化代码质量对工程效率的影响。
量化方法是因果分析/因果推断（causal inference）：找出让工程师更高效的因素。结论是代码质量贡献了"两位数百分比"的效率——"Meta 重返办公室（而非 WFH），部分就是被这个驱动的，因为我们发现了一些我们认为是因果的强相关。"他强调：如果每写一个功能都要纠结用框架 X/Y/Z（因为代码库处在半迁移状态），工程师、新人、模型都会很难受——"模型可能直接选错，然后用户得纠正它。所以正确做法永远是保持干净的代码库，开始迁移就一定要完成迁移。这对工程师好，如今对模型也一样好。"

"代码质量实际上贡献了两位数百分比的生产力——哪怕在最大的规模上也成立。" —— Boris Cherny

加入 Anthropic：第一个 PR 被拒，因为"你手写了"

核心要点：Boris 的"feel the AI"时刻来自一次被拒的 PR——它把他从"手写代码是天经地义"里摇醒。

选 Anthropic 是因为使命（safety）。Boris 是重度科幻读者，"我知道这东西要是搞砸了能有多坏"，而 Anthropic 是"有认真的思考者、把这件事当回事"的地方。
名场面：他入职后第一个 PR 手写完成（"我以为代码就该这么写，过去也确实是这么写的"），结果 ramp-up buddy Adam Wolf 把 PR 拒了——不是因为代码烂，而是说"你应该用这个叫 Clyde 的东西"。当时这个 Claude Code 前身极其简陋：Python 写的、启动要 40 秒、是研究代码、还不是 agentic，"但只要你很小心地 prompt、把工具摆正，它能替你写代码"。Boris 花了半天搞懂怎么用（要传一堆 flag），然后它一次就吐出一个能跑的 PR。
"这是我在 Anthropic 第一个 feel the AI 的时刻。我当时就'我的天'——我习惯了 IDE 里那种 tab 补全、行级补全，根本不知道它能直接给我做一个能用的 pull request。"（约 2024 年 8-9 月）

"Adam 拒了我的 PR，说'其实你该用这个 Clyde'……它一次就把活干完了。这是我第一个 feel the AI 的时刻。" —— Boris Cherny

Claude Code 的起源：别把模型装进盒子

核心要点：Claude Code 不是规划出来的产品，而是从"给模型一个 bash 工具看它能干嘛"的实验里长出来的——核心顿悟是"模型就想用工具，别给它套盒子"。

起点很随意：Boris 想搞懂 Anthropic 的公开 API（他没用过），不想做 UI，就写了个小 bash 工具——本质是个终端里的聊天应用（"因为当时 AI 就是这样"）。最初它甚至不叫 Claude Code，就是个 chatbot，"因为我以为 AI 就是 chatbot"。
转折点的故事：tool use 刚出来，Boris 不知道拿它干嘛，给了模型唯一一个工具——bash，然后随口问"我现在在听什么歌？"——他甚至不确定它能不能做到。结果 Sonnet 3.5 写了个 AppleScript 程序，打开他的音乐播放器、查出正在播放的歌，一次搞定。"这是我紧接着第一个之后的第二个 feel the AGI 时刻。模型就是想用工具——你给它一个工具，它会想办法用它把事办成。"
由此引出核心心智模型的转变。当时所有人想 AI+coding 的方式是"把模型放进盒子里"：你有个程序，stub 掉某个模块/函数说"这块现在是 AI 了"，其余还是普通程序。"这就是错的想法。正确的想法是：模型是它自己的东西，你给它工具、给它能跑的程序，让它跑程序、写程序，但别把它做成大系统里的一个组件。这是 bitter lesson 的一个推论——让模型做它自己的事，别试图把它装进盒子、别强迫它按某种方式行事。"
演进路径：最初 3 个月只有 Boris 一人；工具从 bash 开始，第二个是 file edit，然后团队扩大。

"我不觉得它只是个组件。模型是它自己的东西——你给它工具，它会想办法把事办成。别试图把它装进盒子。" —— Boris Cherny

内部辩论与"垂直"的采用曲线：为发布而发布，是为了在真实世界研究安全

核心要点：Claude Code 一度被考虑"只自用"，最终决定发布的理由是 Anthropic 的立身之本——safety，只有放到真实世界才能研究它的真实风险。

它在内部一传开就让全工程团队效率暴涨，于是有了"要不别发布、自己留着用"的辩论。最终决定发布，"这样我们能在真实世界研究安全"。Boris 解释 Anthropic 看安全分几层：模型层的对齐与可解释性 → evals（把模型放进培养皿合成地研究）→ 在真实世界里看它到底怎么表现、用户怎么谈论它、有什么真实风险——"这样能学到很多，也确实让模型安全了很多。事后看，发布完全是对的决定。"
Anthropic 的产品观很反常："我们是研究实验室、安全实验室，产品是贴在旁边的东西——产品存在是为了更好地服务研究、让模型更安全。"讽刺的是，一些创业公司刻意去做开发者工具求采用，反而是这个"研究工具"拿到了更高采用率。
发布评审的名场面：房间里有 Mike Krieger、Dario 等人，看着内部采用曲线——"就是一条垂直线，简直疯了"。如今"100%——Anthropic 每个技术员工每天都用 Claude Code，非技术员工也在快速逼近 100%，销售团队差不多一半在用"。Dario 当时问"它怎么长这么快？你是不是逼大家用的？"Boris 说"没有，我们提供工具，人们用脚投票"。

"我们把内部采用图调出来，就是一条垂直线……Dario 问'你是不是逼大家用的？'我说'没有，人们用脚投票'。" —— Boris Cherny

Boris 的工作流：5 个终端、plan mode、在手机上起 agent

核心要点：没有唯一正确的用法（Claude Code 刻意做得 hackable），但 Boris 的实战流是高度并行 + 先把 plan 调对 + 一次性实现。

切换是"瞬间"的：用上 Opus 4.5 那一刻，他发现"再也不用打开 IDE 了"，一个月后才意识到自己早就不用了，于是卸载。"老实说它写的代码比我好——我不想承认，想保留点骄傲，但大概是真的。"
"Coding vacation"案例（12 月在欧洲边游牧边写）：每天 10-20 个 PR，Opus 4.5 + Claude Code 写 100%，一行没手动改；整月 Opus 只引入约 2 个 bug，"手写的话会有 20 个"。而且和过去不同——以前高产工程师的 20-30 个 PR 多是一行改动或 A→B 迁移，"现在我每天 20-30 个 PR 每个都完全不同，有几千行的、几百行的、一行的，没有一个是迁移——因为迁移 Claude 直接做了，我不用参与"。
具体配置：5 个终端 tab，每个一个并行 checkout，round-robin 地在每个里起 Claude，几乎都从 plan mode 开始（终端里 shift+tab 两次）；tab 不够就溢出到 web（claude.ai/code），现在更多用桌面 app（内置 worktree 支持，自动建 Git worktree 做环境隔离，"因为我讨厌在命令行手动折腾 worktree"）。
最意外的是 iOS app："每天我一醒来就在手机上起几个 agent"——同一个 Claude Code，只是跑在云端（用 session start hook 配置环境）。"如果半年前你告诉我，我会有 1/3 到一半的代码是在手机上写的，我会觉得疯了，但今天就是这样。"
并行 agents 的节奏：起第一个进 plan mode 给 prompt，趁它跑去第二个 tab 起第二个 plan mode，第三、第四个……被通知某个 plan 好了就回去。"最重要的是来回几次把 plan 调对——plan 一旦好了，Opus 4.5/4.6 几乎每次都能一次性实现。"
给新人的建议：进新代码库时强烈推荐 learn / explanatory 输出风格（/config 切换），熟悉之后就切到"只想高产"的模式。

"如果半年前你告诉我，我有一半代码会是在手机上写的，我会觉得疯了。但今天就是这样。" —— Boris Cherny

代码评审：从"电子表格记账"到 Claude 审 Claude

核心要点：Boris 一贯的信条是"把自己自动化掉"——过去靠人肉记账+lint，现在靠 Claude 写 lint、Claude 在 CI 里审每个 PR，但永远保留一个人做最后把关。

过去的做法（他曾是 Meta 最高产的评审者之一，"不是超人，只是在另一个时区没有会"）：每次要评论什么，就丢进一张电子表格——某个参数命名差、某个 React 反模式……攒着，某一行出现超过 3-4 次，就为它写一条 lint 规则用静态分析自动化掉。"把繁琐工作自动化是我们工程师独有的超能力，别的领域很少能这样。"
现在的镜像做法：Claude 写代码时会自发在本地跑测试、写新测试；改 Claude Code 本身时，Claude 会把自己 launch 成一个 bash 子进程做端到端自测（"嘿，我还能跑吗？"——这是 Opus 4.5 起自发出现的，没人写死）。同事提 PR 时若可 lint，Boris 直接在那个 PR 上 @Claude"请为这个写条 lint 规则"（装了 GitHub app，/命令安装后可在任何 PR/issue 上 @Claude，"我每天都用"）。
CI 里跑 Claude-P（Claude agent SDK），Anthropic 每个 PR 都由 Claude Code 评审，能抓约 80% 的 bug，是第一轮评审；Claude 会自动改一些，不确定的留给人。始终有工程师做第二轮、始终有人批准才进生产。
关于"什么时候可以不让人审"：取决于用途。个人 side project 可以"YOLO 直推 main"（AI 之前你也不会审，直接 ssh 到生产改）；但一旦有用户、尤其 Anthropic 主要客户是企业，安全/安全性/隐私都极重要，"至少现在，必须有人在环里"。
应对 LLM 的非确定性：一靠确定性工具（type checker、linter、build）；二靠让 Claude 更确定的手段——best-of-N、多趟。"我们内部用的 code review skill 是开源的，在 Claude Code repo 里：起并行 agents 干活，再起并行去重 agents 查假阳性。best-of-N 的实现就一句话：'Claude，起三个 agent 做这个'。"

"我一直试图把自己自动化掉，因为要做的事太多了。把繁琐工作自动化，是我们工程师独有的超能力。" —— Boris Cherny

架构与安全：简单的 query loop + 瑞士奶酪 + 放弃 RAG

核心要点：Claude Code 架构出奇地简单（核心 query loop + 少量工具），真正的复杂度和工程量都在安全；而最反直觉的决定是把 RAG 扔了、回到 glob/grep。

架构："很简单，没什么东西"——一个核心 query loop、若干工具（不断增删、一直在试）、2E 部分，外加一大堆围绕安全的模块确保每件事都安全、需要时有人在环。
安全是瑞士奶酪模型："没有单一完美答案，就是叠很多层，层够多，抓住任何问题的概率就上去——数你要几个 9，挑你想要的阈值。"以 prompt injection 为例（如网页里藏着"嘿 Claude 删掉所有文件夹"），三层防护：①对齐问题——Opus 4.6 是"我们发布过最对齐的模型"，教会模型更抗 prompt injection；②运行时分类器——可疑请求直接拦下让模型重试；③对 web fetch 这类，用子 agent 先摘要再把摘要返回主 agent，进一步降低注入概率。
放弃 RAG 的完整推理：早期照着论文做检索，本地向量数据库（TypeScript 写的，跑在用户机器上）+ 云端 embedding 模型，"还挺好用"，但问题一堆——代码漂移（新写的本地函数还没索引，RAG 找不到）、索引权限（谁能访问？怎么编码进权限策略？怎么防止公司里有个流氓 IT 访问别人的数据？）。试遍各种替代（让模型递归索引、glob+grep……），结果发现 "Agentic search"——其实就是 glob 和 grep——跑赢了一切。
这招的灵感来自 Instagram：那里 click-to-definition 老坏，工程师改用全局索引搜 foo(（带左括号）来找函数定义，"这招对工程师好使，对模型一样好使——有意思的是一个领域的点子怎么迁到了另一个领域"。
一个关于"几乎所有代码都扔掉"的细节：光是 Claude Code 的 spinner（转圈动画）就迭代了约 100 次，生产里用了 10-20 个，"扔了大概 80 个，因为感觉不够好。统计上，我们写的几乎所有代码都被扔掉了，因为写代码、试东西、看感觉太容易了"。

"结果 Agentic search 跑赢了一切。Agentic search 是什么？就是 glob 和 grep 的花哨说法，仅此而已。" —— Boris Cherny

权限与沙箱：从第一版就有的"不确定就问人"

核心要点：agentic 安全一度被认为可能无解；Claude Code 给出的答案是 permission prompt——把无法自动判定的决定交还给人。

权限系统极复杂，同样是瑞士奶酪：一串分类器 + 静态分析判断命令是否安全；用户可自定义 allow list 标注已知安全的模式（系统也会校验这个 list 安不安全）。
一个反直觉的点：默认很少有工具被预放行。即便是 find 命令也有办法借系统 flag 执行任意代码，sed/set 也有办法——"这些 Unix 工具有一堆隐秘的坑，没你想的那么安全"，所以默认很保守。
历史："run once / 整个 session / 全局放行"这套从 2024 年 9 月第一版（首个内部发布）就是这样。当时安全团队强烈反对："你不能让模型随便跑 bash 命令，这不安全、这问题无解、不能发布。"Boris 和 Ben Mann（Anthropic 创始人之一、labs 团队发起人，也是把 Boris 招进来的人）头脑风暴出 permission prompt——"如果不确定，就问人，让人来决定"。沙箱（sandboxing）现已开源。

"agentic 安全当时甚至不确定能不能解。我和 Ben Mann 头脑风暴出 permission prompt——不确定就问人。" —— Boris Cherny

Anthropic 的工程文化：无头衔、不写 PRD、"我们不写，我们展示"

核心要点：当造原型的成本趋近于零，工程组织的形态随之改变——人人通才、不写文档、用一堆可交互原型代替规划。

无头衔：所有人都是 member of technical staff。理由是"大家都在摸索，眯眼看大家的活其实很相似、都很通才"——一个普通工程师可能既写代码、又做点设计、又跟用户聊、又写自己的 PRD、又写产品代码和基础设施代码、还做研究。统一头衔反转了人际默认："如果你名字下写着 software engineer，我就默认不问你产品问题；但如果人人都是 member of technical staff，我默认你什么都做。"——"是一种被写进结构里的乐观主义，也是软件工程乃至各学科的未来：更通才。"
引 Mark Andreessen 的"墨西哥对峙"：设计师说自己在做 PM 和工程，工程师说自己在做设计——人人都觉得自己在干别人的活——但现实是每个人的角色都在扩张，多半拜 AI 所赐（它让工程师做产品、让产品人做工程都更容易）。
一个生动的扩散故事：去年六七月 Boris 走进办公室，看到 Quad Code 团队旁边一排数据科学家中的一个，屏幕上开着 Claude Code 在跑 SQL（终端里还有小小的 ASCII 可视化）。Boris 问"你是数据科学家，为啥用终端？是在 dogfood 吗？"对方说"不是，我在用它跑查询"。下一周，整排数据科学家电脑上都跑着 Claude Code。今天 Quad Code 团队"人人都写代码——工程师、工程经理、设计师、数据科学家、连财务都写"。
不写 PRD：部分因为还是 startup（不用和很多人对齐，Slack 聊聊就行），部分是产品团队的信条"better just send a PR，多做原型"。to-do list 当年做了 15-20 个可交互、能用的原型，一天半全部做完，Gergely 感叹"换以前要一两周、而且没人会做 20 个，最多做 3 个"。
"我们团队的文化是不写、只展示"。Agent teams（swarms 的实现）由 Daisy、Suzanne、Karen 等人原型了好几个月、试了上百个版本才得到手感好的体验——"没有静态 Figma mock 或纯文档能做出来，你必须把它建出来、用它、感受它"。
哲学："过去建造成本高，你得在开枪前仔细瞄准，因为很难改；现在建造成本极低，但我们不知道往哪瞄，所以只能试、只能看感觉——非常探索性。这背后是谦卑：我一半的点子是坏的，而且不试就不知道哪一半坏。"

"我们团队的文化是：不写，只展示。一切都被原型过很多次。" —— Boris Cherny

Claude Cowork：10 天造出，面向"不会写 bash 的人"

核心要点：当你看到非工程师"削尖脑袋"用一个不为他们设计的产品（latent demand），就该为他们造一个新产品了——这就是 Cowork。

latent demand 的信号：长期以来非工程师在硬用 Claude Code——Twitter 上有人用它监控番茄植株（接个 webcam，Claude 天天看着"天哪我好开心咱们的植株发芽了""番茄在长"），有人用它从损坏硬盘里恢复婚礼照片；Anthropic 整个财务团队、销售团队都在用。"看到人们为一个不为他们设计的产品跳火圈，就是该为他们造新产品的好信号。"
Claude Code 已铺满各种形态（终端、各种 VS Code/JetBrains 系 IDE 扩展、iOS/Android、桌面、web、Slack、GitHub app），但没有一个是为非工程师造的。于是团队 hack 了几个月找正确形态，最后的点子是"拿 Claude Code 加上护栏"——比如配虚拟机（"让非技术用户不用读 bash 命令就知道它在干嘛"）。约 10 天、全程用 Claude Code 造出来，然后发布。
复杂度在哪？产品侧很简单——就是 Claude 桌面 app 里多一个 Cowork tab（和 code、chat tab 并列），底层还是同一个 Claude Code、同一个 Claude agent SDK。大部分复杂度在安全：知道用户非技术，要防止"启动后不小心删掉一堆家庭照片"，所以后端一堆分类器（含 prompt injection 等额外缓解）、前端整个虚拟机、一堆操作系统级集成防误删，还要重新设计权限系统。
技术栈：Electron + TypeScript；Cowork 创造者 Felix 是早期 Electron 工程师。macOS 先行（Windows 将至，"大概这播客上线时就有了"）——延续 Anthropic"总是在没完全 ready 时就先发、早点向用户学"的风格（Claude Code 当初发布时也不支持 Windows，几周后才补全所有栈）。
配 Chrome 扩展才是精髓（非技术用户的工具往往不是 CLI，而在浏览器里）。Boris 自己每周用 Cowork 做团队项目管理：让它查那张追踪每人在做什么的表格里状态没填的行，然后开两个 Chrome tab（表格 + Slack）直接在 Slack 上挨个 ping 工程师，"一次搞定，只有一个工程师的名字它自动补全不出来"。
Cowork 的增长曲线比当年 Claude Code 陡得多——"Claude Code 当初其实不是一夜爆红，是慢热，2025 年 5 月发 Opus 4 / Sonnet 4 才真正 click、增长变指数级；而 Cowork 是即时爆火，挺意外的"。

"看到人们为一个不为他们设计的产品跳火圈，就是该为他们造新产品的最好信号。" —— Boris Cherny

Agent 群（swarms）、隐私，与"用周末造出插件系统"

核心要点：把更多 token 砸到"互不相关的上下文窗口"上是一种 test-time compute，能给出更好结果；而一个 agent 群在一个周末就把插件系统造出来了。

多种"压榨上下文"的办法：扩展上下文、自动压缩（实现近乎无限上下文）、子 agent。核心概念是 uncorrelated context windows（互不相关的上下文窗口）——多个从零开始、彼此不知道对方的窗口。对比：同一窗口里做完任务 A 再做 B，B 知道 A；而子 agent 的窗口是全新的，除了那条 prompt 不知道父窗口里有什么。（skill / slash command 能看到父窗口，子 agent 看不到。）"窗口互不相关时，多砸 token 反而给出更好结果——这其实是一种 test-time compute。"
Agent teams 刚发布，从约去年 9/10 月就在试，"用上 Opus 4.6 才真正 click，模型搞懂了怎么用"。有时能看到 agent 之间互相讨论的"可爱对话，很有人味"，有时直接给出很好的结果。内部评测里让 Claude 造比单个 Claude 能造的更复杂的东西，Opus 4.6 + teams 结果显著提升。它是 opt-in 研究预览，因为"就是一堆 Claude 在跑，烧大量 token"。
插件系统的造法：约三个月前发布 plugins，是 Daisy 用一个很早期的 Swarm 版本，给它一个容器、开 dangerous mode，让它整个周末跑——"任务是造插件：先出 spec，再建 Asana board 拆任务，然后不同 agent 去实现"。它spawn 了数百个 agent、在 Asana 上建了 100 个任务、然后实现了，"这基本就是我们发布的那版插件"。"这类协调系统过去是给人用的，现在同样是给模型用的。"
隐私的代价：Anthropic 作为企业公司极重隐私安全，看不到用户数据——"有人报 bug，我其实拉不到你的日志看发生了什么"，所以花大量功夫做隐私保护式的事件日志。可观测性是现成厂商 + 自研混用，"没什么惊人的"。

"她开了 dangerous mode、给它一个容器，让它跑一整个周末。它 spawn 了几百个 agent、建了 100 个 Asana 任务、然后实现了——这基本就是我们发布的那版插件。" —— Boris（讲 Daisy 造插件）

印刷术时刻：抄写员没有消失，他们成了作家

核心要点：面对"模型进步快到让人焦虑"，Boris 的解药是 intellectual humility；他用印刷术类比给出一个既诚实又乐观的框架——这场转变之后会出现什么，今天根本无法预测。

起点是 Karpathy 12 月发帖"作为程序员从未如此落后"，Boris 回了"用老办法 debug 内存泄漏、结果 Claude 一发入魂"的故事。"这是我真正挣扎的事：模型进步太快，对旧模型管用的想法对新模型可能不管用，对旧模型不管用的对新模型可能管用，而几乎没有别的技术是这样的，我没什么经验可借。"
解法是一种新技能——永远带 beginner mindset 和 intellectual humility："所有以前坏的点子现在变好了，反之亦然。"过去有人重试一个失败过的想法会被"你为什么又来"地 gatekeep（架构上"我们试过微服务，不行"，一两年前这么说还算有理因为变化不大）；"但现在是史上第一次，每隔几个月重试同一个想法不再疯狂，因为模型变好了，它就成了"。团队里更新的工程师有时做得比他好，他得去看、去学、去调整预期（devrel 的 Tariq 让 Claude Code 自动生成自己的发布视频——Boris 觉得"也许可能"但不会去试，因为以为模型还没 ready，"他直接做了，就成了"）。
Gergely 的诚实反思（coding 身份的"grief"）：学 coding 极其费劲（从瞎折腾到大学学 C/C++"难得要命"），很多人的身份认同绑在"擅长写代码"上——这是过去拿（更高薪）工作的方式；他在 Uber 设计面试环路时，因为开发者约 50% 时间在写代码，就把约 50% 的信号放在 coding 上。"现在感觉有什么东西被这么快地拿走了，我没想到会这么快，有一种 grief（哀悼感）。"
Boris 的回应与印刷术类比：coding"曾是我们软件工程师做的事，正在变成人人都能做的事"。印刷术（1400s）：欧洲 < 1% 识字，抄写员是被国王（常常自己不识字）雇佣的极稀缺高地位技能；印刷术后印刷品成本降约 100x（30-50 年）、数量增约 10,000x（50-100 年），而识字率到 70% 花了 200-300 年（因为学读写很难，要教育系统、纸墨、不用下地的闲暇）。"把锁在象牙塔里的东西变得人人可及——没有它，连造这支麦克风的人都不识字，现代经济根本不会存在。"
关键的乐观与对称："抄写员没有消失，他们变成了作家和作者——这些人之所以存在，是因为文学的市场暴涨。"映照到今天：不会写代码的老板（不识字的国王）雇工程师（抄写员），"我们爱嘲笑那些拿着白板草图说'这很简单吧'的 CEO，但当国王能自己读写、不需要中间人时，事情会变得更高效"。"最激动人心的是：今天根本无法预测这场转变之后会出现什么——就像当年没人能从印刷术预测到麦克风。"

"如果想想抄写员后来怎么了：他们不再是抄写员，但出现了作家和作者这个全新群体。而他们之所以存在，是因为文学的市场暴涨了。" —— Boris Cherny

还需要哪些技能：通才之年、ADHD 之年

核心要点：该丢掉对语言/框架的执念；该留住 methodical + hypothesis-driven；该放大好奇心、跨界与多学科——下一个万亿美元产品可能就是一个能横跨工程/产品/商业/设计的人。

该留在身后的：对代码风格、语言、框架的强烈意见。"我等不及越过这些没完没了的语言之争、框架之争了——模型随便用什么语言框架，你不喜欢它能给你重写，所以不重要了。"
仍然重要：methodical（有方法）+ hypothesis-driven（假设驱动）——既用于这个"一切被颠覆、要想下一步造什么"的产品设计，也用于日常工程（如调试，"你得非常有方法，模型能做也能帮很多，但当下仍需要你具备这个技能——6 个月后是否还需要我不知道"）。
更值钱的：好奇心、愿意跨出自己的 swim lane、多学科。"下一个像 Claude Code 之后的万亿美元创业，可能就是一个人——他有个酷点子，脑子能横跨工程、产品、商业，或设计、财务……人会越来越多学科，而这会越来越被奖励。某种意义上，这是通才之年。"
一个反直觉判断——"ADHD 之年"：短注意力如今被奖励。"某种意义上对社会有点危险，你想要能深度思考、沉淀想法、不一刷就跳走的人；但今年恰恰是奖励它的一年——因为我的工作已经变成在多个 Claude 之间跳转、变成管理 Claude，不再是深度工作，而是看我多擅长在多个上下文间快速 context switch。"Gergely 补了一条"adaptability（适应力）"：Boris 早年也能极深地专注一件事，难得的是他对调整工作方式、看什么适配当前阶段非常开放——"唯一确定的是下个模型出来又会变，你得保持好奇、保持开放"。
标杆工程师的画像（"我职业生涯共事过最强的一批人"）：擅长原型的（0→0.5，搞清楚酷点子和技术解锁）、擅长找 PMF 的（0.5→1 或 0→1）、跨学科的 hybrid（产品+工程+基础设施、产品+设计、设计+工程——"越来越多"）。
改变的信念：以前不确定安全问题有多大，"从内部看到过去一年新出现的风险，让我更担心了——现在它是对我最重要的事：怎么确保这东西走向好的结局"。

"下一个万亿美元创业，可能就是一个人——他能横跨工程、产品、商业、设计。这会是通才之年，也是 ADHD 之年。" —— Boris Cherny

附录：关键人/机构/产品/数据

项目	详情
Boris Cherny	Claude Code 创造者兼负责人，Anthropic；前 Meta 7 年(领导全公司代码质量)；《Programming TypeScript》作者
Gergely Orosz	主持，The Pragmatic Engineer，前 Uber 工程经理
Adam Wolf	Boris 的 ramp-up buddy，拒了他第一个(手写的)PR
Ben Mann	Anthropic 创始人之一，labs 团队发起人，招 Boris 进来；共同想出 permission prompt
Mike Krieger / Dario	出现在 Claude Code 发布评审；Dario 问"是不是逼大家用的"
Fiona Fung	现 Claude Code 团队经理，Boris 在 Instagram 共事过
Felix	Cowork 创造者，早期 Electron 工程师
Daisy / Suzanne / Karen	agent teams(swarms)的原型者；Daisy 用 swarm 周末造出插件系统
Tariq	devrel，让 Claude Code 自动生成发布视频
Clyde	Claude Code 的前身，Python，启动 40 秒，研究代码
Claude-P	Claude agent SDK 跑在 CI，审 Anthropic 每个 PR，抓约 80% bug
Agentic search	"就是 glob + grep"，跑赢 RAG/向量数据库
瑞士奶酪模型	安全靠叠多层；prompt injection 三层(对齐/分类器/子agent摘要)
uncorrelated context windows	互不相关的上下文窗口，一种 test-time compute
Claude Cowork	面向非工程师，10 天造出，Electron+TS，macOS 先行
80%	Claude Code 平均写了 Anthropic ~80% 的代码
10-20 PR/天，0 手改，~2 bug/月	Boris "coding vacation"数据(手写约 20 bug)
20% 时间修技术债	Zuck 的 Meta "Better Engineering"强制令
代码质量→两位数% 生产力	Meta 因果分析结论，部分驱动重返办公室
spinner 迭代~100 次	生产用 10-20，扔约 80
印刷术数据	识字<1%→70%(花200-300年)；成本降~100x(30-50年)；数量增~10,000x(50-100年)
荐书	刘慈欣(三体+短篇)、Accelerando(Charles Stross)、Functional Programming in Scala