Fireside Chat with Boris Cherny, Head of Claude Code

节目

@Scale

嘉宾

Boris Cherny

日期

2026-06

时长

41 min

查看原始内容 →

概要

编码已不再是瓶颈，Boris 本人就是活证据：自去年 11 月 Opus 4.5 起，他 100% 的代码由 Claude Code 写；今年累计 1,700 个 PR、+40 万/−25 万行代码、3 月以来烧掉 80 亿 token；而且"大部分编程现在在手机上做"——半年前他会觉得说这话的人疯了。
成本 vs ROI 是全场的判断主轴：Boris 反复主张"用最贵的模型、把全部精力放在提升回报，而不是抠成本"——因为现在砍投入最多省 50%，但提升回报的机会是 1000%、甚至上万 %。落地方法是"给全员（不只工程师）发 token 去实验、在后端控成本"。
Anthropic 的产品几乎都是"自己先撞上的瓶颈"：编码解决后下一个瓶颈是代码评审 → 做了 Claude Code Review（内部每个 PR 都过，抓 98–99% 的 bug）；再下一个是安全 → 做了 Claude 安全产品（每周扫库自主修复，Opus 4.8 下能抓出连渗透测试都漏掉的问题）；自用成熟后再开放成产品。
抽象阶梯还在往上爬：源代码 → 智能体 → Loops → Workflows。Loops（智能体调度智能体）现在像智能体 1.5 年前的成熟度，Boris 平均一天 30% 代码由 loop 写；Workflows 是"测试时计算"的新形态，一句 prompt 加魔法词"use a workflow"就能编排成百上千个子智能体。
新模型 Fable 被描述为"至少和当年到 Opus 4.5 一样大、甚至更大的跃迁"：细腻、有维度、"像我最聪明的同事"，Boris 说自己"已经想不出更难的题给它了"。
贯穿全场的核心线索是"不断上移的瓶颈 + 把人移出循环"：模型每强一步，约束就从写代码上移到评审、到安全、到 CI、再到"好点子"；Boris 的工作就是不停找到下一个瓶颈、把 Claude 扔上去，并用 Loops、Workflows、Auto Mode 一步步把人从"逐条确认"的循环里解放出来。

暖场：100% 代码由 Claude Code 写、主要在手机上编程

核心要点：Boris 用一组硬数据把"编码不再是瓶颈"摆上台面——而最反直觉的是他现在主要用手机编程。

主持人开场先让全场举手："多少人用 AI 写代码？"——很多人举；"代码 100% 由 AI 写的继续举"——举手的比他以前问时多得多，"我们正在亲眼见证行业的这场转变"。
Boris 早有准备，直接报数：今年 1,700 个 PR、新增 40 万行、删除 25 万行；去年是删多于加，今年加略多于删；3 月以来用了 80 亿 token（更早的数据因留存策略被删了）。
这些代码"全是你写的还是 Claude Code 写的？"——"自 Opus 4.5（去年 11 月）起，我 100% 的代码都由 Claude Code 写。"
用手机还是笔记本？Boris："这是最疯的一点——半年前你要问我会在哪儿写代码，我绝不会猜到。现在我大部分编程在手机上做。半年前有人这么跟我说，我会觉得他疯了。"

"100% of my code has been written by Claude Code since Opus 4.5." —— Boris

成本 vs ROI：用最贵的模型，把精力全砸在提升回报

核心要点：面对"Uber 等公司开始设人均预算、而前沿实验室又在推更贵的模型"这一张力，Boris 的答案是旗帜鲜明地反对抠成本。

主持人点出真实张力：有公司开始给工程师设预算（如 每人每月 $1,500），但 Anthropic 这些实验室又在推更强也更贵的模型，企业该怎么平衡？
Boris 把客户分两类：一类盯成本，一类盯ROI——"ROI 才是对的框架，因为你花了东西总要换回东西"。
落地方法分两步：① 部署期给全员发 token（不只工程师，还有 PM、设计、数据科学家），给"实验的安全感"让大家放心试、不会因此被罚——因为最有意思的点子常来自意想不到的人，"角落里的一个会计、或一个 CEO 都没听说过的市场专员"；② 等某个用法跑起来、开始烧大量 token，再在后端控成本（按席位、用 advisor 模型、按部门/RBAC 设预算、统一调模型或 effort 档位）。
算账逻辑很硬：对 Fable 这类模型，用 advisor 模型或"默认 Opus、需要时叫 Fable"大约能把投入砍一半；但砍成本顶多省 50%，提升回报的机会却是 1000%、十万 % 量级。
结论斩钉截铁：用最贵的模型，聚焦"怎么从它身上榨出更多回报"，别去抠成本——"现在还太早了，上行空间远大于优化下行的空间"。

"Use the most expensive model and focus on how do I get more out of it... Do not focus on cost cutting." —— Boris

回报指标失效：从"AI 写码占比"到"人均代码加速度"再到上游瓶颈

核心要点：当 100% 代码都由 AI 写，旧的回报指标（AI 写码占比）直接归零失效，必须换一套衡量。

投入好量化——就是 token；回报过去靠"多少比例的代码由 AI 写"或"代码行数增幅"来衡量。可现在全场一堆人举手说 100% 由 AI 写了，这个指标"到顶就废了"。
对比历史刻度：当年做 Devin 时，"一年 2–3% 的生产力提升就算很好了"；现在看的是几百个百分点——Anthropic 今年人均代码量增长 8 倍。
Boris 给的新衡量顺序：先把代码做到 100% 由 Claude 写 → 再看人均代码量的加速度 → 再去找挡路的其它瓶颈。一旦工程师能疯狂产出代码，瓶颈就变成"好点子"（可能要更多 PM、用户研究），再往后是把点子推向市场的 GTM 和市场环节。
主持人接话：行业一年前的炉边对谈还在聊"怎么更多用 AI 写代码"，现在编码大体被解决，问题已经变成"协作和协调的瓶颈在哪"。

Loops：抽象阶梯再上一层，智能体开始调度智能体

核心要点：Loops（routines）是从"智能体写代码"到"智能体调度智能体写代码"的又一次抽象跃迁，重要性不亚于当年从源代码到智能体那一步。

Boris 给工程师的解释用了编程类比："源代码像一条语句，智能体运行像一个函数，Loops 就像高阶函数——我们在抽象阶梯上又往上迈了一层。"
非技术版解释："两年前我们手写源代码 → 后来让智能体写代码 → 现在过渡到智能体 prompt 智能体、再由后者写代码。"
成熟度判断：现在的 Loops"大概像智能体一年半前的样子"——还很早，但已看到能跑通的迹象。
具体怎么用：以前要手动做代码评审 → 后来可以 prompt 一个智能体去评审 → Loop 版是一个智能体在循环里把所有评审都做了；又如他读 Threads 看反馈，可以让一个智能体每 5–10 分钟自动读一遍反馈、直接为修复提 PR。
Boris 自己的数据：平均一天 30% 的代码由 loop 写，特别用力的时候某些天能到 100%，"但还没完全跑顺"。

"Loops are the step from agents to the next thing. It's just as important and as big a step." —— Boris

Co-work：给非工程师的 Claude Code，自动开站会、自动订全程行程

核心要点：Co-work（内部叫 Cogram）= 给非工程师的 Claude Code，底层和 Claude Code 同一套 Agent SDK，只是加了更多护栏；它最打动人的是"把你的各种工具自动串起来用"。

怎么用：下载 Claude 桌面 App（同一个 App 里有 chat、Claude Code，也有 Co-work），Mac/Windows 都行；底层就是 Claude Code，跑同一套 Claude Agent SDK，你也能自己基于 SDK 搭。
为什么说"给非工程师"：内置了更多护栏——一整台虚拟机、挂钩操作系统防你误删东西、大量 prompt injection 防护，"让你更难搬石头砸自己脚"。
自动站会案例：团队原本每天早上开站会同步进度；现在 Boris 让 Cogram 在浏览器里打开一张写着本周所有工作流的 spreadsheet，自动在 Slack 上挨个问每个工程师最新状态——"常常是他们各自的 Claude 来回复"（主持人："智能体在跟智能体说话？"Boris："就是 Claude 在跟 Claude 说话"）；有时工程师自己回，Cogram 看到就把状态填进表里。零配置，只要 Cogram + Chrome 扩展。
自动订行程案例（完整叙事）：起初他会把行程告诉 Cogram——"我哪天要在哪、哪天在哪，帮我去把机票订了"，它就开浏览器去公司常用的订票网站填好下单。后来他更进一步做成定时任务：Cogram 每天扫他的邮件、看 Google 日历上他接受的会议，只要会议不在旧金山，就自动订机票、酒店（它知道他所有航班和酒店偏好），订好发给他。去东京参加 Code with Claude、之前去伦敦和柏林，"全是它订的，多段航班加酒店，我全程没参与，只是确认了一下"。

"It feels like using an AI chat app for the first time. It's like a revelation." —— Boris（形容 Co-work 把工具串起来用的那个瞬间）

Fable：跃迁不亚于"Opus 4.5 时刻"，"我已经想不出更难的题给它了"

核心要点：Boris 把新模型 Fable 的能力跃迁，对标当年那个让他卸载 IDE 的"Opus 4.5 时刻"，并说至少一样大、甚至更大。

先回应 Fable 的可用性风波："这是个误会，我们正努力尽快把它弄回来。"（此前不少观众只用了 3 天左右就失去了访问权限。）
锚点是"Opus 4.5 时刻"：去年 11 月 Opus 4.5 发布，从上一代到它的跃迁太大，很多人第一次开始全用 Claude 写码——那也是 Boris 卸载 IDE 的时刻，因为他不再用了。
对 Fable 的判断："从 Opus 4.8 到 Fable 的跃迁，对我而言至少和那次一样大，甚至可能是更大的能力跃迁。"
体感描述：Fable"有种细腻、维度感和思考方式，跟我最聪明的同事很像"——不再是以前模型那种"不懂细微差别的钝器"，而是真能跟一个问题较劲。
强在哪：数据分析（"得连问三次为什么才能见底，Fable 自然就这么做"）、调试（要建假设、追线索、找证据，它做得很好）；至于编码——"我其实已经想不出更难的题给它了，几乎每道题它都一次或几次 prompt 就解了"，团队里很多人都有同感。
全公司口径：跨整个 Anthropic 平均 80–90% 的代码由 Claude Code 写，且越来越多团队是 100%。

"I actually just ran out of hard problems to give it. I just couldn't think of a harder problem." —— Boris

瓶颈逐个击破：代码评审 → 安全 → CI，全是"自产自用再开放"

核心要点：Anthropic 的产品逻辑是一条"撞瓶颈—造工具—开放"的流水线，每个产品都是先解决自己内部的下一个瓶颈。

代码评审：编码解决后，写得飞快就轮到"谁来评审"成为瓶颈 → 做了 Claude Code Review，对所有人开放，且就是 Anthropic 内部每个 PR 都在用的同一个产品。它和市面其它评审产品不同点在于"贵得多"——因为用大量 token 全自动评审。效果是：等 Boris 作为工程师看到一个 PR 时，几乎可以保证所有 bug 都已被抓出（不是 100%，但约 98–99%），"我看代码时已经不找 bug 了，因为 Claude 抓了也修了；我只看这个 PR 该不该存在、是不是个好主意"。
安全评审：跑这么多代码就要保证安全，智能体和人一样会引入漏洞 → 做了 Claude 安全产品：每周自动扫所有代码库、发现问题、自主修复；大功能上线前还做红队和渗透测试。"因为 Opus 4.8，它现在开始能抓出连渗透测试人员都漏掉的问题"——这在以前做不到。
CI 优化（完整叙事）：昨晚 Boris 发现 CI 有点慢，于是给 Claude Code 一句话："用一个 workflow 看我的数据、看真实的 CI 计时、把 CI 优化得快很多。"——就这一句话。它用了动态 workflow（几周前刚发布的新功能），跑了几小时、烧了几百万 token，产出 4 个 PR、把 CI 时间砍掉 50%，他昨晚就合并了。"这种活搁过去要花几天、几周甚至几个月做剖析。"

"By the time I see a pull request, there's essentially a guarantee that all the bugs have been caught... I'm not looking for bugs anymore." —— Boris

Workflows vs Loops：测试时计算的"第四个 scaling 因子"

核心要点：Workflows 是 Boris 解释的"测试时计算（test-time compute）"新形态，背后是 AI scaling laws 之外新增的第四个因子。

传统 scaling laws 三因子：数据量、神经网络规模、训练算力——这是模型智能"指数级增长"的来源。
过去两年新增第四个因子：测试时计算——"说白了就是模型生成多少 token"，让模型为了更好的结果而多产出 token。
两种调法：① effort 档位（low / medium / high / extra high / max），本质是调模型输出多少 token，token 越多结果越好；② 动态 workflows（刚推出）——用 Claude 写一段在虚拟机里运行的小程序，去编排其它 Claude 协同解题，能临时拉起几十/几百/几千个智能体，是仍在探索的新形态测试时计算。
和 Loops 的关系：两者相当不同；而"use a workflow"已经成了 Boris 口中的魔法词——结果不够好时，加这句就会投入更多测试时计算、给出好得多的结果。

"You just say 'use a workflow' and it'll throw more test-time compute at it and give you a much better result." —— Boris

工程师该聚焦哪：编码本就是少数时间，Claude 是不断加力的"喷气背包"

核心要点：模型负责写码，人负责 prompt、想清楚做什么、对齐协作——而这些"非编码"工作本来就占工程师大部分时间。

针对"既然智能体能写大部分代码、工程师该聚焦哪"这一最高票问题之一，Boris 答：工程师做的事里编码只是一部分，还有谈客户、想点子、和设计/PM 一起头脑风暴、数据分析、决定下一步做什么、和组织其它部分对齐。
现状判断：模型迟早会把这些都做得比人好，但还没到；当下"模型写码，但得有人 prompt 它"，而"该给什么 prompt"本身就包含大量市场调研、和团队沟通的工作。
Meta 侧印证（主持人）：一个普通工程师真正花在编码上的时间其实是少数，大头都在上下游——部署、协作、写文档、做规划。
Boris 的体感比喻：Claude Code 像一个喷气背包，模型每变强一点，背包就多几个喷口、他能飞得更快；现在他"纯粹被'我能多快 prompt'卡住"，而且大部分 prompt 现在就是用语音跟 Claude 说——编码早已不是瓶颈，好点子才是。

"Claude Code is just like this jetpack... at this point I'm purely bottlenecked on how fast I can prompt." —— Boris

维护也交给 Loops：只看 PR，不盯过程

核心要点：针对"大型项目真正的难题是维护而非编码"，Boris 的做法是把维护任务也包装成长期运行的 loop。

他正在跑的几类维护 loop：让 Claude Code 在循环里看代码库改进架构；找出 flaky（不稳定）的测试并修好；找出没用的测试直接删；找重复的抽象、统一成一个。
工作方式：他不在改动前审查，而是让 loop 跑完、直接看它提的 PR——"这类'形状类'问题 Claude 通常能很好地把握住"。
兜底口诀：用最新模型，如果结果不好，就说"找机会提升代码库质量"再加上魔法词"use a workflow"——主持人打趣"我还以为你要说的是'别犯错'呢"，引得全场笑。

Fable 仍啃不动的硬骨头：产品 sense 与分布式系统设计

核心要点：Boris 坦率列出 Fable 还不如他的两个领域——这也反向定义了短期内工程师/产品人的价值所在。

产品 sense / 点子生成："我想出的产品点子还是比 Fable 好"——但它的代码已经比他写的好、前端设计也比他的好。
分布式系统设计：怎么划分服务、数据如何流动、怎么考虑负载因子这类，Boris 认为自己仍明显更强，Fable 还有很大提升空间。
时间预期：主持人追问"还要几个月这话才不成立？几周？几天？"——Boris 不爱给预测，但"大概到年底，它就会相当好了"。

Auto Mode：permission 疲劳反而伤安全，于是把"逐条说 yes"交给模型

核心要点：Claude Code 最初为安全设计的"逐条 permission 确认"，因为人会疲劳乱点 yes 反而损害安全——这直接催生了 Auto Mode。

起因（完整叙事）：Claude Code 从一开始就有 permission 提示，任何要在你电脑上跑的命令（bash、MCP、抓 URL）都问你 yes/no，由工程师逐条批准。但时间一长就会变懒——Boris 自承"我就一直点 yes，根本没在读命令"，并调侃"不知道你敢不敢跟你老板承认这个"。
反转：Anthropic 的安全团队发现了这点——这个"人在循环里"本是为提升安全，结果因为 prompt 疲劳，人只顾点 yes 不看细节，反而在损害安全。
解法：做了 Auto Mode——每个 permission 提示交给模型，由模型根据你在对话里已经说过的话来判 yes/no。它不仅更安全（实测优于 dangerous 模式和默认 yes/no 模式），还少了工程师一件事要做。Anthropic 内部 + 绝大多数用户都在用。
真正解锁的是超长任务：不用人坐那儿点 yes，就能让 Claude 连续跑数小时甚至数天。
底层前提是抗 prompt injection：系统卡显示 Claude 模型"100 次尝试的成功率约 1%"（业界最佳），再叠加覆盖大部分流量的 prompt injection 分类器，模型基本对这类攻击免疫——这才敢放出 Auto Mode。

"The success rate at 100 attempts is like around 1%. It's just by far the best in the industry." —— Boris（谈 prompt injection 抵抗力）

不写代码后还怎么学？用 output styles 留在循环里

核心要点：针对"工程师会不会变懒、还怎么成长"，Boris 的第二半答案是用 output styles 把每次改动变成讲解。

新工程师入职，团队都让他们用 exploratory output style（命令 /config output style equals exploratory，或直接让 Claude 帮你设）：之后 Claude 每做一次改动，都会顺带解释"这块架构怎么工作、这门语言怎么用、代码库这部分怎么运作"，让你边做边学。
还有面向非编码者的 learning output style：它不替你做，而是逐步教你——"在 JavaScript 里这个是这么工作的，我不替你改，第一步打开这个文件这样编辑、第二步跑这个命令、好我看到你做完了、第三步……"。
Boris 的体会：在技术栈和基础设施不断变化、尤其用新语言时，output styles 让他作为工程师依然清楚发生了什么，是非常强的学习工具。

未来一年愿景：不做一年计划，按周/月规划

核心要点：面对"未来一年 Claude Code 的愿景"，Boris 直接说不做一年计划——因为指数曲线太快，只能一点点往前规划。

"我们按周或按月的周期规划，没有一年计划"——全场笑——"这个领域变得太快，指数就是指数，你只能抓紧、一次规划一点点。"
大方向延续过去两年：做最强能力的 agent；随处可用（团队在哪工作 Claude 就在哪，不必为了用它切换到 Anthropic 全套）；让人以别的产品做不到的方式，最轻松地体验新模型带来的能力。
这一思路源自两年前的洞察：Sonnet 3.5 在编码上是次大跃迁，但当时没什么产品能让你充分体验——Claude Code 就是那个出口（"不再有源代码，你就用一个智能体"）。
未来几个月到一年模型会变好的方向：更擅长长任务（"Claude 在长任务上已遥遥领先，这个领先还会扩大"）、代码更安全、质量更高、对齐更好——无论用户是工程师、PM 还是设计师，模型都会更好地表达你的意图。

"We plan on like a weekly or monthly cycle. We don't have a one-year plan. This space is changing too fast." —— Boris

附录：关键人 / 产品 / 数据 / 概念

项目	详情
Boris Cherny	Anthropic Claude Code 负责人；曾做 Threads（Meta）、早期参与 Devin
Claude Code	Anthropic 的智能体编码产品；Boris 100% 代码由它写
Co-work / Cogram	给非工程师的 Claude Code，在 Claude 桌面 App 内，底层同 Claude Agent SDK + 更多护栏
Claude Code Review	全自动代码评审产品，内部每个 PR 都用，抓 98–99% bug，"贵"在用大量 token
Claude 安全产品	每周扫库自主修复漏洞；Opus 4.8 下能抓出渗透测试漏掉的问题
Loops / routines	智能体在循环里调度智能体；抽象阶梯=高阶函数；Boris 平均 30% 代码由它写
Workflows（动态）	几周前发布；Claude 在 VM 写程序编排几十/几百/几千个子智能体；魔法词"use a workflow"
Auto Mode	由模型替你判 permission yes/no；解锁数小时/数天长任务；内部+绝大多数用户在用
Output styles	exploratory（新工程师默认，边做边讲解）/ learning（非编码者逐步教学）
Fable	Anthropic 新模型；跃迁≥Opus 4.5 时刻；强于编码/前端/数据分析/调试，弱于产品 sense 与分布式系统设计
Opus 4.5	去年 11 月发布；很多人第一次全用 Claude 写码、Boris 卸载 IDE 的"时刻"
Opus 4.8	让 Claude 安全产品能抓出渗透测试漏掉的问题
测试时计算	scaling laws 第四因子=模型生成多少 token；靠 effort 档位 / 动态 workflow 调
1,700 PR / +40万 −25万行	Boris 今年的代码量；3 月以来 80 亿 token
8 倍	Anthropic 今年人均代码量增幅
80–90%	全 Anthropic 平均由 Claude Code 写的代码比例（越来越多团队 100%）
~1%	Claude 模型 prompt injection 100 次尝试的成功率（系统卡，业界最佳）
$1,500/人/月	Uber 等公司开始设的工程师 AI 预算（主持人举例）
50% / 1000%+	砍投入的上限 vs 提升回报的机会（Boris 的 ROI 算账）