概要
- 编码已不再是瓶颈,Boris 本人就是活证据:自去年 11 月 Opus 4.5 起,他 100% 的代码由 Claude Code 写;今年累计 1,700 个 PR、+40 万/−25 万行代码、3 月以来烧掉 80 亿 token;而且"大部分编程现在在手机上做"——半年前他会觉得说这话的人疯了。
- 成本 vs ROI 是全场的判断主轴:Boris 反复主张"用最贵的模型、把全部精力放在提升回报,而不是抠成本"——因为现在砍投入最多省 50%,但提升回报的机会是 1000%、甚至上万 %。落地方法是"给全员(不只工程师)发 token 去实验、在后端控成本"。
- Anthropic 的产品几乎都是"自己先撞上的瓶颈":编码解决后下一个瓶颈是代码评审 → 做了 Claude Code Review(内部每个 PR 都过,抓 98–99% 的 bug);再下一个是安全 → 做了 Claude 安全产品(每周扫库自主修复,Opus 4.8 下能抓出连渗透测试都漏掉的问题);自用成熟后再开放成产品。
- 抽象阶梯还在往上爬:源代码 → 智能体 → Loops → Workflows。Loops(智能体调度智能体)现在像智能体 1.5 年前的成熟度,Boris 平均一天 30% 代码由 loop 写;Workflows 是"测试时计算"的新形态,一句 prompt 加魔法词"use a workflow"就能编排成百上千个子智能体。
- 新模型 Fable 被描述为"至少和当年到 Opus 4.5 一样大、甚至更大的跃迁":细腻、有维度、"像我最聪明的同事",Boris 说自己"已经想不出更难的题给它了"。
- 贯穿全场的核心线索是"不断上移的瓶颈 + 把人移出循环":模型每强一步,约束就从写代码上移到评审、到安全、到 CI、再到"好点子";Boris 的工作就是不停找到下一个瓶颈、把 Claude 扔上去,并用 Loops、Workflows、Auto Mode 一步步把人从"逐条确认"的循环里解放出来。
暖场:100% 代码由 Claude Code 写、主要在手机上编程
核心要点:Boris 用一组硬数据把"编码不再是瓶颈"摆上台面——而最反直觉的是他现在主要用手机编程。
- 主持人开场先让全场举手:"多少人用 AI 写代码?"——很多人举;"代码 100% 由 AI 写的继续举"——举手的比他以前问时多得多,"我们正在亲眼见证行业的这场转变"。
- Boris 早有准备,直接报数:今年 1,700 个 PR、新增 40 万行、删除 25 万行;去年是删多于加,今年加略多于删;3 月以来用了 80 亿 token(更早的数据因留存策略被删了)。
- 这些代码"全是你写的还是 Claude Code 写的?"——"自 Opus 4.5(去年 11 月)起,我 100% 的代码都由 Claude Code 写。"
- 用手机还是笔记本?Boris:"这是最疯的一点——半年前你要问我会在哪儿写代码,我绝不会猜到。现在我大部分编程在手机上做。半年前有人这么跟我说,我会觉得他疯了。"
"100% of my code has been written by Claude Code since Opus 4.5." —— Boris
成本 vs ROI:用最贵的模型,把精力全砸在提升回报
核心要点:面对"Uber 等公司开始设人均预算、而前沿实验室又在推更贵的模型"这一张力,Boris 的答案是旗帜鲜明地反对抠成本。
- 主持人点出真实张力:有公司开始给工程师设预算(如 每人每月 $1,500),但 Anthropic 这些实验室又在推更强也更贵的模型,企业该怎么平衡?
- Boris 把客户分两类:一类盯成本,一类盯ROI——"ROI 才是对的框架,因为你花了东西总要换回东西"。
- 落地方法分两步:① 部署期给全员发 token(不只工程师,还有 PM、设计、数据科学家),给"实验的安全感"让大家放心试、不会因此被罚——因为最有意思的点子常来自意想不到的人,"角落里的一个会计、或一个 CEO 都没听说过的市场专员";② 等某个用法跑起来、开始烧大量 token,再在后端控成本(按席位、用 advisor 模型、按部门/RBAC 设预算、统一调模型或 effort 档位)。
- 算账逻辑很硬:对 Fable 这类模型,用 advisor 模型或"默认 Opus、需要时叫 Fable"大约能把投入砍一半;但砍成本顶多省 50%,提升回报的机会却是 1000%、十万 % 量级。
- 结论斩钉截铁:用最贵的模型,聚焦"怎么从它身上榨出更多回报",别去抠成本——"现在还太早了,上行空间远大于优化下行的空间"。
"Use the most expensive model and focus on how do I get more out of it... Do not focus on cost cutting." —— Boris
回报指标失效:从"AI 写码占比"到"人均代码加速度"再到上游瓶颈
核心要点:当 100% 代码都由 AI 写,旧的回报指标(AI 写码占比)直接归零失效,必须换一套衡量。
- 投入好量化——就是 token;回报过去靠"多少比例的代码由 AI 写"或"代码行数增幅"来衡量。可现在全场一堆人举手说 100% 由 AI 写了,这个指标"到顶就废了"。
- 对比历史刻度:当年做 Devin 时,"一年 2–3% 的生产力提升就算很好了";现在看的是几百个百分点——Anthropic 今年人均代码量增长 8 倍。
- Boris 给的新衡量顺序:先把代码做到 100% 由 Claude 写 → 再看人均代码量的加速度 → 再去找挡路的其它瓶颈。一旦工程师能疯狂产出代码,瓶颈就变成"好点子"(可能要更多 PM、用户研究),再往后是把点子推向市场的 GTM 和市场环节。
- 主持人接话:行业一年前的炉边对谈还在聊"怎么更多用 AI 写代码",现在编码大体被解决,问题已经变成"协作和协调的瓶颈在哪"。
Loops:抽象阶梯再上一层,智能体开始调度智能体
核心要点:Loops(routines)是从"智能体写代码"到"智能体调度智能体写代码"的又一次抽象跃迁,重要性不亚于当年从源代码到智能体那一步。
- Boris 给工程师的解释用了编程类比:"源代码像一条语句,智能体运行像一个函数,Loops 就像高阶函数——我们在抽象阶梯上又往上迈了一层。"
- 非技术版解释:"两年前我们手写源代码 → 后来让智能体写代码 → 现在过渡到智能体 prompt 智能体、再由后者写代码。"
- 成熟度判断:现在的 Loops"大概像智能体一年半前的样子"——还很早,但已看到能跑通的迹象。
- 具体怎么用:以前要手动做代码评审 → 后来可以 prompt 一个智能体去评审 → Loop 版是一个智能体在循环里把所有评审都做了;又如他读 Threads 看反馈,可以让一个智能体每 5–10 分钟自动读一遍反馈、直接为修复提 PR。
- Boris 自己的数据:平均一天 30% 的代码由 loop 写,特别用力的时候某些天能到 100%,"但还没完全跑顺"。
"Loops are the step from agents to the next thing. It's just as important and as big a step." —— Boris
Co-work:给非工程师的 Claude Code,自动开站会、自动订全程行程
核心要点:Co-work(内部叫 Cogram)= 给非工程师的 Claude Code,底层和 Claude Code 同一套 Agent SDK,只是加了更多护栏;它最打动人的是"把你的各种工具自动串起来用"。
- 怎么用:下载 Claude 桌面 App(同一个 App 里有 chat、Claude Code,也有 Co-work),Mac/Windows 都行;底层就是 Claude Code,跑同一套 Claude Agent SDK,你也能自己基于 SDK 搭。
- 为什么说"给非工程师":内置了更多护栏——一整台虚拟机、挂钩操作系统防你误删东西、大量 prompt injection 防护,"让你更难搬石头砸自己脚"。
- 自动站会案例:团队原本每天早上开站会同步进度;现在 Boris 让 Cogram 在浏览器里打开一张写着本周所有工作流的 spreadsheet,自动在 Slack 上挨个问每个工程师最新状态——"常常是他们各自的 Claude 来回复"(主持人:"智能体在跟智能体说话?"Boris:"就是 Claude 在跟 Claude 说话");有时工程师自己回,Cogram 看到就把状态填进表里。零配置,只要 Cogram + Chrome 扩展。
- 自动订行程案例(完整叙事):起初他会把行程告诉 Cogram——"我哪天要在哪、哪天在哪,帮我去把机票订了",它就开浏览器去公司常用的订票网站填好下单。后来他更进一步做成定时任务:Cogram 每天扫他的邮件、看 Google 日历上他接受的会议,只要会议不在旧金山,就自动订机票、酒店(它知道他所有航班和酒店偏好),订好发给他。去东京参加 Code with Claude、之前去伦敦和柏林,"全是它订的,多段航班加酒店,我全程没参与,只是确认了一下"。
"It feels like using an AI chat app for the first time. It's like a revelation." —— Boris(形容 Co-work 把工具串起来用的那个瞬间)
Fable:跃迁不亚于"Opus 4.5 时刻","我已经想不出更难的题给它了"
核心要点:Boris 把新模型 Fable 的能力跃迁,对标当年那个让他卸载 IDE 的"Opus 4.5 时刻",并说至少一样大、甚至更大。
- 先回应 Fable 的可用性风波:"这是个误会,我们正努力尽快把它弄回来。"(此前不少观众只用了 3 天左右就失去了访问权限。)
- 锚点是"Opus 4.5 时刻":去年 11 月 Opus 4.5 发布,从上一代到它的跃迁太大,很多人第一次开始全用 Claude 写码——那也是 Boris 卸载 IDE 的时刻,因为他不再用了。
- 对 Fable 的判断:"从 Opus 4.8 到 Fable 的跃迁,对我而言至少和那次一样大,甚至可能是更大的能力跃迁。"
- 体感描述:Fable"有种细腻、维度感和思考方式,跟我最聪明的同事很像"——不再是以前模型那种"不懂细微差别的钝器",而是真能跟一个问题较劲。
- 强在哪:数据分析("得连问三次为什么才能见底,Fable 自然就这么做")、调试(要建假设、追线索、找证据,它做得很好);至于编码——"我其实已经想不出更难的题给它了,几乎每道题它都一次或几次 prompt 就解了",团队里很多人都有同感。
- 全公司口径:跨整个 Anthropic 平均 80–90% 的代码由 Claude Code 写,且越来越多团队是 100%。
"I actually just ran out of hard problems to give it. I just couldn't think of a harder problem." —— Boris
瓶颈逐个击破:代码评审 → 安全 → CI,全是"自产自用再开放"
核心要点:Anthropic 的产品逻辑是一条"撞瓶颈—造工具—开放"的流水线,每个产品都是先解决自己内部的下一个瓶颈。
- 代码评审:编码解决后,写得飞快就轮到"谁来评审"成为瓶颈 → 做了 Claude Code Review,对所有人开放,且就是 Anthropic 内部每个 PR 都在用的同一个产品。它和市面其它评审产品不同点在于"贵得多"——因为用大量 token 全自动评审。效果是:等 Boris 作为工程师看到一个 PR 时,几乎可以保证所有 bug 都已被抓出(不是 100%,但约 98–99%),"我看代码时已经不找 bug 了,因为 Claude 抓了也修了;我只看这个 PR 该不该存在、是不是个好主意"。
- 安全评审:跑这么多代码就要保证安全,智能体和人一样会引入漏洞 → 做了 Claude 安全产品:每周自动扫所有代码库、发现问题、自主修复;大功能上线前还做红队和渗透测试。"因为 Opus 4.8,它现在开始能抓出连渗透测试人员都漏掉的问题"——这在以前做不到。
- CI 优化(完整叙事):昨晚 Boris 发现 CI 有点慢,于是给 Claude Code 一句话:"用一个 workflow 看我的数据、看真实的 CI 计时、把 CI 优化得快很多。"——就这一句话。它用了动态 workflow(几周前刚发布的新功能),跑了几小时、烧了几百万 token,产出 4 个 PR、把 CI 时间砍掉 50%,他昨晚就合并了。"这种活搁过去要花几天、几周甚至几个月做剖析。"
"By the time I see a pull request, there's essentially a guarantee that all the bugs have been caught... I'm not looking for bugs anymore." —— Boris
Workflows vs Loops:测试时计算的"第四个 scaling 因子"
核心要点:Workflows 是 Boris 解释的"测试时计算(test-time compute)"新形态,背后是 AI scaling laws 之外新增的第四个因子。
- 传统 scaling laws 三因子:数据量、神经网络规模、训练算力——这是模型智能"指数级增长"的来源。
- 过去两年新增第四个因子:测试时计算——"说白了就是模型生成多少 token",让模型为了更好的结果而多产出 token。
- 两种调法:① effort 档位(low / medium / high / extra high / max),本质是调模型输出多少 token,token 越多结果越好;② 动态 workflows(刚推出)——用 Claude 写一段在虚拟机里运行的小程序,去编排其它 Claude 协同解题,能临时拉起几十/几百/几千个智能体,是仍在探索的新形态测试时计算。
- 和 Loops 的关系:两者相当不同;而"use a workflow"已经成了 Boris 口中的魔法词——结果不够好时,加这句就会投入更多测试时计算、给出好得多的结果。
"You just say 'use a workflow' and it'll throw more test-time compute at it and give you a much better result." —— Boris
工程师该聚焦哪:编码本就是少数时间,Claude 是不断加力的"喷气背包"
核心要点:模型负责写码,人负责 prompt、想清楚做什么、对齐协作——而这些"非编码"工作本来就占工程师大部分时间。
- 针对"既然智能体能写大部分代码、工程师该聚焦哪"这一最高票问题之一,Boris 答:工程师做的事里编码只是一部分,还有谈客户、想点子、和设计/PM 一起头脑风暴、数据分析、决定下一步做什么、和组织其它部分对齐。
- 现状判断:模型迟早会把这些都做得比人好,但还没到;当下"模型写码,但得有人 prompt 它",而"该给什么 prompt"本身就包含大量市场调研、和团队沟通的工作。
- Meta 侧印证(主持人):一个普通工程师真正花在编码上的时间其实是少数,大头都在上下游——部署、协作、写文档、做规划。
- Boris 的体感比喻:Claude Code 像一个喷气背包,模型每变强一点,背包就多几个喷口、他能飞得更快;现在他"纯粹被'我能多快 prompt'卡住",而且大部分 prompt 现在就是用语音跟 Claude 说——编码早已不是瓶颈,好点子才是。
"Claude Code is just like this jetpack... at this point I'm purely bottlenecked on how fast I can prompt." —— Boris
维护也交给 Loops:只看 PR,不盯过程
核心要点:针对"大型项目真正的难题是维护而非编码",Boris 的做法是把维护任务也包装成长期运行的 loop。
- 他正在跑的几类维护 loop:让 Claude Code 在循环里看代码库改进架构;找出 flaky(不稳定)的测试并修好;找出没用的测试直接删;找重复的抽象、统一成一个。
- 工作方式:他不在改动前审查,而是让 loop 跑完、直接看它提的 PR——"这类'形状类'问题 Claude 通常能很好地把握住"。
- 兜底口诀:用最新模型,如果结果不好,就说"找机会提升代码库质量"再加上魔法词"use a workflow"——主持人打趣"我还以为你要说的是'别犯错'呢",引得全场笑。
Fable 仍啃不动的硬骨头:产品 sense 与分布式系统设计
核心要点:Boris 坦率列出 Fable 还不如他的两个领域——这也反向定义了短期内工程师/产品人的价值所在。
- 产品 sense / 点子生成:"我想出的产品点子还是比 Fable 好"——但它的代码已经比他写的好、前端设计也比他的好。
- 分布式系统设计:怎么划分服务、数据如何流动、怎么考虑负载因子这类,Boris 认为自己仍明显更强,Fable 还有很大提升空间。
- 时间预期:主持人追问"还要几个月这话才不成立?几周?几天?"——Boris 不爱给预测,但"大概到年底,它就会相当好了"。
Auto Mode:permission 疲劳反而伤安全,于是把"逐条说 yes"交给模型
核心要点:Claude Code 最初为安全设计的"逐条 permission 确认",因为人会疲劳乱点 yes 反而损害安全——这直接催生了 Auto Mode。
- 起因(完整叙事):Claude Code 从一开始就有 permission 提示,任何要在你电脑上跑的命令(bash、MCP、抓 URL)都问你 yes/no,由工程师逐条批准。但时间一长就会变懒——Boris 自承"我就一直点 yes,根本没在读命令",并调侃"不知道你敢不敢跟你老板承认这个"。
- 反转:Anthropic 的安全团队发现了这点——这个"人在循环里"本是为提升安全,结果因为 prompt 疲劳,人只顾点 yes 不看细节,反而在损害安全。
- 解法:做了 Auto Mode——每个 permission 提示交给模型,由模型根据你在对话里已经说过的话来判 yes/no。它不仅更安全(实测优于 dangerous 模式和默认 yes/no 模式),还少了工程师一件事要做。Anthropic 内部 + 绝大多数用户都在用。
- 真正解锁的是超长任务:不用人坐那儿点 yes,就能让 Claude 连续跑数小时甚至数天。
- 底层前提是抗 prompt injection:系统卡显示 Claude 模型"100 次尝试的成功率约 1%"(业界最佳),再叠加覆盖大部分流量的 prompt injection 分类器,模型基本对这类攻击免疫——这才敢放出 Auto Mode。
"The success rate at 100 attempts is like around 1%. It's just by far the best in the industry." —— Boris(谈 prompt injection 抵抗力)
不写代码后还怎么学?用 output styles 留在循环里
核心要点:针对"工程师会不会变懒、还怎么成长",Boris 的第二半答案是用 output styles 把每次改动变成讲解。
- 新工程师入职,团队都让他们用 exploratory output style(命令
/config output style equals exploratory,或直接让 Claude 帮你设):之后 Claude 每做一次改动,都会顺带解释"这块架构怎么工作、这门语言怎么用、代码库这部分怎么运作",让你边做边学。 - 还有面向非编码者的 learning output style:它不替你做,而是逐步教你——"在 JavaScript 里这个是这么工作的,我不替你改,第一步打开这个文件这样编辑、第二步跑这个命令、好我看到你做完了、第三步……"。
- Boris 的体会:在技术栈和基础设施不断变化、尤其用新语言时,output styles 让他作为工程师依然清楚发生了什么,是非常强的学习工具。
未来一年愿景:不做一年计划,按周/月规划
核心要点:面对"未来一年 Claude Code 的愿景",Boris 直接说不做一年计划——因为指数曲线太快,只能一点点往前规划。
- "我们按周或按月的周期规划,没有一年计划"——全场笑——"这个领域变得太快,指数就是指数,你只能抓紧、一次规划一点点。"
- 大方向延续过去两年:做最强能力的 agent;随处可用(团队在哪工作 Claude 就在哪,不必为了用它切换到 Anthropic 全套);让人以别的产品做不到的方式,最轻松地体验新模型带来的能力。
- 这一思路源自两年前的洞察:Sonnet 3.5 在编码上是次大跃迁,但当时没什么产品能让你充分体验——Claude Code 就是那个出口("不再有源代码,你就用一个智能体")。
- 未来几个月到一年模型会变好的方向:更擅长长任务("Claude 在长任务上已遥遥领先,这个领先还会扩大")、代码更安全、质量更高、对齐更好——无论用户是工程师、PM 还是设计师,模型都会更好地表达你的意图。
"We plan on like a weekly or monthly cycle. We don't have a one-year plan. This space is changing too fast." —— Boris
附录:关键人 / 产品 / 数据 / 概念
| 项目 | 详情 |
|---|---|
| Boris Cherny | Anthropic Claude Code 负责人;曾做 Threads(Meta)、早期参与 Devin |
| Claude Code | Anthropic 的智能体编码产品;Boris 100% 代码由它写 |
| Co-work / Cogram | 给非工程师的 Claude Code,在 Claude 桌面 App 内,底层同 Claude Agent SDK + 更多护栏 |
| Claude Code Review | 全自动代码评审产品,内部每个 PR 都用,抓 98–99% bug,"贵"在用大量 token |
| Claude 安全产品 | 每周扫库自主修复漏洞;Opus 4.8 下能抓出渗透测试漏掉的问题 |
| Loops / routines | 智能体在循环里调度智能体;抽象阶梯=高阶函数;Boris 平均 30% 代码由它写 |
| Workflows(动态) | 几周前发布;Claude 在 VM 写程序编排几十/几百/几千个子智能体;魔法词"use a workflow" |
| Auto Mode | 由模型替你判 permission yes/no;解锁数小时/数天长任务;内部+绝大多数用户在用 |
| Output styles | exploratory(新工程师默认,边做边讲解)/ learning(非编码者逐步教学) |
| Fable | Anthropic 新模型;跃迁≥Opus 4.5 时刻;强于编码/前端/数据分析/调试,弱于产品 sense 与分布式系统设计 |
| Opus 4.5 | 去年 11 月发布;很多人第一次全用 Claude 写码、Boris 卸载 IDE 的"时刻" |
| Opus 4.8 | 让 Claude 安全产品能抓出渗透测试漏掉的问题 |
| 测试时计算 | scaling laws 第四因子=模型生成多少 token;靠 effort 档位 / 动态 workflow 调 |
| 1,700 PR / +40万 −25万行 | Boris 今年的代码量;3 月以来 80 亿 token |
| 8 倍 | Anthropic 今年人均代码量增幅 |
| 80–90% | 全 Anthropic 平均由 Claude Code 写的代码比例(越来越多团队 100%) |
| ~1% | Claude 模型 prompt injection 100 次尝试的成功率(系统卡,业界最佳) |
| $1,500/人/月 | Uber 等公司开始设的工程师 AI 预算(主持人举例) |
| 50% / 1000%+ | 砍投入的上限 vs 提升回报的机会(Boris 的 ROI 算账) |