52 min 2024-12

Building Anthropic | A conversation with our co-founders

Anthropic · Dario Amodei · Daniela Amodei · Jared Kaplan · Chris Olah · Tom Brown · Sam McCandlish · Jack Clark

查看原始内容 →

概要

Anthropic七位联合创始人圆桌对话：从创始故事到RSP安全宪法，讲述如何让AI安全成为竞争优势而非负担，以及Race to the Top战略

核心洞察

Anthropic 七位联合创始人"没有人想创业"——从 OpenAI 出走是因为看到 GPT-3 和 Scaling Laws 后意识到"再不做就来不及了"，创立公司是"duty"而非欲望
RSP（负责任扩展政策）是 Anthropic 的"宪法"——创造了从内部团队到外部监管的健康激励结构：安全进展阻塞=全公司阻塞，迫使所有团队内化安全目标
"Race to the top"战略：不是"高尚地失败"证明纯洁性，而是证明安全与竞争力可以共存——RSP 发布后几个月内三大 AI 公司各自跟进，Frontier Red Team 几乎立即被复制
公司文化核心是信任+统一使命+低政治：全公司在同一个 theory of change 下运作，trade-offs 分散到每个人而非只在高层博弈
Interpretability 不仅是安全工具，更是"人工神经网络的生物学"——Chris Olah 被 Dario 预言为未来诺贝尔医学奖得主，因为神经网络可能揭示精神疾病的高层系统机制

创始故事：一群"被迫"创业的人，各自如何走进 AI

核心论点：所有联合创始人进入 AI 的路径都非常规——物理教授、记者、国际发展、工程师——但共同点是在 2015-2020 年间看到"这比任何人承认的都更真实"

Jared Kaplan：做了约6年物理教授后转 AI，"I got bored and wanted to hang out with my friends"——Dario 不断展示 AI 模型结果让他逐渐信服
Chris Olah：19岁在湾区第一次见到 Dario 和 Jared（当时还是博后），后在 Google Brain 与 Dario 并排办公，再到 OpenAI 合作——认识超过十年
Jack Clark：2014年作为记者画 ImageNet 趋势图被认为疯狂，2015年想写 NVIDIA+GPU 的报道被 Bloomberg 拒绝，2016年辞职投身 AI 收到"你在犯人生最大错误"的邮件
Tom Brown：在 Stripe 工作5.5年，把 Greg Brockman 介绍给 Dario（"我认识最聪明的人"），本想回公共卫生/国际发展领域，但被 OpenAI 的非营利性质+安全使命吸引
Sam McCandlish：2016年作为前20名员工之一加入 OpenAI，花六个月纠结是否该做这件事
共同催化剂：GPT-2（2019年第一次全组合作），Scaling Laws，GPT-3——"we were the blob of people that were making things work"

"Something completely crazy is happening here. And at some point I thought you should bet with conviction." —— Jack Clark

AI Winter 的心理创伤与"打破虚假共识"

核心论点：2014-2022年间，AI 研究界存在一种"禁止宏大愿景"的伪共识——认为认真对待 AI 风险=科学傲慢，这种保守主义阻碍了安全研究的正当化

AI Winter 后遗症：研究者"psychologically damaged"——有野心的想法和愿景被视为"不被允许的"
两种保守主义的区别：(1) 认真对待风险=真正的审慎；(2) 认为技术不会成功=伪装成成熟的从众行为
物理学家的优势："physicists are very arrogant and constantly doing really ambitious things"——从物理跨界来的人不受这种禁忌约束
Dario 最深刻的教训：看似"智慧"的共识可能只是"herding behavior masquerading as maturity and sophistication"——当共识一夜之间崩塌时，你学会押注于反共识
核物理类比：1939年 Fermi 抗拒核弹想法因为"太疯狂"，Szilard 和 Teller 认真对待因为担心风险——与早期 AI 安全处境完全平行
2023年白宫会议：Harris 和 Raimondo 对 Dario 和 Jack 说"We've got our eye on you guys"——2018年没人能想象总统会因为语言模型把你叫到白宫

"There can be this kind of seeming consensus that seems sort of wise, seems like common sense, but really, it's just herding behavior masquerading as maturity and sophistication." —— Dario Amodei

Concrete Problems 论文：第一篇主流 AI 安全论文其实是一个"政治项目"

核心论点：这篇论文的真正价值不在于它提出的问题（事后看很多方向不对），而在于它作为共识建设工具，让"AI 安全值得认真对待"这个观点获得了正当性

背景：2015年 Dario 在 Google 写这篇论文，Chris 参与——本质是 Dario "procrastinate from whatever other project"的产物
政治工程：Chris 花了大量时间与 Brain 的20位研究员沟通以获得支持，目标是让多机构有信誉的研究者联合署名
策略：收集大家认为合理的问题（很多已有文献），然后以集体名义发表——建立"这值得认真对待"的共识
Chris 的坦诚评价："if you look at it in terms of the problems, it hasn't held up that well — it's not really the right problems, but if you see it as a consensus-building exercise, it was a pretty important moment"

Constitutional AI：简单方法在 AI 中奏效的典型案例

核心论点：最初听起来"incredibly crazy"的想法——给语言模型写一部宪法来改变行为——之所以成功，是因为 AI 中简单方法往往效果惊人

Jared 的原始提议："we're just gonna write a constitution for a language model and that'll change all of its behavior"——当时所有人觉得疯狂
核心洞察：AI 系统擅长解多选题——只需给它一个 prompt 告诉它要找什么，让它把自身行为与原则对照
背后哲学：the bitter lesson / scaling hypothesis——如果你能为 AI 提供清晰的训练目标和数据，它就能做到
迭代过程：第一版很复杂，但逐步削减到极简——"just use the fact that AI systems are good at solving multiple choice exams"
与 RLHF 的连接：Constitutional AI 建立在 RLHF 之上，而 RLHF 本身就是扩展模型的理由——"safety and scaling intertwinement"

RSP 是 Anthropic 的宪法：驱动对齐、清晰度和健康激励

核心论点：RSP 不只是安全文件，而是组织操作系统——它把安全从"少数人的工作"变成"全公司的产品需求"，同时创造了内外部的健康激励结构

起源：2022年底 Dario 和 Paul Christiano 讨论——最初是"在某个点封顶 scaling"，后演化为多阈值+递增安全措施
设计哲学：不应由一家公司发布——Paul 独立设计框架，Anthropic 在其公布后1-2个月内发布自己的版本
内部效果：如果安全进展不够 → 全公司阻塞 → 每个团队（产品/研究/工程）的激励都与安全对齐
外部效果：当需要"dramatic action"时，有预存框架和证据支持，决策变得可解释
对 Tom（Compute 负责人）的价值：与认为"things won't get intense for a long time"的外部合作方沟通时，RSP 提供了共同语言
向参议员解释时的反应："That's a completely normal thing to do. Are you telling me not everyone does this?"——目标就是"make this as boring and normal as possible"
Daniela 的贡献：重写 RSP 语调——从"overly technocratic and adversarial"变为全公司所有人都能理解并参与的文档
迭代量："经历了所有文档中最多的 draft 迭代"

"If there's a building and the fire alarm goes off every week, that's a really unsafe building. Because when there's actually a fire, no one's gonna care." —— Dario Amodei

Evals 文化：RSP 的日常落地是"不断测量模型能力边界"

核心论点：RSP 在日常工作中体现为无处不在的 Evals——每个团队都在生产评估，试图为模型能力画上界而非下界

"Evals, evals, evals"——Jack 对 RSP 如何影响日常的简洁回答
核心难题："It's easy to lower bound the abilities of a model, but it's hard to upper bound"——需要大量研究投入寻找 chain of thought、tool use 等可能释放危险能力的 trick
Frontier Red Team 被其他公司"几乎立即克隆"——好事，所有实验室都该测试极端安全风险
政策用途：有了具体的 eval，政策制定者和国家安全专家更愿意帮助校准——"once you've got the specific thing, people are a lot more motivated to help you make it accurate"
ASL 分级系统：全公司都应知道"我们现在在 ASL-2 还是 ASL-3"以及要看什么信号

公司文化：信任、低政治、统一 Theory of Change

核心论点："没有人想创业"——创立 Anthropic 出于责任感而非野心，这种动机筛选+高招聘标准产生了罕见的低政治统一文化

"None of us wanted to found a company. We just felt like it was our duty."——看到 GPT-3 后觉得"if we don't do something soon, you're gonna hit the point of no return"
Chris 的犹豫：长期主张做非营利而非公司——"I was arguing for a long time that we should do a nonprofit"——最终是务实主义和约束条件的诚实面对促成了 Anthropic
80% Pledge：联合创始人捐出80%收益——"everyone was just like, yes obviously we're gonna do this"
Daniela 的功劳：保持招聘标准高+文化扩展——"keeping out the clowns"
信任+统一的具体表现：Mike Krieger（产品）会为安全原因阻止发布，Vinay（商业）会说"but we also need to ship"，安全团队会谈商业实用性，inference 工程师会谈安全——所有人在同一组 trade-offs 中操作
Dario 的理想状态：功能失调是"不同部门认为公司在做不同的事"，功能正常是"所有人在各自岗位面对同一组 trade-offs"
"Make less promises and keep more of them"——校准和可信度比任何具体政策都重要

"The thing that I feel the happiest about when I come into work is how well that has scaled to a lot of people. Everyone is here for the mission, and our mission is really clear." —— Daniela Amodei

Race to the Top：安全不是"高尚地失败"，而是证明安全与竞争力共存

核心论点：如果关心安全的人为了证明"纯洁性"而放弃竞争力，结果只会是不关心安全的人掌握决策权——唯一有效的路径是证明两者可以共存

反面策略的自我毁灭性："nobly fail"模式 = 决策者自选择为不关心安全的人
正面策略："race to the top"——如果 Anthropic 能在保持竞争力的同时做好安全，其他公司就有激励跟进
具体证据：RSP 发布后"三家最著名 AI 公司在几个月内各自发布了自己的版本"
市场力量：客户选 Claude 因为"we know it's safer"——安全直接转化为市场压力
"Export the seat belts"——不介意别人抄安全做法，这正是目标
更大图景：世界需要从"AI 不存在"成功过渡到"AI 极其强大且社会成功管理"——这只有在单一公司层面证明安全+竞争力共存后才可能在行业层面发生

"The safest move is not to nobly fail. If you can show that you can do well on safety without sacrificing competitiveness, then others are incentivized to do the same thing." —— Dario Amodei

对未来的兴奋：可解释性、AI+生物、AI+民主

核心论点：联合创始人各自最兴奋的方向指向同一个主题——AI 不仅要安全，还要成为解决人类根本问题的工具

Chris Olah 的兴奋点：神经网络内部充满"beautiful structure"，像进化产生的生物一样复杂——"imagining walking into a bookstore and buying the textbook on neural network interpretability"
Dario 的三个方向：(1) Interpretability 包含对智能优化问题和人脑工作方式的洞见；(2) AI for biology——AlphaFold 获诺贝尔奖是开始，目标是创造一百个 AlphaFold；(3) AI 增强民主——让 AI 成为自由和自决的工具而非威权工具
Dario 对 Chris 的预言："Chris Olah is gonna be a future Nobel Medicine Laureate"——因为精神疾病（精神分裂症、情绪障碍）可能是高层系统问题，神经网络比大脑更易打开研究
Jack 的兴奋点：政府建立了 AI 安全机构且"actually competent and good"——国家有能力应对这种社会转型
Daniela 的兴奋点：Claude 帮助疫苗开发和癌症研究的"glimmers"——回想自己25岁做国际发展时效率低下的工作
Tom 的兴奋点：个人使用 Claude 编程的体验——YC 演讲中95%的人举手表示使用 Claude 编程，"totally different than four months ago"

"Neural networks are beautiful. They're full of amazing, beautiful structure. We have an entire artificial biology inside of neural networks if you're just willing to look inside them." —— Chris Olah

附录：关键人/机构/事件

| 名称 | 说明 |

|------|------|

| Paul Christiano | 与 Dario 共同构思 RSP 框架，后独立设计发布 |

| Greg Brockman | OpenAI 联合创始人，Tom Brown 的前老板(Stripe) |

| Mike Krieger | Anthropic 产品负责人，会为安全原因阻止发布 |

| Vinay | Anthropic 商业侧负责人 |

| Concrete Problems in AI Safety (2015) | 第一篇主流 AI 安全论文，跨机构共识建设 |

| Constitutional AI | Anthropic 核心方法：给模型写原则让它自我对照 |

| RSP (Responsible Scaling Policy) | Anthropic 的安全"宪法"，多阈值递增措施 |

| ASL (AI Safety Level) | RSP 中的安全分级系统 |

| 80% Pledge | 联合创始人承诺捐出80%收益 |

| Frontier Red Team | 测试极端安全风险的团队，被其他公司快速复制 |

| AlphaFold | 获诺贝尔化学奖的蛋白质结构预测 AI |