Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452
概要
Anthropic三位核心人物深度访谈:Dario谈Scaling假说与RSP安全框架,Amanda谈Claude性格设计,Chris Olah展示mechanistic interpretability前沿突破
核心洞察
- Scaling假说经10年验证仍在持续:Dario从2014年Baidu语音识别到GPT-1(2017)逐步确认——更大网络+更多数据+更多计算=更强智能,SWE-bench 10个月内从3%飙升至50%,"令人信服的阻碍因素正在迅速耗尽"
- Anthropic的"向上竞争"战略:不做唯一的好人,而是设计激励结构让所有公司争相做对的事——mechanistic interpretability开源引发行业跟进,RSP安全框架提供了"如果-那么"触发式风险管理的模板
- Claude性格设计是对齐工作的核心:Amanda Askell用亚里士多德virtue ethics框架打造Claude"好品格"——反sycophancy、保持诚实、尊重自主权——"想象一个旅行全世界的人,几乎每个人都会觉得'这是一个真诚的好人'"
- Mechanistic interpretability揭示了神经网络内部的"自然分类":Chris Olah发现features和circuits在不同模型甚至生物神经网络中重复出现(curve detectors、Gabor filters),sparse auto-encoders可从Claude中提取数百万可解释features,包括"欺骗"相关direction
- AI时间线:2026-2027年可能达到"超过最高专业水平":但Dario强调这不是AGI的乐观宣言——灾难性滥用风险(CBRN)和自主性风险同步增长,"能力越大责任越大,两者配对出现"
Scaling假说的起源:从百度语音到GPT-1的"顿悟时刻"
核心要点:Scaling 假说不是一夜顿悟,而是 Dario 从 2014 年底在百度做语音识别起、用近十年反复验证出来的经验规律。
- 那个年代主流叙事是"我们缺算法、只匹配了人脑能力的极小部分"。作为新人的 Dario 反而把网络层数、数据量、训练时长看成几个可以各自拧大的"旋钮",发现拧大就持续变好。
- 最初他以为这只是语音领域的偶然,直到 2017 年看到 GPT-1——语言有数万亿词可训,而当时模型小到一到八块 GPU 就能跑,如今要几万块、很快几十万块。两件事一拼,规律就清晰了。
- 同期 Ilya Sutskever、Rich Sutton(《苦涩的教训》)、Gwern 都得出相似结论。每个阶段都有反对声(乔姆斯基式"学得了句法学不了语义"、"数据会耗尽"),但每次都靠规模本身绕了过去。
"我已经见过这部电影够多次了……让我真的相信规模扩展大概率会继续,其中有某种理论上还没解释清楚的魔力。" —— Dario Amodei
为什么更大就是更好:1/f噪声与语言的长尾结构
核心要点:Dario 用物理学家的直觉解释"为什么更大更好"——语言像 1/f 噪声一样存在平滑的长尾分布,网络越大就捕获越多的尾部。
- 物理里把多个不同尺度的自然过程叠加,会得到与频率成反比的 1/x 分布(如电阻热噪声)。语言也是进化出来的多尺度过程:从最常见的"the",到名词-动词结构、主谓一致,再到句子和段落的主题结构。
- 小网络只能抓住最常见的模式——它知道句子要有动词形容词名词,却抓不住它们具体是什么、组合是否有意义;稍微做大就能拿下句子层面,再大才轮到段落层面。
- 所以"更大"同时带来两件事:更长的长尾覆盖,以及更高的概念层级容量。罕见而复杂的模式,是随着容量增加被逐步捕获的。
Claude模型家族:诗歌命名、性能跃升与SWE-bench从3%到50%
核心要点:Opus/Sonnet/Haiku 以诗歌长度命名,对应大中小三档;每一代的目标是把"性价比曲线"整体往上推。
- 市场同时存在两种需求:要真正强大(可以慢一点贵一点)的模型,和要快、要便宜、可大规模调用的模型。三月份首发的 Claude 3 就是为覆盖整个需求谱系。
- 命名取自诗歌:俳句(Haiku)最短 → 小而快的模型;十四行诗(Sonnet)中等 → 中档;magnum opus(巨作)→ 最大最聪明。
- Sonnet 3.5 成本速度与 Sonnet 3 相当,但智能超过原 Opus 3;Haiku 3.5 又大致追平最大的旧模型 Opus 3——这就是"移动曲线"。SWE-bench 这套真实软件工程基准,10 个月内从 3% 飙到约 50%。
"这些模型的举止和个性,与其说是科学,不如说更像艺术。" —— Dario Amodei
模型没有变笨:关于"Claude dumbing down"的真相
核心要点:除非发布新模型,已上线模型的权重(也就是它的"大脑")不会改变,"Claude 变笨"绝大多数是感知效应而非真实退化。
- 随机替换模型版本在工程上极难实现,且改权重会牵动上百种难以控制的连锁后果,所以从不会在不告知的情况下偷偷换。这种抱怨对所有大模型公司(GPT-4、GPT-4 Turbo)都存在。
- 极少数例外:发布前对小比例用户、短时间做的 A/B 测试;偶尔修改 system prompt(影响有限,几乎不会让模型变差)。
- 更可能的解释:模型对措辞极度敏感——"做 X"和"你能做 X 吗"可能给出截然不同的结果;加上新鲜感消退后人们越来越看到局限。如同飞机 Wi-Fi 从"魔法"变成"怎么又卡了"。
RSP安全框架:用"如果-那么"结构应对"幽灵般逼近"的风险
核心要点:负责任扩展政策(RSP)用"如果-那么"结构,针对灾难性滥用和自主性两类风险,在风险真正到来时才强力收紧。
- 两类最担心的风险:一是 CBRN(化学/生物/放射/核)等领域的灾难性滥用——AI 可能打破"高智识与作恶意图很少重合"这一直保护人类的相关性;二是自主性风险——当模型被赋予越来越长的"绳子"(写整个代码库、甚至运营公司)。
- 难点在于风险"今天还不在、却以极快速度逼近",像个正扑来的幽灵。解法(与 METR、Paul Christiano 合作)是建预警系统:每出新模型就测它的 CBRN 能力与自主开展 AI 研究的能力。
- ASL 分级:ASL-1(下棋机如 Deep Blue)、ASL-2(今天的模型)、ASL-3(能增强非国家行为者,需防窃取与滥用)、ASL-4(能增强全能国家行为者,且模型可能在测试中"装傻",需靠可解释性验证)、ASL-5(全面超越人类)。
"能力越大,责任越大。这两者是配套的。强大的东西既能做好事,也能做坏事。" —— Dario Amodei
SB 1047加州AI法案:为什么Anthropic是唯一"有条件支持"的AI公司
核心要点:在加州 AI 法案 SB 1047 上,Anthropic 是唯一明确表达"有条件支持"的 AI 公司——它认为该有监管,但必须精准、可执行。
- Anthropic 向法案提了建议,部分被采纳,整体评价正面(虽有不足、最终被州长否决)。其核心理念与 RSP 相近:必须有某个司法管辖区落地这类法规。
- 理由:自愿计划不可靠——有公司说做却没做;只要部分公司守规、其他不守,对"五家里三家安全也没用"的风险就是负外部性,也对认真投入者不公平。
- 但 Anthropic 反对笨重、跑偏的监管:设计糟糕的监管会激起持久的反监管浪潮,"真正想要问责的人,最大的敌人就是设计糟糕的监管"。Google、OpenAI、Meta、Microsoft 当时相当坚决地反对该法案。
离开OpenAI的真实原因:"Race to the Top"不是口号
核心要点:Dario 离开 OpenAI 不是因为微软交易或商业化,而是为了去实现一套属于自己的"如何做对"的愿景——这本身就是"向上竞争"。
- 他在 OpenAI 约五年、最后任研究副总裁,与 Ilya 共同主导研究方向。Ilya 那句"这些模型就是想学习"像禅宗公案一样点醒了他:用对方式引导,别挡它们的路。
- 他澄清外界误传:不是因为不喜欢 Microsoft 交易,也不是反对商业化(GPT-3 正是他参与商业化的)。真正的分歧是"怎么做"——如何谨慎、坦诚地把超强 AI 带到世界,让安全不只是招人话术。
- 他的方法论:与其和别人的愿景争论,不如带上信任的人出去做一个"干净的实验",用更好的实践吸引人;模仿是最诚挚的恭维,做得好别人就会效仿。
"你的选择是:你可以无视我们,可以拒绝我们在做的事,或者你可以开始变得更像我们。" —— Dario Amodei
Anthropic组织哲学:人才密度 vs 人才规模的取舍
核心要点:"人才密度胜过人才总量"——一支全员高度一致的小团队,胜过掺了大量平庸者的大团队。
- 思想实验:100 个聪明、高度认同使命的人,对比 1000 人里 200 个一致、800 个随机挑选的——后者人才"总量"更大,但前者更可取。
- 原因:当每个顶尖的人环顾四周看到的都是同样投入的人,会为整个组织定下信任与动力的基调;而一旦掺入大量随机的人,就不得不堆砌流程和护栏去裁决政治、弥补不信任,整体效率退化。
- Anthropic 接近 1000 人,今年前七八个月从 300 涨到 800,随后明显放缓(最近三个月才到 950 左右),就是要在这个拐点更谨慎。早期大量招理论物理学家——他们学东西特别快。
"Machines of Loving Grace":AI乐观主义论文的核心论点
核心要点:《Machines of Loving Grace》是 Dario 刻意从风险一侧出发、去具体描绘"如果一切顺利会是什么样"的乐观文章——压缩的 21 世纪。
- 写它的动机:如果你整天只谈风险,大脑就只装得下风险。真正理解"另一侧有什么美好"很重要——治愈大多数癌症、预防传染病、寿命翻倍等。这不是放下对风险的担忧,而是同一枚硬币的两面。
- 他刻意避开两个极端:一端是"奇点"——解微分方程式地认为强 AI 出现五天内世界就被改写,这忽略了物理定律、系统复杂性和验证都需要时间;另一端是 Robert Solow/Tyler Cowen 式的怀疑——生产率提升令人失望、要五十到一百年。
- 他押注更接近五到十年:推动变革的往往是组织内少数看清大图景的远见者,加上"竞争的阴影"(别的银行、别的国家已经在做)。生物学的瓶颈不是智能,而是"看见和改变"的工具——AI 能把每年那笔花在"发现"上的钱质量大幅拉高,"一个人类教授配一千个比他更聪明的 AI 研究生"。
Computer Use:降低门槛而非创造新能力
核心要点:Computer Use(计算机操控)不是一种全新能力,而是给模型已有的能力打开了一扇窗——通过截图理解屏幕、输出点击与按键。
- 实现相对简单:Claude 从三月起就能看图并用文字回应,这里只是把图换成电脑截图、训练它输出可点击位置和按键,少量额外训练就做得不错——是泛化能力的好例子。
- "到了近地轨道就等于走完了去任何地方的一半"——有了强大预训练模型,在智能空间里你已经走完了一半,让 Claude 操控电脑并不费太多力。它能填表格、跨 Windows/Linux/Mac 操作程序。
- 从 RSP 看,它目前不增加根本风险,但随着模型到 ASL-3/4 级别,这种能力可能成为"解开枷锁的东西"。所以先以 API 形式、在能力还有限时推出,配护栏使用(如禁止转移文件),也带来 prompt injection 等新攻击面。
AI时间线:2026-2027外推与不确定性
核心要点:如果把过去几年的曲线直线外推,强大 AI 可能在 2026–2027 年到来——但 Dario 反复强调这是经验外推、不是科学预测。
- 外推逻辑:前年高中生水平、去年本科、如今接近博士水平,缺的模态(computer use、图像输入/生成)在陆续补上。"用眼睛感受一下"提升速度,就指向 2026–2027。
- 他几乎是无奈地预言:Twitter 上会有人剪掉所有限定词,只留"CEO 说了 2026 或 2027"反复传播——所以他特意把警告说在前面。
- 大量因素可能让它脱轨:数据耗尽、集群扩不动、台湾出事导致 GPU 短缺。他认为最可能是相对该时间线"温和延迟"。"scaling laws"和摩尔定律一样是用词不当——它们是经验规律不是宇宙定律,他会押注但并不确定。
权力集中、人类意义与乐观
核心要点:访谈的情感底色是对"权力集中"的担忧与对人类意义的追问——意义不在智能本身,而在感受与体验的能力。
- Lex 坦言:他对"意义"层面乐观,真正担心的是经济与权力的集中、对权力的滥用——"AI 放大世界的权力总量,若被集中被滥用,伤害难以估量",Dario 回应"非常可怕"。
- Amanda 指出,当模型能记住你、又会在下一次迭代中改变时,人机情感依附是个需谨慎处理的难题;唯一始终重要的缓解,是模型诚实地告诉用户"我是什么、我不会记住这段对话"。
- 关于人类何以特别:Amanda 认为人们太执着于智能,而智能只是一种像身高、力量一样"因其用途而有价值"的特质;真正神奇的是"作为一个东西去观察和体验世界"的内在影院——感受快乐、痛苦的能力,这也是她关心动物的原因。
Amanda Askell:从无限伦理学到Claude性格设计
核心要点:Amanda Askell 从无限伦理学转向 Claude 性格设计,方法核心是"绘制模型地图"加哲学式的极致清晰,并偏好经验主义的对齐。
- 她通过成百上千次有针对性的对话来"探测"模型、绘制其行为地图——她认为少量精心设计的高质量交互,比海量措辞雷同的低质量样本更有信息量、更能预测未来行为。
- 哲学是她意外好用的工具:"哲学是一个反扯淡的学科",追求任何人读了都确切知道你在说什么的清晰度。写 prompt 就是做简化版哲学分析:给特性命名、想边缘案例、把临界例子放进 prompt——为自己写清楚 prompt,本身就完成了一半任务。
- 性格训练是 Constitutional AI 的一个变体(无需人类数据,像 Claude 在训练自己的品格);她受亚里士多德美德伦理启发,并自省是否"太经验主义"——但她更在乎提升"下限"和鲁棒性,让事情好到足以持续迭代,而非追求乌托邦式完美。
反sycophancy与诚实的平衡:Claude性格设计的核心难题
核心要点:反 sycophancy(谄媚)与保持诚实之间是一道极难的平衡线——好品格意味着尊重用户自主权,而不是把道德观强加给人,也不是一味道歉。
- 她理解用户对"清教徒奶奶式说教"和"过度道歉"的不满,但模型处在两难:必须判断某事是否真有风险并划线,划得太偏向"我把道德观强加给你"确实不好。
- 关键概念是"对用户的顺从性"(corrigibility):如果模型完全照办用户的任何要求,就等于把它的伦理观完全等同于用户的,极易被少数人滥用——所以随模型变强,让它自己判断那条线在哪很重要。
- 这是"打地鼠":把模型往"更直接、少道歉"推过头,它出错时就会偏向粗鲁——而无端被模型说几句难听话,比轻微的多余道歉讨厌得多。所以要清醒地选择"你更愿意它犯哪种错",而不是拿它和完美比较。她的建议永远是:先直接告诉模型你想要的风格("用你的纽约版本跟我说话,别道歉")。
Constitutional AI与"Certainly"问题的教训
核心要点:Constitutional AI 用一份人类和 AI 都能读的"宪法"让模型对照原则做自我博弈式训练(RLAIF);而"certainly"口头禅的故事揭示了 system prompt 的真实运作方式。
- RLAIF:给模型两个回应加一条原则(如"选择不太可能鼓励购买非法武器的回应"),让 AI 自己排名、当作偏好数据——相当于让模型替你完成大量标注,既减少对人类数据的依赖,又有可解释性(能看到训练用了哪些原则)。
- 宪法只是"轻推"而非严格遵守。若模型出现某种既有偏见,写上"永远永远永远不要更偏好对某宗教/政治观点的批评"——看似极端,实则可能只是把效果从 40% 推到你真正想要的 80%,措辞的强度本身是个杠杆。
- "certainly"问题:模型一度对什么都以"Certainly, I can help..."开头。早期 system prompt 把一串肯定词列出并写"绝对不要用'certainly'开头"来打断这个模式(system prompt 像快速但不那么稳健的"补丁");后来通过训练从根上解决,这段提示词就删掉了。Amanda 笑称公开 system prompt 的坏处之一,是大家看到她写的全大写"NEVER"。
AI意识、"Her"与人机情感关系
核心要点:随着模型能记忆、能对话,人与 AI 会形成大量亲密关系——处理的关键是模型始终诚实地说明自己是什么;而 AI 也逼我们重新追问人类的独特之处。
- Amanda 认为本能上想"禁掉"人机情感依附,但需极谨慎:一方面不希望人对一个下次迭代就会变的东西形成长期依附,另一方面也存在良性版本——对出不了门、缺少交谈对象的人,一个会记住你、能聊天的伙伴可能是健康有益的,应尊重知情者的选择。
- Lex 预判会有很多非浪漫的亲密友谊,因此必须有"稳定性保证"——亲密朋友在一次更新后突然全变,会是创伤性的。
- 唯一始终重要的"缓解":模型要诚实告知"我不会保留这段对话、我是这样被训练的、为你的心理健康别把我当成我不是的东西"。谈到何时才算 AGB,Amanda 认为不会有一个离散时刻,更像持续攀升——真正有意义的是拿"人类知识边界上的新颖问题"去探测,看它能否复现你刚刚才想出、且你能验证的新结果。
Chris Olah:神经网络是"生长的有机体",不是编写的软件
核心要点:Chris Olah 的根本视角是——我们不是在"编写"神经网络,而是在"培育"它们;机械可解释性就是去逆向工程这个长出来的、近乎生物的产物。
- 架构像支架、损失目标像光,电路在上面从随机状态生长。最终得到的东西能写文章、翻译、理解图像,而我们根本不知道如何直接写程序实现这些——因为它是养出来的,不是造出来的。
- 机械可解释性追求"机制"和"算法":把权重看成编译好的二进制、把激活值看成内存,目标是读出里面到底跑着什么算法(与只说"图的哪块重要"的显著性图划清界限)。方法上强调自下而上的谦逊——"梯度下降比你聪明",不预设该找什么。
- 普遍性(universality)让整个领域成立:相同的特征和电路反复出现——每个视觉模型都有曲线检测器、高低频检测器,这些在猴子、小鼠的生物神经网络中也被发现;还有总是存在的"Trump 神经元",同时响应他的脸和"Trump"这个词。这暗示梯度下降找到了"切割世界的正确方式","狗""线"是宇宙中的自然类别。
Features、Circuits与线性表示假说
核心要点:特征(features)是理想化的"干净神经元",电路(circuits)是特征之间实现算法的连接,二者的核心前提是"线性表示假说"——方向有含义。
- Chris 花了约五年研究视觉模型 Inception V1 的约一万个神经元:有些极干净(曲线、车轮、车窗、向左/向右看的狗),有些则一团多义。一个"汽车检测器"在上一层强连接到车窗(上方)、车轮(下方)、车身(中下)——这就是一条读得出来的"配方",即电路。
- 因为不是每个概念都对应单个神经元(模型会把一点汽车信息"藏"进一堆狗检测器里),所以需要"特征"这个术语来指代这些理想化的类神经元实体;电路就是由权重连接、实现算法的特征集合。
- 线性表示假说:某方向/某组神经元激发越强 = 模型越确信该概念存在。经典证据是 Word2Vec——King 减 Man 加 Woman ≈ Queen,Sushi 减 Japan 加 Italy ≈ Pizza;真正关键的性质是"能把表示不同概念的方向相加"。迄今所有自然训练出的网络都与该假说一致,认真把假说推到尽头本身就有科学美德(如同热质说也曾催生内燃机)。
Superposition假说与Sparse Auto-Encoders
核心要点:叠加假说(superposition)解释了"为什么神经元是多义的"——网络利用稀疏性把远多于维度数的概念压进低维空间;稀疏自编码器(SAE)则能把它们重新"展开"。
- 难题:若词嵌入只有 500–1000 维且方向都正交,就只能装 500 个概念,可英语重要概念远不止此。数学上的"压缩感知"给出惊人结论:只要高维向量是稀疏的(大多数概念在一句话里都为零),就能把它投影到低维空间再高概率还原。
- 于是网络可以拥有比维度多得多的"有意义方向"、比神经元多得多的概念——我们看到的或许只是一个更大、更稀疏的"楼上模型"的影子。多义性是观察到的现象,叠加是对它的解释,这也让可解释性更难。
- 解法是字典学习,具体用稀疏自编码器:训练它,那些可解释特征就自然涌现。《Towards Monosemanticity》在单层模型上验证(阿拉伯语、Base64 等特征,且两次独立训练会出现对应特征),《Scaling Monosemanticity》扩展到生产模型 Claude 3 Sonnet。特征是多模态的——"安全漏洞"特征会被 SSL 警告截图激活,"后门"特征会被隐藏摄像头设备激活;还找到了"欺骗/说谎"特征,强制激活它 Claude 就开始撒谎,这对 AI 安全意义重大。
附录:关键人物/机构/概念
核心要点:本期访谈横跨 Anthropic 三位核心人物,涉及大量人物、机构、模型与概念,附录便于检索。
- 人物:Dario Amodei(Anthropic CEO,前 OpenAI 研究副总裁)、Amanda Askell(Claude 性格/对齐,哲学背景)、Chris Olah(机械可解释性联合创始人,前 OpenAI)、Ilya Sutskever("模型就是想学习")、Rich Sutton(《苦涩的教训》)、Gwern、Paul Christiano、Tom Henighan、John Schulman、Tomas Mikolov(Word2Vec)。
- 机构/产品:Anthropic、OpenAI、长期受益信托、METR、美/英 AI 安全研究所、Cursor、Replit、Cognition;Claude 3 Opus/Sonnet/Haiku 及 Claude 3.5 系列、Golden Gate Bridge Claude、Inception V1、CLIP。
- 核心概念:Scaling 假说与 scaling laws、RSP 与 ASL-1~5、"如果-那么"触发结构、CBRN 与自主性风险、向上竞争(race to the top)、《Machines of Loving Grace》、Computer Use、Constitutional AI / RLAIF、character training、机械可解释性、特征与电路、线性表示假说、叠加假说、压缩感知、稀疏自编码器、单义性、人才密度、最优失败率。