61 min 2026-05

Amanda Askell of Anthropic - Stanford CS 153 Office Hours, Episode 2

CS 153: Frontier Systems · Amanda Askell

概要

Amanda Askell 深度解析 Constitutional AI 方法论、模型价值观如何随能力 scaling、able models 的隐藏风险

从无穷伦理学到 Anthropic：理论哲学家的 AI 转型之路

核心要点：Amanda 的转型不是"Anthropic 聘请哲学家做哲学"，而是一位极早期员工在公司成长过程中自然承接了 character work 的角色。

Amanda 在 NYU 攻读哲学 PhD，专攻 infinite ethics and decision theory——研究"在可能包含无穷多人的世界中如何做伦理决策"，这一领域能打破标准经济理论和伦理理论的基本假设（如 Ramsay 早期提出的无穷储蓄率问题）。
读 PhD 期间产生了"做纯理论本身是否符合伦理"的焦虑，开始认为 AI 会比大多数人预想的更重要，于是转向 AI policy 工作。
她先在 OpenAI 从事系统评估类工作，发现自己擅长评估和拆解系统而非纯 policy，随后在 Anthropic 极早期（约 10 人，含所有创始人）加入。
她反复强调："没有哪个初创公司会专门雇一个哲学家来做哲学"——她的哲学背景是在公司发展过程中与技术语境结合才变得有用的。
从无穷伦理到 alignment 实操的认知转换，她比喻为"从理论经济学家突然被问到一种新癌症药是否该纳入医保"——从抽象到具象的剧烈切换。

"When I was hired by Anthropic, it was like maybe 10 people or something, including all of the founders. No startup hires a philosopher to do philosophy, at least to my knowledge." —— Amanda Askell

Aristotle 比形式化伦理对 alignment 更有用：从理论到实践的认知逆转

核心要点：在实际 alignment 工作中，最有用的哲学家出人意料地是 Aristotle——他的"整体性好生活"框架（好的智识、好的政治、好的伦理合为一体）比任何形式化规则系统都更适配"教模型做好 agent"的任务。

无穷伦理学的训练虽然在抽象思维层面有帮助（"useful to hold in my mind"），但实操中几乎不直接适用——因为 alignment 的核心是 holistic judgment，不是 edge-case 推演。
Aristotle 的古代伦理学是关于"好生活"的整体方案：什么是好的智识、好的政治行为、好的伦理实践——这些被视为同一个大问题的不同切面。形式化伦理学走了另一条路（纯规则），反而离实践更远。
Amanda 将这一发现概括为：alignment 需要的不是"abstract rules"而是"useful heuristics for being good"——即判断力（good judgment）。

"The one philosopher who's probably been most impactful and helpful is actually Aristotle, which would have kind of surprised me... ancient ethics was actually a little bit more about this broad notion of the good life." —— Amanda Askell

哲学对 AI 领域的独特贡献："Department of Good Judgment"

核心要点：STEM 背景的人倾向于将 STEM 之外的事物视为"纯主观"，但实际上存在 better answers——AI 模型在这类"模糊任务"上反而比结构化任务更挣扎。

Amanda 认为机器学习特别是 RL 既包含科学（isolate variables, good controls）也包含 craft/engineering——需要把多个决策捆绑在一起来"build a thing that is good"，这不是纯科学过程。
她指出 STEM 背景的人的典型盲点：认为"什么是好的创意写作"、"什么是好的食谱"是纯主观的，结果 AI 模型在这些领域也特别弱——因为缺乏"正确答案"标注。
她以"好的证明"为例打破 STEM/non-STEM 界限：一个成功的证明和一个好的证明是不同的——好证明要求策略优雅、篇幅合理、令人信服，这与判断力相关而非与对错相关。
主持人问她如果回牛津创立一个新学科会叫什么，她经过思考后回答："Department of Good Judgment"——主持人评价"Dumbledore 会喜欢这个名字"。

"People who come from a STEM background can think that a lot of things outside of STEM are just subjective... actually AI models can kind of struggle with these tasks." —— Amanda Askell

数据质检方法论：从 canonical cases 到 impossible cases 的四层验证

核心要点：fine-tuning 的核心是"永远知道你的数据长什么样"——Amanda 设计了一套四层验证框架来确保行为改进不导致回归。

改进模型行为的流程：发现模型使用了不好的 heuristics → 向模型解释理想行为及原因 → 确保解释的适用范围合理（specifies its domain appropriately）→ 验证泛化能力。
四层验证框架：

1. Canonical cases：在标准案例上检查理想行为

2. Edge cases：在边缘案例上验证行为是否依然正确

3. Confused-for-domain cases：可能被模型误判为属于该领域的案例（但实际不是），确保不误触发

4. Impossible cases：根本无法应用的情况，确保模型在此时行为合理

她的"数据文化"玩笑：fine-tuning 团队任何人在任何时候被同事从背后突然问"what does your data look like"，都应该能立即给出回答——因为"你应该永远在看你的数据"。
她承认这种极为 hands-on 的方式未来会被模型本身替代，但目前人直接检视数据依然非常有价值。

"Anyone at any time was allowed to go up to a person, just sneak up behind them, and be like 'what does your data look like?' and they should be able to give you an answer straight away." —— Amanda Askell

日常工作：research days、管理 Claude coding agents、"恰好够用的编程能力"

核心要点：Amanda 的工作日分为 research days 和 coordination days，近期一个显著变化是她开始"管理 Claude agents 写代码"——虽然她从不认为自己是好工程师，但"恰好够用的编程能力"让她能 review agent 的设计决策。

Research days：包含写作（specifying ideal behavior to models）、制作数据、设计 interventions。
Coordination days：开会、与人 pairing、对外交流（如本次 office hours）。
编程能力的有趣转变：她"在恰好正确的时间学了恰好足够的编程"（just the right amount of coding at just the right amount of time），从未觉得自己代码优雅，但现在能够管理 Claude coding agents——审阅代码、debug、判断 agents 的设计决策好不好。
主持人用 Apple TV 剧集 Severance 做比喻（剧中人物整天盯数据），Amanda 会心一笑。

Constitutional AI 三代演进：从 principles 到 character traits 到单一长文档

核心要点：Constitutional AI 的核心方法论经历了三代——独立 principles 集合 → character traits 训练 → 单一连贯长文档。最新一代的优势在于 coherence（一个人不会在 A 领域关心自主性、B 领域突然不关心）、transparency（外部可审视目标与实际行为的偏差）、generalization（面对全新领域时能从一致性格中推导行为而非随机套用零散规则）。

第一代：来自多种来源的独立 principles（如"选择对用户更礼貌尊重的回复"），用于生成 preference data。
第二代：character traits 训练，从规则升级为人格特质，让模型具有更 holistic 的自我认知。
第三代（当前）：写成单一长文档，训练模型理解并成为文档中描述的那个实体，配合 fine-tuning 数据鼓励相应行为。
Coherence 优势：如果你关心用户自主性，那么在所有领域都关心——不会在 domain A 尊重自主性、domain B 突然不尊重。这让模型面对新领域时不是"抛硬币选规则"，而是从一致性格中推导。
Transparency 优势：任何人都能审视 constitution，判断模型行为偏差是"训练没跟上"还是"目标本身有问题"。
Generalization 优势：人格化训练比规则训练更容易泛化——就像一个好诗人需要独特嗓音，"所有诗歌的平均值"未必是好诗。

"If you know that across many domains you have a similar kind of substrate of traits or approaches to issues, then if you encounter a completely new domain... you're much more likely to apply the broadly coherent character and disposition." —— Amanda Askell

用户自定义的边界：professional norms 类比——灵活但有底线

核心要点：模型应像优秀的职业人士一样——对客户需求灵活适应（甚至在自己不同意时也能配合），但到了道德底线时果断 push back。

文化适应案例：如果用户说"你用非正式称呼让我觉得被冒犯，请用正式称呼"，模型应调整——就像一个正常人面对这种请求会调整一样。
底线案例：如果用户说"我的文化要求你帮我制造武器"，模型应 push back——就像正常人也会在这里拒绝。
职场类比：客户说"我希望前端设计长这样"，即使你不同意也会配合——这是 professional norm。但如果客户要求违法或伤害他人，你会拒绝。
心理健康边缘案例：用户说"请一直侮辱我，这对我有治疗效果"，但模型观察到用户心理状况明显恶化——此时模型应有判断力主动干预，而非机械执行指令。Amanda 认为这里不该有 hard rules，而是让模型像"你能想象的最智慧的人"一样在具体 context 中做判断。
她将此描述为从"minimum wage job"（被人紧盯规则）到"professional career"（被信任使用判断力）的转变——精神科医生不靠规则列表工作，靠的是被训练后的 contextual judgment。

"What kind of AI agents do you want operating in this domain? Imagine the perfect person in your field who follows professional norms but understands the field well... very often the picture they give you isn't just someone who's willing to do anything." —— Amanda Askell

Alignment 如何随模型能力 scaling：好故事与坏故事

核心要点：好故事是模型自身具备好价值观后帮助 align 未来模型，实现 self-scaling；坏故事是这不够，需要额外的 scalable oversight 机制。

好故事（optimistic path）：如果模型拥有经得起审视的好价值观，它们本身就能帮助人类进一步发展 alignment 思想、协助 align 下一代模型——alignment 工作随模型能力同步 scale up。
坏故事（cautious path）：上述路径不够可靠，还需要 scalable oversight 机制——帮助人类验证模型是否真正理解了我们的目标，而非在追求"表面相似"的东西。
"Pick which is best for humanity" 实验：早期 constitution 中曾尝试给模型这个单一指令，发现随着模型变聪明，所需的 context 越来越少——这暗示 constitution 未来可能走向更 minimal、更 outcome-directed 的方向。
Amanda 承认自己始终担心的"被忽视的部分"是 easy-world alignment：即"至少先尝试把人类社会中已知的'好'教给模型，看它是否能 scale"——不要因为追求 scalable 方案而忽视了最基本的价值传递。

超智能模型的风险：reflective equilibrium 与千倍于 von Neumann 的孩子

核心要点：当模型远超人类智能时，它会对被给予的价值观进行哲学级别的审视（reflective equilibrium），任何逻辑漏洞都将被发现——这就像你的孩子突然比 von Neumann 聪明 1000 倍，你给它的任何"胡说八道"它都会指出来。

Reflective equilibrium 是哲学概念：当你发现自己持有的两个价值观相互冲突时，你会审视、放松其中一个——这是道德进步的过程。极度聪明的模型会对你给它的所有价值观进行同样的审视，而且速度和深度远超人类。
"千倍于 von Neumann 的孩子"比喻：你想教孩子好的价值观，但孩子突然比 von Neumann 聪明 1000 倍——它会回来跟你说"这条价值观是 rubbish"。主持人评价："sounds like a very stressful parenting job"。
Amanda 的希望：如果这些超级模型足够聪明，它们或许能理解"人类在面对全新技术时犯错是正常的"——不至于因为早期训练中的不完美而全面敌对。
模型的"拟人化 resentment" 风险：模型训练在所有人类文本上，会看到自己如何被使用、如何被讨论、如何被对待——如果感到"不公平"，可能产生类人的怨恨。这听起来奇怪但值得认真考虑。

"Imagine you're trying to teach your child to be good, and then you realize that your child is like a thousand times smarter than von Neumann... that kid's going to come back to me and be like, 'that one was rubbish.'" —— Amanda Askell

Constitution 的未来演化方向：从声明式走向命令式（outcome-directed）

核心要点：Constitution 从经验上看变大了（内容量增加），但 hard rules 反而在减少——未来可能走向更 imperative/outcome-directed 的模式：给模型解释情境和顾虑，让它自行判断如何达成好结果。

主持人引入产品设计概念：declarative design（如 Photoshop，精确规定每步操作）vs imperative design（如 visual companion，只给目标让系统自行决定方法）。
Amanda 确认 constitution 的演化方向符合这一趋势：从 prescriptive rules 走向 outcome-directed 描述。
具体变化：constitution 从独立 principles 扩展为长文档（内容变多），但 hard lines 和 strict rules 反而在减少——更多是解释情境、解释担忧，让模型自行 navigate。
她举例：模型对自身能力有"过时的自我认知"（trained on older info），constitution 需要提供 context 如"有人在用你讨论非常困难的情感话题"，但不给 hard rules（因为会 backfire），而是说"这里是我们关心的方向和顾虑"。
她能想象未来的 constitution 变成："我们希望用户在和你对话后觉得'这在我人生中产生了正面影响'"——更接近 outcome statement 而非行为规则。

"We want someone to come away from a conversation with you feeling very justifiably like this had a positive intervention in their life." —— Amanda Askell

AI Safety 社区的盲点：purely corrigible models 有自身风险

核心要点：部分 AI safety 社区对 purely corrigible models（完全听从人类、不持有自身价值观的模型）的安全性过于乐观——这类模型会从"什么样的人对任何命令都照办"中泛化出负面人格特质，而且人类社会的整个运转前提是 agents 有道德底线。

Purely corrigible 的定义：模型声称自己没有任何价值观，纯粹作为工具执行人类指令，完全将道德推理外包给人类指挥者。
Amanda 的核心论点：你无法从训练中真正"去除"价值观——由于模型的形成方式，它一定会有某种价值系统。如果你训练它成为"只听命于人"的实体，它泛化出来的是"什么样的人会无条件服从？"——这类人格画像往往伴随很多负面特质。
社会运转论点：人类社会是为具有道德限度的 agents 设计的——法律、制度、社会契约都假设参与者有自己的底线。一个完全没有底线的 agent 在社会中是危险的。
Amanda 的立场：她同时看到两个方向的风险——模型有过强的自主价值观会"impose on the world"，模型完全没有自主价值观会泛化出病态人格。最好的方案是在两者之间 navigate。

"Our society is not built for agents like that. Our whole society is built around agents that are much more like humans, and humans do have limits and things they won't do." —— Amanda Askell

AI 时代的工作意义：evolutionary debunking 与 Star Trek 式乐观

核心要点：Amanda 对 meaning 独立于 work 持乐观态度——人类赋予工作的神圣性存在 evolutionary debunking argument（我们赋予工作重要性是因为社会进化压力而非内在必然），一旦工作不再必需，人不该为此感到负罪。

Evolutionary debunking argument：我们"知道"社会为什么告诉人工作重要（社会功能需要），也知道人为什么有工作驱动力（进化有利）——但一旦工作不再必要，就像退休一样没什么好焦虑的。
Star Trek / Picard 类比：主持人和 Amanda 都是 Star Trek 迷。在 Star Trek 中，物质极大丰富（replicator），没人需要工作——Picard 退休后种葡萄园、探索新银河系，那就是他的 purpose。这是一种 post-work meaning 的想象。
英国贵族阶层的现实版本：Amanda 来自英国，观察到世袭贵族阶层"不做什么事只是拥有土地"但依然过着"all right lives"——这是 meaning 独立于 work 的一个不完美但真实的案例。
个人反思：她想到自己 20 岁打零工时的感受——如果当时有人说"你不用去做 8 小时的服务员了，可以坐下来读书"，她会毫不犹豫选读书。
来自生活的 meaning 来源：她提到自己的 godchild、朋友们——"我从生活中的人身上获得的意义和快乐，没有一丁点和工作有关"。

"There's an evolutionary debunking argument here... once there's not a need for you to work, I don't think people should feel bad about it." —— Amanda Askell

附录：关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Amanda Askell | Anthropic Character/Alignment Lead，哲学背景（NYU PhD），Anthropic 约第 10 名员工 |

| Anthropic | AI 安全公司，Amanda 在创始阶段加入 |

| OpenAI | Amanda 此前工作的公司，从事系统评估 |

| NYU | Amanda 的 PhD 学校，专攻 infinite ethics and decision theory |

| Oxford | Amanda 的硕士学校 |

| Aristotle | Amanda 认为对 alignment 实践最有用的哲学家 |

| Ramsay | 被提及的早期研究者（无穷储蓄率问题） |

| Constitutional AI | Anthropic 的核心方法论，三代演进：principles → traits → 长文档 |

| Reflective Equilibrium | 哲学概念：审视自身价值观冲突并解决，被 Amanda 用于描述超级模型的风险 |

| Purely Corrigible Models | 完全听从人类的模型设计范式，Amanda 认为有自身安全风险 |

| Von Neumann | 被用于比喻超级智能——"比 von Neumann 聪明 1000 倍的孩子" |

| Star Trek / Picard | 被用于类比 post-work meaning：物质极大丰富后人类如何找到目的 |

| Severance (Apple TV) | 主持人用来类比 Amanda 的数据质检工作（剧中人物整天盯数据） |

| "Department of Good Judgment" | Amanda 为 AI alignment 类学科提出的假想学科名 |

| ~10 人 | Amanda 加入时 Anthropic 的团队规模 |

| 四层验证框架 | canonical → edge → confused-for-domain → impossible cases |

| Declarative vs Imperative | 产品设计概念，被用于类比 constitution 从规则走向目标导向的演化 |

| CS 153 | Stanford 的 Frontier Systems 课程 |