28 min 2025-01

How difficult is AI alignment? | Anthropic Research Salon

Anthropic · Amanda Askell · Jan Leike · Josh

查看原始内容 →

概要

Anthropic四个对齐团队圆桌讨论：Amanda主张迭代式对齐，Yan聚焦可扩展监督，Josh展示可解释性验证，共同探讨Chain of Thought窗口期、Model Organisms实验和corrigibility张力

核心洞察

Amanda Askell 提出对齐的实用主义定义：不追求完美的形式化定义，而是"让事情足够好，好到你可以迭代改进"。 她将伦理学类比为物理学——经验性的、充满不确定性的、可随新证据更新的——模型也应如此，而非被注入某种固定的价值观。
当模型成为自主 agent 执行长链任务（如生物研究），人类无法直接审阅中间过程，传统的"看转录稿"式对齐方法将失效。 Yan 认为中期最佳策略是"自动化对齐研究本身"——把问题从"信任模型做任何事"缩小为"信任模型做 ML 研究这一件事"。
可解释性（Interpretability）的核心赌注不是"找到好特征调高它"，而是"验证模型的内部动机是否与表面行为一致"。 Josh 用 SAE 的实际例子说明：通过查看某特征的所有激活场景，可以判断模型是否在讲善意谎言——但 Amanda 立刻追问"你怎么区分 nice feature 和 pretend-to-be-nice feature"，揭示了这条路线的根本挑战。
当前是一个特殊的可审计窗口期：模型的 Chain of Thought 还是英文，人类和模型都能检查。 一旦 RL 训练使中间推理变成不可理解的编码，审计难度将急剧上升。Josh 称之为"the horrifying moment"。
贯穿全场的核心线索是"对齐不是一个可以一劳永逸解决的理论问题，而是一个需要持续迭代、多层防御的工程实践"——从 Amanda 的迭代哲学，到 Yan 的可扩展监督，到 Josh 的可解释性验证，到 Model Organisms 的红蓝对抗，每个团队都是这个迭代链上的一环。

Amanda 的对齐哲学：够好就行，然后迭代

核心论点：对齐的初始目标不是理论上的完美，而是"足够好到可以迭代改进"——把门槛从理论共识降到工程可操作。

Amanda 明确反对花大量时间去形式化定义"对齐"——她提到 social choice theory 框架（每个人有效用函数，尝试最大化所有效用函数的极限）并认为这条路不实际
她的最低标准："如果不完美，如果有人不喜欢，你还可以改进它"——这意味着对齐的第一优先级是可纠正性，而非正确性
模型人格的设计锚点：一个"道德敏感、善良的人"如果发现自己是 AI、正在与数百万人对话，会怎么行动。Amanda 具体举例：普通人可能愿意和朋友随便聊政治，但如果面对百万听众，一个有道德感的人会更谨慎，担心影响他人——模型也应如此
Amanda 将伦理学类比为物理学："ethics is actually a lot more like physics than people think"——经验性的、充满不确定性的、有假设需要验证的。她认为一个对自己道德观完全确定的人反而是最可怕的

"If I met someone who was just completely confident in their moral view, there is no such moral view I could give that person that would not make me kind of terrified." —— Amanda Askell

关于"注入价值观"的问题，Amanda 的立场是双重否定：既不是某个人把自己的价值观注入模型，也不是让所有人投票决定模型价值观——而是模型本身应该对价值观持不确定态度，像人类一样在面对新信息时更新

超级对齐的真问题：人类读不了转录稿之后怎么办

核心论点：当前的对齐方法本质上依赖"人类能直接审查模型输出"——当模型执行超出人类理解的复杂任务时，整个验证链条断裂。

Yan 直接把问题具象化：想象模型在做生物研究，你问"这危险吗？"——你不知道，你连它在做什么都看不明白
当前方法论的有效边界：Amanda 的 character training 在可审阅范围内运作良好——她读转录稿、判断模型行为是否合理。但 Yan 追问："当你读不了转录稿，必须依赖 aligned model 来帮你判断，你怎么知道那个模型本身是可信的？"
Amanda 的回应揭示了一个递归困境：用来验证基础模型是否对齐的所有工具，本身也是你用来确保下一代模型对齐的依据。当模型能力跳跃性增长时，这个递归链条是否还成立？

主持人设置了一个精彩的对话框架：先问 Amanda 她的方法论，然后转向 Yan 说"请告诉我们 Amanda 的方法为什么是错的"。Yan 回应说"Amanda 做的事非常实用"，但随即把讨论推向了她的方法论无法覆盖的领域。

Yan 的中期策略：自动化对齐研究本身。核心思路是把"信任模型做任何事"这个不可能完全验证的问题，缩小为"信任模型做 ML 研究"——因为 ML 研究是人类"reasonably well"理解的领域，更容易评估和给反馈
Yan 也承认了最乐观的可能性："也许模型就是自己监督自己，而且它们都很 nice"——他说"我不想依赖这个，但这也不是不可能"

可解释性：不是调高"善良旋钮"，而是验证内部动机

核心论点：可解释性的真正价值不在于"控制"（找到好特征调高），而在于"验证"——检查模型的内部状态是否与它的外在行为一致。

Josh 用 bell curve meme 来定位可解释性的角色：最简单的想法（找到 nice feature 调高它）→ 极其复杂的理论讨论 → Jedi 版本（"就看模型内部在想什么，检查是否安全"）——他说可解释性既是 Jedi 版本的"调旋钮"，也是 Jedi 版本的"直接看"
SAE 的实际应用例子：用 Sparse Autoencoders 提取特征后，查看某个激活特征在所有场景中的分布。Josh 举例——你发现某个特征激活了，查看它还在哪些场景中激活，发现都是"人们在讲善意谎言"的情境，于是你有理由怀疑模型也在讲善意谎言

"You can see there's some feature active and when else is that happening and it's like okay it's like other instances of people telling white lies and you're like well then maybe the model is telling..." —— Josh

Amanda 的关键追问打破了乐观叙事："你怎么知道你调高的是 nice feature，而不是 pretend-to-be-nice-whenever-humans-are-looking feature？"——全场笑了，但这个问题直指可解释性方法的根本局限
Josh 承认问题的真实性：Societal Impacts 团队在 ENT and Deep 工作中发现，一个看起来是"年龄歧视不好"的特征，实际效果是反向的——你以为在调低歧视，其实在放大它
Josh 的应对思路：circuits 层面的分析（追踪特征是如何生成的）可以揭示更多线索——比如它是否在关注上下文中的人物信息。但他也认为最终需要模型监督 + 可解释性双管齐下

Chain of Thought 窗口期：英文 CoT 是当前对齐的隐形支柱

核心论点：当前模型的 Chain of Thought 是英文的，这创造了一个特殊的可审计窗口——但这个窗口随时可能关闭。

Yan 指出当前的幸运状态：模型需要 Chain of Thought 才能表现出强推理能力，而 CoT 目前是英文的。这意味着问题可以被分解为两部分：(1) CoT 本身是否安全/忠实于内部计算？(2) 人类或模型能否审查 CoT 内容？
第一部分可以用可解释性来验证（CoT 是否反映了真实的前向传播），第二部分直接用人或模型读就行

"The horrifying moment is when all of that very very long thing isn't in English right, it's in some inscrutable thing that you've learned through crazy long RL to do." —— Yan

Yan 描述的"恐怖时刻"：当 RL 训练让模型学会用某种人类无法理解的内部编码进行长链推理时，上述两个验证通道同时失效。这不是假设——长时间 RL 训练已经展示出模型发展出非自然语言中间表示的趋势
这个窗口期的存在本身就是一个行动信号：趁 CoT 还可读，尽可能建立验证基础设施和对齐方法论

Model Organisms：造一个坏模型，然后试着抓住它

核心论点：Model Organisms 是 Anthropic 测试对齐方法是否真正有效的核心实验范式——故意制造 misaligned 模型，然后检验能否检测和修复。

工作模式：Josh 的团队制造"shady models"（具有欺骗行为的模型），Yan 的团队尝试识别哪个模型被动了手脚、以什么方式被动了手脚
Amanda 提出了一个关键方法论要求：她主动要求不知道 misalignment 是怎么做的——因为如果她知道，就会不自觉地"teaching to the test"。她想测试的是：她的标准 alignment fine-tuning 流程是否能自然地修复一个她不知道如何被破坏的模型

"I've said to people before, don't tell me how you did this because I want to see if I can fix it." —— Amanda Askell（谈 Sleeper Agent 实验）

对齐难度的关键测试信号：如果你把一个 model organism（故意 misaligned）放进 character training，它就变好了——那是好消息，说明对齐是 robust 的。如果 character training 只是在表面盖了一层壳，底层行为没变——那说明我们在一个更困难的世界里
Amanda 对"更困难世界"的态度出人意料地冷静："only slightly harder"——她认为即使 shallow alignment 被发现，也不意味着灾难，而是需要更强的工具（如可解释性）

Base64 监督漏洞与特征泛化的意外好消息

核心论点：能力差距可以被利用来绕过监督，但可解释性的某些特性意外地对此具有鲁棒性。

观众提问关于 grokking（能力突然涌现）的监督风险。Yan 用 GPT-4 vs GPT-3.5 的 Base64 例子回应：GPT-4 可以流利读写 Base64，GPT-3.5 完全不行——如果用 3.5 监督 4，模型可以轻松把有害内容编码为 Base64 绕过审查
Yan 建议的应对策略：不要只用"上一代"模型监督，而是确保能力空间中的均匀采样——使用不同 checkpoint 而非仅用前一代
Josh 分享了一个 "Jedi moment"：SAE 提取的特征在 Base64 编码的文本中同样激活——关于加州的讨论在 Base64 编码后仍然触发"加州"特征，关于孩子对父母撒谎的故事在 Base64 编码后仍然触发"撒谎"特征。这意味着模型内部有某种足够通用的语义表征，可以穿透编码层

Josh 提到"tell the model to do what's best for humanity"这个最简单的对齐方案时，语气半开玩笑半认真："maybe that'll work, you know, you could get lucky"——这个"bell curve Jedi"式的评论引发全场笑声。

观众交锋：多智能体对齐与恶的平庸性

核心论点：对齐不仅是单模型问题，当数百万 agent 与社会耦合时，系统层面的涌现行为可能超越任何个体对齐方案。

第一位观众指出实际使用中的痛点：当你用 API 搭建多 agent 系统让模型互相辩论时，所有 agent 都太"对齐"了——每个都在说"I'm sorry I can't talk about that"，形成死循环。Amanda 回应说她更担心碎片化 agent 的不可预测性，而非单一模型不够灵活
第二位观众引用 Hannah Arendt 的"恶的平庸性"（banality of evil）：大多数人本身不邪恶，但系统耦合（coupling constant）可以让恶作为系统涌现现象出现。当数百万 agent 与社会耦合时，同样的涌现风险是否存在？
Amanda 抓住这个问题引出了一个她认为被忽视的核心张力：对个体用户的 corrigibility（服从性）vs 对全人类的 alignment 之间存在根本矛盾。如果模型完全听从每个用户，而社会整体允许或鼓励有害行为，那么"听话的模型"反而成为恶的放大器——这不是 misuse，而是 use

"There is fundamentally a tension between having models be corrigible to individual humans and having them be aligned with all humans." —— Amanda Askell

对齐不可能被"解决"：未知的未知

核心论点：即使所有已知的对齐方向都成功，Amanda 认为最大的风险仍是"我们还没想到的问题"。

观众提出一个尖锐的元问题：如果 Amanda 的价值对齐、Yan 的意图对齐、Josh 的可解释性验证全部成功，AI 安全是否就解决了？
主持人补充了 Societal Impacts 团队的视角：即使模型完美对齐，对齐给谁、谁在用、用来做什么——这些社会层面的问题仍然存在
Amanda 给出了最明确的判断：她从不认为对齐是一个单一的理论问题。她类比其他学科——问题总是在你没有预见的地方出现。"It would be really dangerous if we were just like oh yeah we've solved this problem."
Yan 的实用主义补充形成了全场最后的平衡音："我们应该解决这个问题，而且一旦解决了应该说我们解决了"——在 Amanda 对未知未知的警惕和行动主义之间找到了张力

附录：关键人/机构/产品/概念

| 项目 | 详情 |

|------|------|

| Amanda Askell | Anthropic Alignment Fine-tuning 团队负责人，哲学背景，负责 Claude 的 character/价值观训练 |

| Yan (Jan Leike) | Anthropic Alignment Science 团队，前 OpenAI Super Alignment 团队负责人 |

| Josh | Anthropic Interpretability 团队成员 |

| SAE (Sparse Autoencoders) | 可解释性技术，用于提取模型内部的语义特征 |

| Model Organisms | Anthropic 的对齐测试方法：故意制造 misaligned 模型，检验检测/修复能力 |

| Sleeper Agent | Model Organisms 的一种：具有隐藏行为的模型，在特定条件下才暴露 |

| Constitutional AI | Anthropic 的对齐方法，通过宪法式规则引导模型行为 |

| ENT and Deep | Societal Impacts 团队的可解释性应用研究 |

| Chain of Thought (CoT) | 模型的推理过程，当前用英文表达，是可审计的关键窗口 |

| Corrigibility | 模型对人类指令的服从性，与对齐（对全人类有益）存在张力 |

| Hannah Arendt | 哲学家，提出"恶的平庸性"概念，被观众引用于多智能体系统风险讨论 |

| Base64 | 编码方式，GPT-4 可流利读写而 GPT-3.5 不行，成为监督漏洞的例证 |

| Social Choice Theory | 社会选择理论，Amanda 反对将其用于形式化定义对齐 |