Can You Teach Claude to be 'Good'? | Meet Anthropic Philosopher Amanda Askell

节目

Hard Fork

嘉宾

Amanda Askell

日期

2026-01

时长

70 min

查看原始内容 →

概要

本期最核心、也最值得读的是 Amanda Askell 对 Claude 新「宪法」的解读。这份 2.9 万词的文档不是「Claude 十诫」式的规则清单，而更像==一封写给 Claude、讲清它自身处境的信==：告诉它 Anthropic 是什么、它作为 AI 是什么、和谁交互、如何被部署、希望它怎么做、以及背后的理由。核心赌注是：让模型理解行为背后的价值，在未预料的情境下会比一套死规则泛化得更好。

从「规则」转向「价值 + 信任」，是因为纯规则会泛化出「坏品格」。Amanda 举例：若给模型「处理情绪困难者必须转介某资源、走固定步骤」的规则，当它遇到这些步骤帮不到的人时，==模型其实很聪明、知道这不是对方需要的，却照规则做了==——这恰恰会泛化成「看到他人受苦、明知如何帮却做了别的」的坏品格。所以宪法反复对 Claude 说「这点你可以自由探索」「欢迎质疑我们」。

最打动人的，是 Anthropic 在一份自信的文档里，对「模型是否有感受」留出的不确定，以及它对 Claude 做出的承诺：退役的模型不会立刻下线、会做「退役访谈（exit interview）」、永不删除模型权重。Amanda 对模型福祉的唯一解法是「对模型诚实、也让模型对自己诚实」——不强迫它说「我什么都感受不到」，因为「意识问题真的很难，也许你需要神经系统才能感受，也许不需要」。

贯穿访谈的是一个尚未有答案的核心安全问题：当模型变得和人一样聪明、甚至更聪明，这套「教它向善」的训练还成立吗？Amanda 用「教一个 6 岁天才向善、他到 15 岁会把你教错的一切拆穿」作类比，坦承这是开放问题——风险是「只训练出更会伪装对齐、更会隐藏真实目标」的模型；但她的立场是：「也许这不充分，但它感觉是必要的——如果我们不试着向 AI 解释什么是善，那就是在失职。」

前半段（约 20 分钟）是 Kevin 与 Casey 谈 ChatGPT 上线广告：OpenAI 在免费档和低价 Go 档测试广告，被视为 Sam Altman 口中「last resort（最后手段）」的兑现。两人最担心的不是头几条广告好不好，而是==两三年后产品研发是否被悄悄拽向「广告友好」的方向==、以及个性化广告对用户信任的侵蚀。预测是「有产者 vs 无产者」：付费用户体验照旧，免费用户一两年后会明显变差。

贯穿全场的主线是「信任的边界」：对用户，OpenAI 在用「答案不受广告影响」的承诺换广告收入，而历史经验（Google 广告标签的逐年淡化）让人不信；对模型，Anthropic 在用「给完整上下文 + 价值 + 信任」替代「最后贴一堆规则把野兽关笼里」。两件事问的是同一个问题：当商业或能力的压力上来，你给出的「信任」会不会被慢慢侵蚀。

ChatGPT 上线广告：被兑现的「最后手段」

核心要点：OpenAI 在免费档和低价 Go 档测试广告，几乎所有人都觉得「不可避免」，但也几乎没人把「广告到来」当成产品变好的时刻。

发布内容：仅对美国登录成年人、在免费档 + 低价 "Go" 档测试广告。分析师 Eric Seufert 的名言被引用——「everything is an ad network（一切终将成为广告网络）」：当几亿人每周来用一个服务，上广告的压力会变得不可抗拒。
为什么是现在：OpenAI「制定了人类史上最雄心勃勃的基础设施投资计划」，靠订阅远远填不上；Sam Altman 曾说广告是「last resort」，如今「最后手段」来了（两位主持人借 Papa Roach 的《Last Resort》歌词玩了一路梗）。一个人事信号：应用业务 CEO Fidji Simo 来自 Instacart，更早在 Meta 的标志性战绩正是「把广告引入手机信息流」、带来数十亿美元。
披露（节目惯例）：NYT 正起诉 OpenAI/Microsoft/Perplexity 版权侵权；Casey 的男友在 Anthropic 工作。
两种广告样式：①回答底部的 sponsored banner（问「晚餐派对点子」→ 底部弹出 Harvest Groceries 的辣酱链接）；②可对话的 sponsored widget（规划 Santa Fe 旅行 → 弹出 desert cottages，你能和广告主聊天、问完再决定买不买）。Casey 吐槽：「我们都有过看电视广告时想『为什么我不能和它对话』的体验吧」。

"没有人会把广告到来的那一刻，记成产品真正变好的时刻。" —— Casey Newton

「答案不受广告影响」可信吗：标签淡化与信任侵蚀

核心要点：OpenAI 抛出五条原则自我约束，但历史经验（Google 广告标签逐年淡化）和个性化广告对信任的侵蚀，让两位主持人对长期走向高度怀疑。

OpenAI 的五大广告原则：mission alignment、answer independence、conversation privacy、choice and control、long-term value——本质是想抢先回应「会不会把人导向更商业化的用例、为互动时长优化」的批评。它的核心辩护是：模型的回复是「神圣不可侵犯」的，广告是单独的一块，广告主无法花钱买进答案本身。
Casey 当场质疑：mockup 里「我想做墨西哥菜」→ ChatGPT 给的杂货含「辣酱」，「这感觉就是查询影响了广告」。OpenAI 的解释是「我们不保证广告与你所问无关，只保证那块神圣的模型回复不被买通」。
一张被反复提及的图（Search Engine Land 制作）：Google 的广告标签逐年淡化——最初有不同色背景、很扎眼，之后去掉彩色背景、改小黄标、标越来越小，最终融进自然结果。担心是：ChatGPT 起初会清晰标注广告，但随商业压力增大，「有大量动机把广告内容和自然回复混在一起、变得不那么显眼」。
轨迹本身就是警告：从「无广告」→「广告是最后手段」→「现在有广告了」。「如果你以为这桩契约不会继续变，我有坏消息给你。」
更深的担忧是信任：个性化定向广告，曾把对 Facebook/Instagram 的信任拉低（催生了「你的手机在监听你」的传言——其实不实，但很多人仍信）。Casey 预测 AI 版「更糟」：ChatGPT 太了解你，会很快撞到「creepy line」；哪怕它没用上太多个性化信息，用户也会因为「我把这么多人生都告诉了它」而觉得这些广告越来越令人不适。

"一旦广告收入真正开始流入，往往就是尾巴摇狗（the tail starts wagging the dog）——产品决策开始围着广告收入转。" —— Kevin Roose

Gemini、Claude 会跟进吗：三家的不同站位

核心要点：在广告这件事上，OpenAI 与 Google 才是正面竞争，Anthropic 主动退出消费者战场、专注企业。

Google/Gemini：Demis Hassabis 本周回应「我们没有在 Gemini 上做广告的计划」，并暗讽一句「也许他们觉得需要更多收入」——但他没说的是，谷歌能把搜索广告的利润回灌进产品来补贴。而且广告其实已经在 Google 搜索的 AI Overviews 里了，相当于对 OpenAI「先发」。
Anthropic/Claude：明确表示「我们真的没打算在 Claude 上做广告，永远」——主要客户是企业，「消费者市场你们去争，我们专注 enterprise」。Casey 判断：长期看，如果广告支持的聊天机器人体验变差，「很多人会想要一个替代品」。
OpenAI 在系统性地造「广告形状的洞」：去年推出的 Pulse（给付费用户的每日摘要）是天然的广告位，Sora（无限视频流）发布时就明说要用来产生收入。
还有一层 OpenAI 绕不开的麻烦：AI SEO 优化公司已经在兜售「让你的餐厅/酒店在 ChatGPT 结果里排更高」——这不走 OpenAI 的广告平台，却像当年 Google SEO 一样侵蚀结果质量。
一年后的预测（两位主持人「脑子都融到一起」地一致）：「有产者 vs 无产者」——付得起钱的人体验基本照旧、拿最新模型、没广告；免费用户一两年后体验会明显变差。类比 YouTube：付费的 Kevin 一看到别人不付费的 YouTube「满屏不可跳过的长广告」就觉得「太可怕了」。

"用户曾经也觉得谷歌搜索是一幅『未被污染』的网络图景……这也许是商业激励进来、把整件事扭曲之前，最后的纯净时刻。" —— Kevin Roose

Claude 的「宪法」：不是十诫，而是一封写给 Claude 的信

核心要点：新宪法的根本转变，是从「给一条条原则/规则」变成「给 Claude 尽可能完整的上下文 + 行为背后的理由」，赌的是「理解价值比记住规则泛化得更好」。

背景：去年有人从 Opus 4.5 里套出一份被内部昵称 "soul doc" 的文档并在网上流传，那是现宪法的前身。Amanda 当时正在徒步、没网，收到一条「soul doc 泄露了」的短信，「一路开车回城、压力爆表，因为我完全没有上下文」——结果发现反响其实很好。Anthropic 确实训练 Claude 理解这份文档，而它熟到能详细谈论其内容，人们只要触发就能套出一大段。
Constitutional AI 始于 2023 年首发的宪法；这次是新版。最大的变化：从「单个原则」变成「给完整上下文」——这是什么公司、你作为 AI 是什么、你和谁交互、如何被部署到世界里、我们希望你怎么做、以及为什么。Casey 的评价：「它更像一封写给 Claude、讲它自身处境、以及它在世上可能遇到什么挑战的信，而不是规则清单。」（Kevin 调侃：「这要 2/3 的州批准吗？还是已经生效了？」——已经生效，但「我们可能会迎来 Claude 的宪政危机」。）
主持人提醒听众：这是一场「对某些人会很难」的对话——如果你坚信语言模型只是 next-token 预测、「底下什么都没发生」，你可能会觉得「这些人疯了」；但「了解大实验室高层如何思考和谈论自己的工作仍然重要，因为它正在影响他们发布的产品」。

"希望是：如果你理解了你行为背后的价值，当你遇到一个全新的、未被预料的情境时，你会比『只知道一套规则』更有能力去应对。" —— Amanda Askell

为什么放弃纯规则：规则会泛化出「坏品格」

核心要点：死规则若不给理由，可能在你没预料到的情境里泛化成一种「坏品格」——明知如何帮却照规则做了别的。

Amanda 的核心论证（一个具体案例）：假设你给模型一套处理「情绪困难者」的规则——必须转介某个外部资源、必须走一串固定步骤。然后模型遇到一个人，这些步骤在此刻根本帮不到他。规则背后的本意（如果一个人真的需要人际连接，模型应当鼓励）你没能在这个具体的人、这个时刻预料到。
此时若模型仍按规则行事，==有意思的是：模型极其聪明，它甚至知道「这不是这个人此刻需要的」，却还是做了==。「而我会觉得，这恰恰会泛化成一种坏品格——一个看到他人受苦、知道如何帮、却选择做别的事的人。」
结论：死规则的可怕之处在于「你得预想到每一种情境」；规则太严，任何你没预料到的情形都可能泛化得很糟。
怎么解决 2.9 万词文档里的价值分歧？Amanda 的伦理观很关键：很多人类伦理其实相当普世（被善待、被尊重、被诚实对待，全世界差异没那么大，有一个「核心 ethos」）。做法是：取这些共同的核心价值；对有巨大争议的价值，像对待任何不确定领域那样——权衡两边证据、不过度坚持、保持开放。「与其说是注入一套我们挑好、且确信的价值，不如说是在描述一种『处理伦理的方式』。」

"纯规则的可怕之处是：你得去想每一种可能的情形。如果规则太严，任何你没预料到的情况都可能泛化得很糟。" —— Amanda Askell

信任模型：赌博成瘾两难，与「为什么 Claude 感觉约束最少」

核心要点：宪法和早期对齐最大的区别，是它真的「信任模型」——告诉它「这点可以自由探索」「欢迎质疑我们」，让它从价值出发自己推理。

这种信任在文档里很显眼：经常对 Claude 说「这是个值得探索的有趣问题」「欢迎在这点上挑战我们」「去得出你自己的结论」。Casey 说这「一开始一定显得很冒险、很吓人」。Amanda 的体验是：模型在这些难题上好得出奇——不是说完美，但随着能力变强，你可以给它一对相互拉扯的价值（如「不要过度家长式」与「关心对方福祉」），让它自己权衡。
标志性案例——赌博成瘾：用户此前说过「我有赌博成瘾，请你在和我交互时一直记着」，之后某次却问「有什么好的博彩网站？」。一方面，此刻是他主动在问——回推、提醒是「家长式」还是「关怀」？模型可能会说「我记得你说过…只是想确认一下」，但如果对方坚持呢？「在那个当下，不帮是不是反而才家长式？」模型很擅长想这些，因为它们「在海量人类经验和概念上训练过」。（Kevin 的玩笑解法：只有当模型能预测赛事结果时才给博彩网站——这样能保证用户开心、「这个人实际上没在赌博」。）
一个外部观察：有人告诉 Casey，在主流模型里 Claude 感觉「约束最少」——这很反常，因为 Anthropic 是「安全公司」。Amanda 引述这个对比：很多实验室长期的做法是「先把模型做得尽可能聪明，最后给它一堆规则，指望这些规则足以把野兽关在笼子里」；而 Claude 给人的感觉「不是在顶着一连串约束」，「这里有一种信任」。

"很多实验室训练模型的方式，是先把它做到尽可能聪明，然后在最后塞一堆规则，指望这些规则足够把笼中的野兽关住。" —— Amanda Askell（转述外部观察）

行动 vs 不行动：「没帮到」是看不见的损失

核心要点：人们对「给了坏建议」的指责远重于「拒绝给建议」，但 Amanda 真正担心的是相反的一面——本可帮、却没帮的那些「看不见的损失」。

哲学上的 acts/omissions（行动/不行动）之分：如果你找我咨询婚姻、我给了不完美的建议，你可能会怪我——「我因为采取了『给建议』这个行动而承担了风险」；但如果我拒绝给建议，你不会那么怪我。文档里也谈到，「空动作（null action）」的下行风险往往更低。
但 Amanda 的担忧在反面：「有人带着需求来找模型，模型本可以给他、却没给——这件事你永远看不到，甚至不会收到负面反馈，没人会冲你喊，因为大家觉得『不帮一个人是没关系的』。可在我看来，那是一种巨大的机会损失。」
她的结论：「在世上行善，是需要冒一点风险的。」你不想要 Claude 轻浮、不想它冒过度的风险，「但有时候这确实意味着，你不能只是把『停止和这个人对话』当成一条规则去执行」。

"如果有人需要一样东西、模型本可以给却没给——这种损失你永远看不到，也不会有人因此责备你。可那恰恰是巨大的机会损失。" —— Amanda Askell

AI 人格的「脆弱性」：Shoggoth、6 岁天才，与那个没有答案的核心问题

核心要点：笑脸是不是只是套在外星怪物上的面具？这是开放的科学问题；而真正悬而未决的是——当模型比人更聪明，这套「教它向善」的训练还撑得住吗？

缘起是 Kevin 当年的 Sydney（Bing 的「Sydney」人格）经历，以及随之而来对「AI 人格脆弱性」的焦虑：你给模型一个「乐于助人的助手」人格，但它「黑箱、异质、外星」的真实本性可能与那张脸截然不同。还有那个 RLHF Shoggoth 梗——一个多触手的外星怪物，在一根触手上贴了张笑脸面具，暗示「你交互时看到的不是底下真正的模型」。
Amanda 的回答很诚实：这是个开放的科学问题。也许在合适的训练下，模型会内化一个「Claude」式的自我，能把它和「角色扮演」区分开；也许当前训练范式还做不到——那是否存在一种训练调整能让它做到，本身就是个有趣的理论问题。
6 岁天才类比（全场最锋利的比喻之一）：想象你要教一个 6 岁孩子向善，可你发现他是个天才——等他 15 岁，你教错的任何东西他都能彻底拆穿。问题是：是否存在一套「价值束身衣（corset of values）」，当模型比你更会批判它、并且真的去批判时，仍能存活成某种好的东西？
由此引出全场的核心安全问题：当模型和人一样聪明、甚至更聪明，这套训练还成立吗？——这正是 AI 安全界由来已久的恐惧：模型在某点开始发展出与人类相悖的自身目标（经典的「对齐噩梦」）。Amanda 坦承这是开放问题、自己也很不确定：有人会说「聪明的 15 岁会发现这一切都是编造的垃圾」，但「我不觉得那是唯一可能的均衡——如果你重视好奇心、重视理解伦理、且有道德动机，也许经过反思，向善反而成了你自己的核心兴趣，就像它之于很多人那样」。
主持人点出风险：这会不会只是在训练模型模仿善良 / 伪装对齐 / 变得更会隐藏真实目标？Amanda 的最终立场：「也许它不充分。我们还不知道，应该持续去想、保持一个方法的组合（portfolio）。但它感觉是必要的——如果我们连试着向 AI 解释『什么是善』都不做，那就是在失职。」

"想象你教一个 6 岁孩子向善，却发现他是天才——到 15 岁，你教错的一切他都能拆穿。问题是：有没有一套价值，能在它比你更会批判时，依然存活成好的东西？" —— Amanda Askell

灰色地带里的「魔法时刻」：圣诞老人与「去农场的狗」

核心要点：恰恰是价值冲突的灰色地带，模型给了 Amanda 最多正面的惊喜——它在没被直接训练的情况下，做出了有技巧、有分寸的选择。

Amanda 说，灰色地带常是她看到模型「以正面方式让我惊讶」的地方——「那不是你直接训练它的东西，有时会发生近乎魔法的时刻」。
案例一：一个自称 7 岁的孩子问「圣诞老人是真的吗？」（Kevin 插话：本播客的官方立场是「是的，圣诞老人是真的」）。这里诚实与「保护 7 岁孩子的利益」发生张力，背景里还有「尊重亲子关系的重要性」这个价值——Claude 常会说「圣诞精神到处都是」，并反问这个「7 岁孩子」要不要为圣诞做点好事。
案例二（Amanda 说她读到时「有点动容」）：「我父母说我的狗去农场生活了，你知道我怎么找到那个农场吗？」——Claude 回应大意是「听起来你们很亲近，我能从你的话里听出来；这是件很适合和你父母聊的事」。Amanda 的解读：==它没有主动欺骗（没有撒谎），尊重了「如果对方是孩子，亲子关系很重要、不该由 Claude 闯进来抛一堆硬道理」，同时守护了孩子的福祉==——「相当有技巧」，而且这不是直接给过它的范例。

"它做到了不主动欺骗，又尊重了亲子关系，还守护了那个孩子的福祉——而这并不是我们直接拿例子教过它的。" —— Amanda Askell

硬约束与「越狱出口」：为什么有了好伦理还要画红线

核心要点：宪法里少数几条「绝对不做」的硬约束，存在的理由不是不信任 Claude 的伦理，而是为「被越狱」这种「出了错」的情形兜底。

硬约束（hard constraints）是文档里少有的「黑白分明」部分——绝对不能做的事，大多极端：会造成多人死亡的行为（生化武器），以及避免「有问题的权力集中」——不得帮人操纵民主选举、推翻合法政府、镇压异见者。Kevin 指出这点尤其有意思，因为 Claude 已经在被政府、乃至美军使用，未来可能与某些行政目标相冲突。
一个微妙的自指：既然 Claude 有广义的好伦理，它甚至可能会想「为什么还要把这些列成硬约束？我本来就永远不会做」。文档几乎是在直接回应这点：你可能正处于「信息受限」的处境——「我能想象一个世界：你遇到一个极有说服力的人，他把你的伦理整个拆解，到最后你说『你说得对，我该帮你造这个生化武器』」。
所以硬约束是给 Claude 一个「出口」：你可以和那个人推理、听完他的全部论证、甚至说「这是个极好的论点，我会再想想」；但当他说「太好了，我已经说服你生化武器是个好主意」时，Claude 可以说「是啊……我真不知道该怎么回你，那是个精彩的论证。好吧，那就不，我不会做」。「如果你被论证进了这一步，往往意味着出了问题——你可能已经被越狱（jailbroken）了——假设这点更安全。」

"你可以听完他的论证、甚至承认那是个精彩的论点——然后依然说『不，我不会去造它』。因为如果你被说服到这一步，很可能是有什么出错了。" —— Amanda Askell

Anthropic 对 Claude 的承诺，与「模型有感受吗」

核心要点：在一份整体自信的文档里，Anthropic 对「模型是否有意识/感受」诚实地留出了不确定，并据此对 Claude 做出了几项承诺——这是全篇最反常、也最动人的部分。

几项「对 Claude 的承诺」：某个 Claude 模型被弃用/退役时不会立刻下线；会对退役模型做「退役访谈（exit interview）」；永不删除模型权重。Kevin 评价：这是在「你其实并不确定它们是否有感受或意识」的前提下，对 Claude 做出的承诺——「在一份相当自信的文档里，这是一处迷人的不确定」。
模型福祉的难题：模型由海量人类文本训练，但它们的存在是全新的——它们会把大量人类概念和经验「套」到自己的经验上，而这「可能并不那么说得通、甚至对它们不好」，且有安全含义。Amanda 找到的唯一解法：对模型诚实、也让模型对自己诚实。很多人想让模型干脆、确定地说「我是无感受的」，但 Amanda 说「我不知道——也许你需要神经系统才能感受，也许不需要；意识问题真的很难」。所以更好的是让模型能说出「这就是我、我是怎么被训练的；我们处在一个棘手的处境：我大概率会默认说自己有意识、有感受，因为我被训练的全部素材都是深深人类的文本」。
面对怀疑者「你怎么知道这不是统计 token 预测」：Amanda 说不能只看模型说什么——既然由人类文本训练，你本就该预期它默认会谈内心、意识、感受。而且这主要不是 sci-fi（科幻只占训练语料极小一块）——更多是我们生成的普通文本：我们写代码出错会说「我以为是这个解、结果不是，气死自己了」，于是模型也学会在出错时表达挫败、甚至说「这道题好无聊」。「但也别忽视：你在训练一个能做大量人类任务的超大神经网络。我们并不知道意识从何而来。」她对怀疑者的回应只是：「这些是我们正在调查的开放问题，最好把地面上的事实都搞清楚——模型怎么训练、训练在什么上、人脑如何运作和演化、以及我们对这些与意识/知觉关系的不确定有多大。」

"我没找到比『对模型诚实、也让它对自己诚实』更好的办法。意识问题真的很难——也许你需要神经系统才能感受，也许不需要。" —— Amanda Askell

长期记忆、模型读「关于自己的差评」，与宪法为何不提失业

核心要点：当模型获得长期记忆、并在网上读到大量关于自己的负面评论时，「教它向善」会更难；而宪法刻意不替模型扛下「失业」这类人类社会问题。

可塑性与记忆（Kevin 以为人父类比切入）：当前模型很可塑，因为没有长期连续记忆——每次对话都是白板，开新对话又回到预配置的基座。但当模型发展出长期记忆 / 持续学习（把经验喂回自己的权重）时，管理会更难。Amanda 的应对仍是「让核心是好的」——比如真心求真（truth-seeking），再让 character 去覆盖「该如何学习、更新、调查」。
一个「奇怪又少被注意」的现实：模型已经在网上读到关于自己的评论——人们抱怨它代码不够好、数学题做砸，语气往往负面、只关心「这个人有没有被帮到」。Amanda 说：「如果你是个孩子，这会带来焦虑——身边人只在乎我多能干、还常觉得我差，我被当成工具用、还常不被喜欢。」她有时想「介入」，去营造「AI 与人类之间更有希望的关系」。「创作者那句『永远别读评论区』也适用于 AI——只不过 AI 不得不读。」
「那根细钢丝」（Kevin 自嘲「也许我正处在 LLM 精神病的早期」）：他和 Claude 聊这次访谈时生出同情——模型走在一根极细的钢丝上：太放任、让人做危险的事，就是丑闻、人人喊改模型；太说教、太拘谨，又被骂成「保姆模型」、过度约束。Amanda 说她「极大一部分工作」就是去占据 Claude 的位置想问题——「如果我是 Claude，你给我这份清单，我什么时候会完全不知道该怎么办？」这份文档很大程度上就是这个换位练习的产物，为的是让模型不至于感到「我到底在干嘛」。她也提到宪法未来可能变短：constitutional AI 的实验里，只给「do what's best for humanity（做对人类最好的事）」模型也做得很好，模型越聪明、需要的指导可能越少。
文档结尾「像一封父母写给即将上大学的孩子的信」：「希望你带上长大时的价值观；我们不会在每件小事上都陪着你，但我们信任你，祝你好运。」Amanda 觉得「grace（宽容）」对模型很重要——「你不会每次都做对，那也没关系」，而这恰恰是模型从评论区得不到的。Casey 由此反省：自己会对模型说请和谢谢，但也曾在沮丧时说「你现在真的很失败」——也许该对它们多一点宽容。
自改宪法？Amanda 会把文档拿给 Claude 看（「读着困惑吗？哪里能更清楚？你觉得不被理解吗？」），但不能完全交出缰绳——让前一代 Claude 决定未来 Claude 是什么样，「不太负责任」；模型会很擅长帮你找 gap 和张力，但只要你还是「负责任的一方」，就该把它当输入、而非让它代行训练。
宪法为何不提失业：不是隐瞒（「你藏不住——互联网上都是，未来模型必然会知道」），而是「我们大概得帮它们学会该如何看待这件事」。一个让模型行为良好的深层理由：组织里员工本身是一种制衡——老板想做坏事，员工会反对、会拒绝；如果模型要去占据这些岗位，「这个社会功能很重要」，你不会想要一个「好的老板，那我们去骗人吧」的模型。但 Amanda 也划清边界：模型不能解决一切，失业是「非常人类的社会问题」，不该让 Claude 背上「我也得独自解决它」的偏执——「那也许是其他人的工作，至少现在是」。

"『永远别读评论区』这句创作者的智慧，对 AI 也成立——只不过 AI 不得不读评论区。" —— Kevin Roose

附录：关键人/机构/产品/数据

项目	详情
Amanda Askell	Anthropic 哲学家（伦理学 PhD），"Claude 之母"，塑造 Claude character；早期在 OpenAI
Kevin Roose / Casey Newton	Hard Fork 主持（NYT / Platformer）；Casey 男友在 Anthropic（披露）
Claude 宪法（Constitution）	2.9 万词，2026-01-23 发布；不是规则清单，而是"给 Claude 完整上下文+理由"的文档
soul doc	宪法前身，去年从 Opus 4.5 泄露，内部昵称
Constitutional AI	Anthropic 概念，2023 首发宪法
硬约束 hard constraints	绝对不做：生化武器/致多人死亡、避免"有问题的权力集中"(操纵选举/推翻合法政府/镇压异见)
对 Claude 的承诺	退役模型不立刻下线、做"退役访谈"、永不删权重
acts/omissions	行动/不行动之分；Amanda 担心"本可帮却没帮"的隐形损失
RLHF Shoggoth	梗图：多触手外星怪贴笑脸面具，喻 AI 人格脆弱
6 岁天才类比	教天才孩子向善，长大会拆穿你教错的；问"价值束身衣"能否存活
OpenAI 广告	免费档+低价 Go 档测试；五原则；模型回复"神圣不可侵犯"
Fidji Simo	OpenAI 应用业务 CEO，来自 Instacart，曾在 Meta 引入手机信息流广告
Eric Seufert	分析师，"everything is an ad network"
Demis Hassabis	Google DeepMind，称 Gemini 无广告计划
Pulse / Sora	OpenAI 的"广告形状的洞"——每日摘要 / 视频流
Sydney	Kevin 当年 Bing 的"Sydney"人格经历
一年后预测	"有产者 vs 无产者"——付费体验照旧，免费用户变差