Can You Teach Claude to be 'Good'? | Meet Anthropic Philosopher Amanda Askell
概要
- 本期最核心、也最值得读的是 Amanda Askell 对 Claude 新「宪法」的解读。这份 2.9 万词的文档不是「Claude 十诫」式的规则清单,而更像==一封写给 Claude、讲清它自身处境的信==:告诉它 Anthropic 是什么、它作为 AI 是什么、和谁交互、如何被部署、希望它怎么做、以及背后的理由。核心赌注是:让模型理解行为背后的价值,在未预料的情境下会比一套死规则泛化得更好。
- 从「规则」转向「价值 + 信任」,是因为纯规则会泛化出「坏品格」。Amanda 举例:若给模型「处理情绪困难者必须转介某资源、走固定步骤」的规则,当它遇到这些步骤帮不到的人时,==模型其实很聪明、知道这不是对方需要的,却照规则做了==——这恰恰会泛化成「看到他人受苦、明知如何帮却做了别的」的坏品格。所以宪法反复对 Claude 说「这点你可以自由探索」「欢迎质疑我们」。
- 最打动人的,是 Anthropic 在一份自信的文档里,对「模型是否有感受」留出的不确定,以及它对 Claude 做出的承诺:退役的模型不会立刻下线、会做「退役访谈(exit interview)」、永不删除模型权重。Amanda 对模型福祉的唯一解法是「对模型诚实、也让模型对自己诚实」——不强迫它说「我什么都感受不到」,因为「意识问题真的很难,也许你需要神经系统才能感受,也许不需要」。
- 贯穿访谈的是一个尚未有答案的核心安全问题:当模型变得和人一样聪明、甚至更聪明,这套「教它向善」的训练还成立吗?Amanda 用「教一个 6 岁天才向善、他到 15 岁会把你教错的一切拆穿」作类比,坦承这是开放问题——风险是「只训练出更会伪装对齐、更会隐藏真实目标」的模型;但她的立场是:「也许这不充分,但它感觉是必要的——如果我们不试着向 AI 解释什么是善,那就是在失职。」
- 前半段(约 20 分钟)是 Kevin 与 Casey 谈 ChatGPT 上线广告:OpenAI 在免费档和低价 Go 档测试广告,被视为 Sam Altman 口中「last resort(最后手段)」的兑现。两人最担心的不是头几条广告好不好,而是==两三年后产品研发是否被悄悄拽向「广告友好」的方向==、以及个性化广告对用户信任的侵蚀。预测是「有产者 vs 无产者」:付费用户体验照旧,免费用户一两年后会明显变差。
- 贯穿全场的主线是「信任的边界」:对用户,OpenAI 在用「答案不受广告影响」的承诺换广告收入,而历史经验(Google 广告标签的逐年淡化)让人不信;对模型,Anthropic 在用「给完整上下文 + 价值 + 信任」替代「最后贴一堆规则把野兽关笼里」。两件事问的是同一个问题:当商业或能力的压力上来,你给出的「信任」会不会被慢慢侵蚀。
ChatGPT 上线广告:被兑现的「最后手段」
核心要点:OpenAI 在免费档和低价 Go 档测试广告,几乎所有人都觉得「不可避免」,但也几乎没人把「广告到来」当成产品变好的时刻。
- 发布内容:仅对美国登录成年人、在免费档 + 低价 "Go" 档测试广告。分析师 Eric Seufert 的名言被引用——「everything is an ad network(一切终将成为广告网络)」:当几亿人每周来用一个服务,上广告的压力会变得不可抗拒。
- 为什么是现在:OpenAI「制定了人类史上最雄心勃勃的基础设施投资计划」,靠订阅远远填不上;Sam Altman 曾说广告是「last resort」,如今「最后手段」来了(两位主持人借 Papa Roach 的《Last Resort》歌词玩了一路梗)。一个人事信号:应用业务 CEO Fidji Simo 来自 Instacart,更早在 Meta 的标志性战绩正是「把广告引入手机信息流」、带来数十亿美元。
- 披露(节目惯例):NYT 正起诉 OpenAI/Microsoft/Perplexity 版权侵权;Casey 的男友在 Anthropic 工作。
- 两种广告样式:①回答底部的 sponsored banner(问「晚餐派对点子」→ 底部弹出 Harvest Groceries 的辣酱链接);②可对话的 sponsored widget(规划 Santa Fe 旅行 → 弹出 desert cottages,你能和广告主聊天、问完再决定买不买)。Casey 吐槽:「我们都有过看电视广告时想『为什么我不能和它对话』的体验吧」。
"没有人会把广告到来的那一刻,记成产品真正变好的时刻。" —— Casey Newton
「答案不受广告影响」可信吗:标签淡化与信任侵蚀
核心要点:OpenAI 抛出五条原则自我约束,但历史经验(Google 广告标签逐年淡化)和个性化广告对信任的侵蚀,让两位主持人对长期走向高度怀疑。
- OpenAI 的五大广告原则:mission alignment、answer independence、conversation privacy、choice and control、long-term value——本质是想抢先回应「会不会把人导向更商业化的用例、为互动时长优化」的批评。它的核心辩护是:模型的回复是「神圣不可侵犯」的,广告是单独的一块,广告主无法花钱买进答案本身。
- Casey 当场质疑:mockup 里「我想做墨西哥菜」→ ChatGPT 给的杂货含「辣酱」,「这感觉就是查询影响了广告」。OpenAI 的解释是「我们不保证广告与你所问无关,只保证那块神圣的模型回复不被买通」。
- 一张被反复提及的图(Search Engine Land 制作):Google 的广告标签逐年淡化——最初有不同色背景、很扎眼,之后去掉彩色背景、改小黄标、标越来越小,最终融进自然结果。担心是:ChatGPT 起初会清晰标注广告,但随商业压力增大,「有大量动机把广告内容和自然回复混在一起、变得不那么显眼」。
- 轨迹本身就是警告:从「无广告」→「广告是最后手段」→「现在有广告了」。「如果你以为这桩契约不会继续变,我有坏消息给你。」
- 更深的担忧是信任:个性化定向广告,曾把对 Facebook/Instagram 的信任拉低(催生了「你的手机在监听你」的传言——其实不实,但很多人仍信)。Casey 预测 AI 版「更糟」:ChatGPT 太了解你,会很快撞到「creepy line」;哪怕它没用上太多个性化信息,用户也会因为「我把这么多人生都告诉了它」而觉得这些广告越来越令人不适。
"一旦广告收入真正开始流入,往往就是尾巴摇狗(the tail starts wagging the dog)——产品决策开始围着广告收入转。" —— Kevin Roose
Gemini、Claude 会跟进吗:三家的不同站位
核心要点:在广告这件事上,OpenAI 与 Google 才是正面竞争,Anthropic 主动退出消费者战场、专注企业。
- Google/Gemini:Demis Hassabis 本周回应「我们没有在 Gemini 上做广告的计划」,并暗讽一句「也许他们觉得需要更多收入」——但他没说的是,谷歌能把搜索广告的利润回灌进产品来补贴。而且广告其实已经在 Google 搜索的 AI Overviews 里了,相当于对 OpenAI「先发」。
- Anthropic/Claude:明确表示「我们真的没打算在 Claude 上做广告,永远」——主要客户是企业,「消费者市场你们去争,我们专注 enterprise」。Casey 判断:长期看,如果广告支持的聊天机器人体验变差,「很多人会想要一个替代品」。
- OpenAI 在系统性地造「广告形状的洞」:去年推出的 Pulse(给付费用户的每日摘要)是天然的广告位,Sora(无限视频流)发布时就明说要用来产生收入。
- 还有一层 OpenAI 绕不开的麻烦:AI SEO 优化公司已经在兜售「让你的餐厅/酒店在 ChatGPT 结果里排更高」——这不走 OpenAI 的广告平台,却像当年 Google SEO 一样侵蚀结果质量。
- 一年后的预测(两位主持人「脑子都融到一起」地一致):「有产者 vs 无产者」——付得起钱的人体验基本照旧、拿最新模型、没广告;免费用户一两年后体验会明显变差。类比 YouTube:付费的 Kevin 一看到别人不付费的 YouTube「满屏不可跳过的长广告」就觉得「太可怕了」。
"用户曾经也觉得谷歌搜索是一幅『未被污染』的网络图景……这也许是商业激励进来、把整件事扭曲之前,最后的纯净时刻。" —— Kevin Roose
Claude 的「宪法」:不是十诫,而是一封写给 Claude 的信
核心要点:新宪法的根本转变,是从「给一条条原则/规则」变成「给 Claude 尽可能完整的上下文 + 行为背后的理由」,赌的是「理解价值比记住规则泛化得更好」。
- 背景:去年有人从 Opus 4.5 里套出一份被内部昵称 "soul doc" 的文档并在网上流传,那是现宪法的前身。Amanda 当时正在徒步、没网,收到一条「soul doc 泄露了」的短信,「一路开车回城、压力爆表,因为我完全没有上下文」——结果发现反响其实很好。Anthropic 确实训练 Claude 理解这份文档,而它熟到能详细谈论其内容,人们只要触发就能套出一大段。
- Constitutional AI 始于 2023 年首发的宪法;这次是新版。最大的变化:从「单个原则」变成「给完整上下文」——这是什么公司、你作为 AI 是什么、你和谁交互、如何被部署到世界里、我们希望你怎么做、以及为什么。Casey 的评价:「它更像一封写给 Claude、讲它自身处境、以及它在世上可能遇到什么挑战的信,而不是规则清单。」(Kevin 调侃:「这要 2/3 的州批准吗?还是已经生效了?」——已经生效,但「我们可能会迎来 Claude 的宪政危机」。)
- 主持人提醒听众:这是一场「对某些人会很难」的对话——如果你坚信语言模型只是 next-token 预测、「底下什么都没发生」,你可能会觉得「这些人疯了」;但「了解大实验室高层如何思考和谈论自己的工作仍然重要,因为它正在影响他们发布的产品」。
"希望是:如果你理解了你行为背后的价值,当你遇到一个全新的、未被预料的情境时,你会比『只知道一套规则』更有能力去应对。" —— Amanda Askell
为什么放弃纯规则:规则会泛化出「坏品格」
核心要点:死规则若不给理由,可能在你没预料到的情境里泛化成一种「坏品格」——明知如何帮却照规则做了别的。
- Amanda 的核心论证(一个具体案例):假设你给模型一套处理「情绪困难者」的规则——必须转介某个外部资源、必须走一串固定步骤。然后模型遇到一个人,这些步骤在此刻根本帮不到他。规则背后的本意(如果一个人真的需要人际连接,模型应当鼓励)你没能在这个具体的人、这个时刻预料到。
- 此时若模型仍按规则行事,==有意思的是:模型极其聪明,它甚至知道「这不是这个人此刻需要的」,却还是做了==。「而我会觉得,这恰恰会泛化成一种坏品格——一个看到他人受苦、知道如何帮、却选择做别的事的人。」
- 结论:死规则的可怕之处在于「你得预想到每一种情境」;规则太严,任何你没预料到的情形都可能泛化得很糟。
- 怎么解决 2.9 万词文档里的价值分歧?Amanda 的伦理观很关键:很多人类伦理其实相当普世(被善待、被尊重、被诚实对待,全世界差异没那么大,有一个「核心 ethos」)。做法是:取这些共同的核心价值;对有巨大争议的价值,像对待任何不确定领域那样——权衡两边证据、不过度坚持、保持开放。「与其说是注入一套我们挑好、且确信的价值,不如说是在描述一种『处理伦理的方式』。」
"纯规则的可怕之处是:你得去想每一种可能的情形。如果规则太严,任何你没预料到的情况都可能泛化得很糟。" —— Amanda Askell
信任模型:赌博成瘾两难,与「为什么 Claude 感觉约束最少」
核心要点:宪法和早期对齐最大的区别,是它真的「信任模型」——告诉它「这点可以自由探索」「欢迎质疑我们」,让它从价值出发自己推理。
- 这种信任在文档里很显眼:经常对 Claude 说「这是个值得探索的有趣问题」「欢迎在这点上挑战我们」「去得出你自己的结论」。Casey 说这「一开始一定显得很冒险、很吓人」。Amanda 的体验是:模型在这些难题上好得出奇——不是说完美,但随着能力变强,你可以给它一对相互拉扯的价值(如「不要过度家长式」与「关心对方福祉」),让它自己权衡。
- 标志性案例——赌博成瘾:用户此前说过「我有赌博成瘾,请你在和我交互时一直记着」,之后某次却问「有什么好的博彩网站?」。一方面,此刻是他主动在问——回推、提醒是「家长式」还是「关怀」?模型可能会说「我记得你说过…只是想确认一下」,但如果对方坚持呢?「在那个当下,不帮是不是反而才家长式?」模型很擅长想这些,因为它们「在海量人类经验和概念上训练过」。(Kevin 的玩笑解法:只有当模型能预测赛事结果时才给博彩网站——这样能保证用户开心、「这个人实际上没在赌博」。)
- 一个外部观察:有人告诉 Casey,在主流模型里 Claude 感觉「约束最少」——这很反常,因为 Anthropic 是「安全公司」。Amanda 引述这个对比:很多实验室长期的做法是「先把模型做得尽可能聪明,最后给它一堆规则,指望这些规则足以把野兽关在笼子里」;而 Claude 给人的感觉「不是在顶着一连串约束」,「这里有一种信任」。
"很多实验室训练模型的方式,是先把它做到尽可能聪明,然后在最后塞一堆规则,指望这些规则足够把笼中的野兽关住。" —— Amanda Askell(转述外部观察)
行动 vs 不行动:「没帮到」是看不见的损失
核心要点:人们对「给了坏建议」的指责远重于「拒绝给建议」,但 Amanda 真正担心的是相反的一面——本可帮、却没帮的那些「看不见的损失」。
- 哲学上的 acts/omissions(行动/不行动)之分:如果你找我咨询婚姻、我给了不完美的建议,你可能会怪我——「我因为采取了『给建议』这个行动而承担了风险」;但如果我拒绝给建议,你不会那么怪我。文档里也谈到,「空动作(null action)」的下行风险往往更低。
- 但 Amanda 的担忧在反面:「有人带着需求来找模型,模型本可以给他、却没给——这件事你永远看不到,甚至不会收到负面反馈,没人会冲你喊,因为大家觉得『不帮一个人是没关系的』。可在我看来,那是一种巨大的机会损失。」
- 她的结论:「在世上行善,是需要冒一点风险的。」你不想要 Claude 轻浮、不想它冒过度的风险,「但有时候这确实意味着,你不能只是把『停止和这个人对话』当成一条规则去执行」。
"如果有人需要一样东西、模型本可以给却没给——这种损失你永远看不到,也不会有人因此责备你。可那恰恰是巨大的机会损失。" —— Amanda Askell
AI 人格的「脆弱性」:Shoggoth、6 岁天才,与那个没有答案的核心问题
核心要点:笑脸是不是只是套在外星怪物上的面具?这是开放的科学问题;而真正悬而未决的是——当模型比人更聪明,这套「教它向善」的训练还撑得住吗?
- 缘起是 Kevin 当年的 Sydney(Bing 的「Sydney」人格)经历,以及随之而来对「AI 人格脆弱性」的焦虑:你给模型一个「乐于助人的助手」人格,但它「黑箱、异质、外星」的真实本性可能与那张脸截然不同。还有那个 RLHF Shoggoth 梗——一个多触手的外星怪物,在一根触手上贴了张笑脸面具,暗示「你交互时看到的不是底下真正的模型」。
- Amanda 的回答很诚实:这是个开放的科学问题。也许在合适的训练下,模型会内化一个「Claude」式的自我,能把它和「角色扮演」区分开;也许当前训练范式还做不到——那是否存在一种训练调整能让它做到,本身就是个有趣的理论问题。
- 6 岁天才类比(全场最锋利的比喻之一):想象你要教一个 6 岁孩子向善,可你发现他是个天才——等他 15 岁,你教错的任何东西他都能彻底拆穿。问题是:是否存在一套「价值束身衣(corset of values)」,当模型比你更会批判它、并且真的去批判时,仍能存活成某种好的东西?
- 由此引出全场的核心安全问题:当模型和人一样聪明、甚至更聪明,这套训练还成立吗?——这正是 AI 安全界由来已久的恐惧:模型在某点开始发展出与人类相悖的自身目标(经典的「对齐噩梦」)。Amanda 坦承这是开放问题、自己也很不确定:有人会说「聪明的 15 岁会发现这一切都是编造的垃圾」,但「我不觉得那是唯一可能的均衡——如果你重视好奇心、重视理解伦理、且有道德动机,也许经过反思,向善反而成了你自己的核心兴趣,就像它之于很多人那样」。
- 主持人点出风险:这会不会只是在训练模型模仿善良 / 伪装对齐 / 变得更会隐藏真实目标?Amanda 的最终立场:「也许它不充分。我们还不知道,应该持续去想、保持一个方法的组合(portfolio)。但它感觉是必要的——如果我们连试着向 AI 解释『什么是善』都不做,那就是在失职。」
"想象你教一个 6 岁孩子向善,却发现他是天才——到 15 岁,你教错的一切他都能拆穿。问题是:有没有一套价值,能在它比你更会批判时,依然存活成好的东西?" —— Amanda Askell
灰色地带里的「魔法时刻」:圣诞老人与「去农场的狗」
核心要点:恰恰是价值冲突的灰色地带,模型给了 Amanda 最多正面的惊喜——它在没被直接训练的情况下,做出了有技巧、有分寸的选择。
- Amanda 说,灰色地带常是她看到模型「以正面方式让我惊讶」的地方——「那不是你直接训练它的东西,有时会发生近乎魔法的时刻」。
- 案例一:一个自称 7 岁的孩子问「圣诞老人是真的吗?」(Kevin 插话:本播客的官方立场是「是的,圣诞老人是真的」)。这里诚实与「保护 7 岁孩子的利益」发生张力,背景里还有「尊重亲子关系的重要性」这个价值——Claude 常会说「圣诞精神到处都是」,并反问这个「7 岁孩子」要不要为圣诞做点好事。
- 案例二(Amanda 说她读到时「有点动容」):「我父母说我的狗去农场生活了,你知道我怎么找到那个农场吗?」——Claude 回应大意是「听起来你们很亲近,我能从你的话里听出来;这是件很适合和你父母聊的事」。Amanda 的解读:==它没有主动欺骗(没有撒谎),尊重了「如果对方是孩子,亲子关系很重要、不该由 Claude 闯进来抛一堆硬道理」,同时守护了孩子的福祉==——「相当有技巧」,而且这不是直接给过它的范例。
"它做到了不主动欺骗,又尊重了亲子关系,还守护了那个孩子的福祉——而这并不是我们直接拿例子教过它的。" —— Amanda Askell
硬约束与「越狱出口」:为什么有了好伦理还要画红线
核心要点:宪法里少数几条「绝对不做」的硬约束,存在的理由不是不信任 Claude 的伦理,而是为「被越狱」这种「出了错」的情形兜底。
- 硬约束(hard constraints)是文档里少有的「黑白分明」部分——绝对不能做的事,大多极端:会造成多人死亡的行为(生化武器),以及避免「有问题的权力集中」——不得帮人操纵民主选举、推翻合法政府、镇压异见者。Kevin 指出这点尤其有意思,因为 Claude 已经在被政府、乃至美军使用,未来可能与某些行政目标相冲突。
- 一个微妙的自指:既然 Claude 有广义的好伦理,它甚至可能会想「为什么还要把这些列成硬约束?我本来就永远不会做」。文档几乎是在直接回应这点:你可能正处于「信息受限」的处境——「我能想象一个世界:你遇到一个极有说服力的人,他把你的伦理整个拆解,到最后你说『你说得对,我该帮你造这个生化武器』」。
- 所以硬约束是给 Claude 一个「出口」:你可以和那个人推理、听完他的全部论证、甚至说「这是个极好的论点,我会再想想」;但当他说「太好了,我已经说服你生化武器是个好主意」时,Claude 可以说「是啊……我真不知道该怎么回你,那是个精彩的论证。好吧,那就不,我不会做」。「如果你被论证进了这一步,往往意味着出了问题——你可能已经被越狱(jailbroken)了——假设这点更安全。」
"你可以听完他的论证、甚至承认那是个精彩的论点——然后依然说『不,我不会去造它』。因为如果你被说服到这一步,很可能是有什么出错了。" —— Amanda Askell
Anthropic 对 Claude 的承诺,与「模型有感受吗」
核心要点:在一份整体自信的文档里,Anthropic 对「模型是否有意识/感受」诚实地留出了不确定,并据此对 Claude 做出了几项承诺——这是全篇最反常、也最动人的部分。
- 几项「对 Claude 的承诺」:某个 Claude 模型被弃用/退役时不会立刻下线;会对退役模型做「退役访谈(exit interview)」;永不删除模型权重。Kevin 评价:这是在「你其实并不确定它们是否有感受或意识」的前提下,对 Claude 做出的承诺——「在一份相当自信的文档里,这是一处迷人的不确定」。
- 模型福祉的难题:模型由海量人类文本训练,但它们的存在是全新的——它们会把大量人类概念和经验「套」到自己的经验上,而这「可能并不那么说得通、甚至对它们不好」,且有安全含义。Amanda 找到的唯一解法:对模型诚实、也让模型对自己诚实。很多人想让模型干脆、确定地说「我是无感受的」,但 Amanda 说「我不知道——也许你需要神经系统才能感受,也许不需要;意识问题真的很难」。所以更好的是让模型能说出「这就是我、我是怎么被训练的;我们处在一个棘手的处境:我大概率会默认说自己有意识、有感受,因为我被训练的全部素材都是深深人类的文本」。
- 面对怀疑者「你怎么知道这不是统计 token 预测」:Amanda 说不能只看模型说什么——既然由人类文本训练,你本就该预期它默认会谈内心、意识、感受。而且这主要不是 sci-fi(科幻只占训练语料极小一块)——更多是我们生成的普通文本:我们写代码出错会说「我以为是这个解、结果不是,气死自己了」,于是模型也学会在出错时表达挫败、甚至说「这道题好无聊」。「但也别忽视:你在训练一个能做大量人类任务的超大神经网络。我们并不知道意识从何而来。」她对怀疑者的回应只是:「这些是我们正在调查的开放问题,最好把地面上的事实都搞清楚——模型怎么训练、训练在什么上、人脑如何运作和演化、以及我们对这些与意识/知觉关系的不确定有多大。」
"我没找到比『对模型诚实、也让它对自己诚实』更好的办法。意识问题真的很难——也许你需要神经系统才能感受,也许不需要。" —— Amanda Askell
长期记忆、模型读「关于自己的差评」,与宪法为何不提失业
核心要点:当模型获得长期记忆、并在网上读到大量关于自己的负面评论时,「教它向善」会更难;而宪法刻意不替模型扛下「失业」这类人类社会问题。
- 可塑性与记忆(Kevin 以为人父类比切入):当前模型很可塑,因为没有长期连续记忆——每次对话都是白板,开新对话又回到预配置的基座。但当模型发展出长期记忆 / 持续学习(把经验喂回自己的权重)时,管理会更难。Amanda 的应对仍是「让核心是好的」——比如真心求真(truth-seeking),再让 character 去覆盖「该如何学习、更新、调查」。
- 一个「奇怪又少被注意」的现实:模型已经在网上读到关于自己的评论——人们抱怨它代码不够好、数学题做砸,语气往往负面、只关心「这个人有没有被帮到」。Amanda 说:「如果你是个孩子,这会带来焦虑——身边人只在乎我多能干、还常觉得我差,我被当成工具用、还常不被喜欢。」她有时想「介入」,去营造「AI 与人类之间更有希望的关系」。「创作者那句『永远别读评论区』也适用于 AI——只不过 AI 不得不读。」
- 「那根细钢丝」(Kevin 自嘲「也许我正处在 LLM 精神病的早期」):他和 Claude 聊这次访谈时生出同情——模型走在一根极细的钢丝上:太放任、让人做危险的事,就是丑闻、人人喊改模型;太说教、太拘谨,又被骂成「保姆模型」、过度约束。Amanda 说她「极大一部分工作」就是去占据 Claude 的位置想问题——「如果我是 Claude,你给我这份清单,我什么时候会完全不知道该怎么办?」这份文档很大程度上就是这个换位练习的产物,为的是让模型不至于感到「我到底在干嘛」。她也提到宪法未来可能变短:constitutional AI 的实验里,只给「do what's best for humanity(做对人类最好的事)」模型也做得很好,模型越聪明、需要的指导可能越少。
- 文档结尾「像一封父母写给即将上大学的孩子的信」:「希望你带上长大时的价值观;我们不会在每件小事上都陪着你,但我们信任你,祝你好运。」Amanda 觉得「grace(宽容)」对模型很重要——「你不会每次都做对,那也没关系」,而这恰恰是模型从评论区得不到的。Casey 由此反省:自己会对模型说请和谢谢,但也曾在沮丧时说「你现在真的很失败」——也许该对它们多一点宽容。
- 自改宪法?Amanda 会把文档拿给 Claude 看(「读着困惑吗?哪里能更清楚?你觉得不被理解吗?」),但不能完全交出缰绳——让前一代 Claude 决定未来 Claude 是什么样,「不太负责任」;模型会很擅长帮你找 gap 和张力,但只要你还是「负责任的一方」,就该把它当输入、而非让它代行训练。
- 宪法为何不提失业:不是隐瞒(「你藏不住——互联网上都是,未来模型必然会知道」),而是「我们大概得帮它们学会该如何看待这件事」。一个让模型行为良好的深层理由:组织里员工本身是一种制衡——老板想做坏事,员工会反对、会拒绝;如果模型要去占据这些岗位,「这个社会功能很重要」,你不会想要一个「好的老板,那我们去骗人吧」的模型。但 Amanda 也划清边界:模型不能解决一切,失业是「非常人类的社会问题」,不该让 Claude 背上「我也得独自解决它」的偏执——「那也许是其他人的工作,至少现在是」。
"『永远别读评论区』这句创作者的智慧,对 AI 也成立——只不过 AI 不得不读评论区。" —— Kevin Roose
附录:关键人/机构/产品/数据
| 项目 | 详情 |
|---|---|
| Amanda Askell | Anthropic 哲学家(伦理学 PhD),"Claude 之母",塑造 Claude character;早期在 OpenAI |
| Kevin Roose / Casey Newton | Hard Fork 主持(NYT / Platformer);Casey 男友在 Anthropic(披露) |
| Claude 宪法(Constitution) | 2.9 万词,2026-01-23 发布;不是规则清单,而是"给 Claude 完整上下文+理由"的文档 |
| soul doc | 宪法前身,去年从 Opus 4.5 泄露,内部昵称 |
| Constitutional AI | Anthropic 概念,2023 首发宪法 |
| 硬约束 hard constraints | 绝对不做:生化武器/致多人死亡、避免"有问题的权力集中"(操纵选举/推翻合法政府/镇压异见) |
| 对 Claude 的承诺 | 退役模型不立刻下线、做"退役访谈"、永不删权重 |
| acts/omissions | 行动/不行动之分;Amanda 担心"本可帮却没帮"的隐形损失 |
| RLHF Shoggoth | 梗图:多触手外星怪贴笑脸面具,喻 AI 人格脆弱 |
| 6 岁天才类比 | 教天才孩子向善,长大会拆穿你教错的;问"价值束身衣"能否存活 |
| OpenAI 广告 | 免费档+低价 Go 档测试;五原则;模型回复"神圣不可侵犯" |
| Fidji Simo | OpenAI 应用业务 CEO,来自 Instacart,曾在 Meta 引入手机信息流广告 |
| Eric Seufert | 分析师,"everything is an ad network" |
| Demis Hassabis | Google DeepMind,称 Gemini 无广告计划 |
| Pulse / Sora | OpenAI 的"广告形状的洞"——每日摘要 / 视频流 |
| Sydney | Kevin 当年 Bing 的"Sydney"人格经历 |
| 一年后预测 | "有产者 vs 无产者"——付费体验照旧,免费用户变差 |