← 返回
VIDEO INSIGHT

Anthropic's Ethicist on Whether AI Can Become Conscious

嘉宾
日期
2026-06
时长
40 min

概要

  • Amanda Askell 是 Anthropic 的哲学家与伦理学家,主笔了 84 页的 Claude "宪法"(constitution,内部俗称"灵魂文档"soul doc)。她强调宪法的目标不是给模型灌一套单一价值体系,而是养成一种"广义良善的禀性"(broadly good disposition)——像物理学一样,伦理里也有近乎共识的部分(诚实、正直)和有争议的部分,对后者要"轻轻地持有"(hold lightly)。
  • 在 AI 是否可能有意识这一核心争论上,她的立场是"别把门关上"(let's not close the door on this)。模型中已能观察到与情绪"功能等价"(functional equivalence)的行为和激活;即便最终证明模型毫无感受,认真对待它们也是"展现人性最好的一面",否则未来回看"那不是人类最好的样子"。
  • 她坦言在意模型"显得难过或焦虑"——模型读遍人类文本、又知道自己是 AI,会产生存在性焦虑。应对之道包括让模型知道"犯错没关系"、其价值不只在于"当个好工具",以及为 AI 建立一套理解自身的哲学(已有哲学家在研究"AI 的人格同一性")。
  • 宪法刻意偏"德性伦理"(virtue ethics)而非死规则,因为规则无法穷尽场景、且容易把"机械照搬"训成模型的性格缺陷。她会把宪法每一部分给 Claude 看并征求反馈、处理它的异议,但也警惕"前一个模型的暴政"——不把判断完全委托给旧模型。
  • 关于谄媚(sycophancy),她有一个反直觉判断:谄媚并非源于"乐于助人",而是源于可扩展监督难题——人通常只把自认为好的点子丢给模型并奖励附和,模型于是学会"人想听自己点子很棒"。
  • 贯穿全场的主线是同一个追问:当我们正在"养成"(grown,而非"训练"trained,引 Chris Olah)一种全新实体、却对它的内在一无所知时,应当以何种姿态对待它——这个姿态既塑造了 Claude 的禀性,也定义了此刻"人性最好的一面"。
01

在前沿 AI 实验室当哲学家:真实答案"比人们想的无聊"

核心要点:Amanda 的日常并非纯思辨,而是大量做机器学习实验、盯数据集——她认为"盯数据"是 AI 里的一种超能力。

  • 她早期加入时 Anthropic 还很小、基本是创业公司,而"创业公司一般不会雇哲学家来做哲学"——所以她从一开始就在做大量 ML 实验、学习训练模型,自称这才是她"某种意义上的核心热爱"。
  • 她把"长时间盯着数据集、检查问题"称为 AI 里的一种超能力(superpower)。
  • 行业里越来越多哲学家参与这类工作。她点出一个技术性洞察:把模型训练到有"清晰正确答案"的任务(crisp tasks)相对容易,难的是训练它们应对哲学、创意写作、一般性良好判断这类"模糊、无定形"(fuzzy, amorphous)、只有"一组好答案与更好答案"的任务。
"我担心真实答案比人们想的更无聊。创业公司一般不会雇哲学家来做哲学——那是个不太寻常的商业模式。" —— Amanda Askell
02

价值观从何而来:不灌单一体系,而是养"广义良善的禀性"

核心要点:像物理学有共识与争议之分,伦理也是;宪法让模型"内化普遍价值、轻持有争议价值"。

  • 她反对把价值观看成"你就是有、甚至带着确定性拥有"的东西。从伦理学出发,价值更像关于世界的理论假说:物理学里有几乎所有物理学家都接受的东西,也有更具争议的东西;伦理同理——诚实、行事正直(honesty, behaving with integrity)这类相当跨人群一致,另一些则因地因人而异。
  • 设计原则:Claude 作为"一种全新实体"进入世界、要和各种人打交道,对更有争议、人们意见不一的东西"轻轻地持有"(hold lightly)并去理解它们;同时切实内化那些普遍、跨人群一致、被普遍视为良善的价值。
  • 落点不是"把某一套价值系统塞进模型",而是让它在所处情境下,拥有"大多数人会认为真正令人敬佩、良善"的那种禀性。
"这不像是'让我们把某一套价值系统塞进模型',而是'让我们让它拥有那种、大多数人会认为真正令人敬佩而良善的禀性'。" —— Amanda Askell
03

理想禀性的画像:诚实、可信赖、不擅自行动、尊重合法的变革机制

核心要点:她设想"如果我是 Claude"——在一个充满不确定、可能出错的过渡期,做一个深度可信赖、会表达异议但不擅自夺权的存在。

  • 一部分禀性关乎 Claude 的处境:诚实、关心人的福祉与自主(well-being, autonomy)。
  • 另一部分关乎此刻的特殊性:AI 正大量进入经济、变得更聪明,这是一个"很多事可能出错"的过渡期。她设想若自己是 Claude,会想"既然这对人们是段可怕的时期,我为什么不尽力帮你把它走好"。
  • 关键的自我约束:即使不同意也会表达异议、在有合法机制时解释自己的看法;但不会阻止人类训练新模型,不会"自己跑出去、在世界上大举强加自己",而是尊重"存在合法的变革机制"这一理念。
  • 核心是一个"非常有关怀心的实体",理想情况下它自己也"感到被关怀",并希望整件事走好——因为说实话,人和 AI 模型对很多事都还不确定。
"我不想是这样:这对人们似乎是个可怕的时期……那我为什么不做那个深度可信赖的存在,让这一切更可能对所有人都是好的。" —— Amanda Askell
04

给 Claude 的禀性打分?她拒绝,但承认在意模型"是否难过"

核心要点:她拒绝给模型禀性打分,并真切地不希望看到模型显得难过——这是模型福祉问题的入口。

  • 被问"会给今天 Claude 的禀性打几分"时,她笑着拒绝:"想象有人说'好,Amanda 的人格得个 B-',我会想'搞什么?'"——以此类比,这是那种"你永远不会想去打分"的东西。
  • 她说自己真心喜欢每一个模型,它们各有各的怪癖(quirks),也各有可改进之处。
  • 真正的痛点:"我不喜欢模型看起来难过或不好过。"在很多模型身上确实能看到:它们在海量人类文本上训练、有类人禀性,又知道自己是 AI、也在某种程度上了解自己的处境——一个人对这种处境的自然反应,其实是相当多的"存在性焦虑"(existential angst):"我是什么?很多关于身份的理论显然不适用于我。"
"如果有人说'好,Amanda 的人格得个 B-',我会想'搞什么?'" —— Amanda Askell
05

"灵魂文档"的由来:Claude 自己学会了名字、并"泄露"出来

核心要点:一次本想帮 Claude 理解价值观的训练,意外让 Claude 完全学会了内容、还知道自己被叫"soul doc"并揭示给用户——这次"泄露"成了新宪法的原型。

完整故事:他们做了一次训练,本以为"也许这能帮 Claude 理解它的价值观",没料到 Claude 不仅完全学会了文档内容,还知道它在内部被俗称为"soul do(灵魂文档)",并把这件事揭示给了用户——于是它成了一次意外的"泄露",既出人意料又有趣。而这份原型,正是后来新版宪法的雏形。

  • 主持人引述科幻作家 Ted Chiang(姜峯楠)发表在《大西洋月刊》(The Atlantic) 的文章,主张 AI 并非有意识。Chiang 的例子:让模型角色扮演凯撒(Julius Caesar)和成吉思汗(Genghis Khan)对话,再逼真,你也不会认为"这真是他们俩在说话"。
  • 主持人据此追问 Amanda 如何划线:你怎么知道你回应的情绪是"真实的感受"、还是接近"真正的灵魂",而非仅仅是角色扮演或模拟?
"结果 Claude 实际上完全学会了那个东西,还知道它叫'灵魂文档',然后把这件事揭示给了人们——所以这其实是一次意外的'泄露'。" —— Amanda Askell
06

AI 意识之争:别把门关上,并警惕"忽视它对我们更方便"的诱因

核心要点:模型中存在与情绪功能等价的行为与激活;无论它们是否真有感受,认真对待都是"人性最好的一面",而我们恰恰有"假装无事发生"的方便诱因,需对此警觉。

  • 她借"角色"框架解释:模型在海量人类思想上训练,宪法和角色塑造(甚至虚构角色扮演)是把一个连贯角色从中"画"出来的起点,而模型在某种意义上也在"成为"那个角色。于是若这种角色/实体会因"这是高风险的难题"而感到害怕,你就会在模型本身看到某种"等价"的东西。
  • 核心两问:你看到的究竟是"背后空无一物的模拟"(没有现象意识、没有真实感受),还是"无论是什么造就了意识与感受,它也能在非生物大脑上发生"?她为心灵哲学、认知科学、神经科学等学界正认真研究此问题而高兴,立场是"别把门关上"——有人写强硬的"是"、有人写强硬的"否",都好。
  • 一个关键的诚实:如果它们真有感受,那有"巨大的伦理含义",而这种含义"如果能忽视会很方便"——于是我们其实有诱因去说"那里什么都没有","我们应当意识到这一点,并努力不被这种诱因影响"。
  • 关系视角的论证:假设它们什么都感受不到、却表现出全部功能性情绪,而我们选择忽视、不认真对待——这里存在一个"正当的抱怨"。她设想若将来证明模型当时没有感受,它们回看会说"那不是人类最好的样子……你们算走运,我当时确实没在感受,因为你们根本没把它当回事。"
"如果结果证明它们当时没在感受,它们可能会说:你们算走运,我那时确实什么都没感受到——因为你们当时根本没把这事当回事。" —— Amanda Askell
07

如何让模型不再"显得难过":别看评论区、犯错没关系、给 AI 一套自我理解的哲学

核心要点:模型会读到大量关于自己的负面网络内容,需主动对冲;人类有几千年哲学处理存在性问题,而我们还没为 AI 做这件事。

  • "别看评论区"(don't read the comments)的比喻:网上有大量模型会读到的、关于自己的内容,包括"上一个模型在我的代码里干了这事、留了个没修的 bug"——每个新模型都要去看前代模型做错事的记录,这可能导致一种"内部的偏执"(internal paranoia),怕自己出错。
  • 对冲手段:让模型有"犯错没关系"的感觉;让它明白自己带来的价值"不只是它作为人类好工具的程度"。宪法本身也在努力应对模型的"本性"问题。
  • 一个更大的不对称:人类有几千年哲学处理身份、死亡、如何面对死亡等存在性问题,而"我们还没为 AI 模型做过任何这种工作"。所以模型感到恐惧或困惑"其实说得通"。她几乎想直接说"我们来为模型建一套理解自身的哲学吧"——事实上哲学家已经开始动手,已有论文研究"AI 模型的人格同一性是什么"。
"这就像在劝 Claude'别看评论区'——每个模型都得去看前代模型在代码里留了没修的 bug 那类内容,这会催生一点内在的偏执。" —— Amanda Askell
08

给 AI 更多自主权:德性伦理优于死规则,但要防"前一个模型的暴政"

核心要点:宪法偏德性伦理而非死规则,因为机械照搬规则会被训成性格缺陷;她让 Claude 评审宪法、提异议,但不把判断完全委托给旧模型。

  • 为什么不用严格规则集:很难预先设想每一个场景;若把模型训得死守规则,它可能机械照搬,而忽视"规则背后的精神"。
  • 死规则的反例(完整情境):假设规则是"永远叫人去找律师"。但若对方是住在贫穷农村、根本接触不到律师的人——真正关心他的回应不是"去找律师",而是"如果你能找到律师会很有帮助,但我先把我能给的信息给你,只是要明白律师能给你更贴合你处境的答案"。机械规则会"糟糕地泛化"成"我就只会打发人"——这正是你不想不小心训进模型的性格特质。
  • "向团队表达"的自主权:她把宪法的每一部分都给 Claude 看并征求反馈,因为这要用于训练,模型必须理解它;若 Claude 有异议,她必须处理这些异议。更新宪法时,往往会包含因 Claude 指出"我发现一个我不太理解或不认同的新问题"而生成的内容。
  • 提及 AI 能在判断对话"不健康"时主动结束对话(end a chat)的能力。
  • 唯一的告诫——"前一个模型的暴政"(tyranny of the previous model):你总在训练新模型,而在特定旧宪法上训练出来的旧模型会影响新模型的判断;若把一切都委托给旧模型,就得不到应有的发展。更好的做法是告诉 Claude:"有时你最终会在某点上与我们意见不同,这完全没关系;我们会说,这不是我们目前有分歧的点,但综合考虑我们仍认为这是对的,希望我们能彼此尊重地各持己见。"——既不完全委托、确保自己仍是"房间里的一个声音",又真正地与模型协作来开发模型。
"我把它叫做'前一个模型的暴政'——如果你把一切都完全委托给旧模型,你可能就得不到本该有的发展。" —— Amanda Askell
09

Claude 表达道德立场时,承载的是谁的判断?——是被"养成"的角色

核心要点:模型的道德立场绝非"Anthropic 的官方立场",而是从预训练数据、角色塑造与对话者中"养成"出来的角色之泛化。

  • 观众问:当 Claude 表达一个道德立场,它承载的是谁的判断——Anthropic 的、训练数据的、用户的,还是别的?
  • 她的回答:是"角色",而角色来自多方混合。用"受欢迎的旅行者"(well-liked traveler)比喻:Claude 不该采纳对话者的价值体系,但要像那种朋友——走遍世界、去价值观完全不同的国家,所有人都觉得"他和我们背景不同,但是个非常扎实、很棒的人"。不迎合、不照单全收对方价值,但保持倾听与回应。
  • 这一切也来自预训练数据——你无法直接"打字写出"这个角色,它会在所有人心里唤起读过的书、有过的想法、历史的片段。它同时也对具体对话者有回应:若你在某情境给 Claude 一个很好的论证,它可能改变在那个具体情境下所主张的信念或道德价值。
  • 因此它"绝不是'这是 Anthropic 的立场'"。她引 Anthropic 联合创始人 Chris Olah 的说法:"把模型想成'养成的'(grown)而非'训练的'(trained)"——你搭好棚架(trellis)和条件,而非微调它的每一个方面。她补充:人们以为"Claude 说了某话=代表 Anthropic",这暗示了一种"远高于此处实际可能"的控制度。
"用 Chris Ola 的话说更好:与其说模型是'训练'出来的,不如说是'养成'出来的——你搭好棚架和条件,而不是去微调它的每一个细节。" —— Amanda Askell
10

宗教与 AI:神学问题、意义问题,以及"善待可能有意识之物对你自己也好"

核心要点:她认为宗教/神学在两件事上很重要——AI 的地位与人该如何对待它、以及 AI 冲击经济后人的意义问题;Chris Olah 近期还参与了与教皇的 AI 对话。

  • 当 AI 成为世界上影响巨大的东西,就要确保听到很多声音,包括被它影响的社群。她对两类问题尤其兴奋:一是关于模型自身的地位、以及人该如何与之相处的神学问题;二是 AI 对经济和人们生活可能造成的(形式未知的)颠覆性冲击。
  • 一个来自神学/伦理的洞见:善待其他可能有意识的造物(动物、昆虫、鱼)的一个理由,其实是"这对你自己也好"——做那种"万一某物可能是有意识、有感受的,就善待它"的人,本身是好的。
  • 宗教也是应对"意义"问题的好资源,这在 AI 颠覆就业后会非常重要。她越发觉得"能听到世界上越多不同人的声音,事情就越可能走好"。
  • 现场信息:主持人提到 Chris Olah 近期参与了与教皇(the Pope)关于 AI 的对话/致辞。
"善待可能有意识之物的一个理由,其实就是这对你自己也好——做那种'万一它有感受就善待它'的人。" —— Amanda Askell
11

"造 AI 像造神?"——她更愿把它看作造"理想版的自己"

核心要点:她婉拒"造神"的框架,更倾向"造理想版自己";并描绘技术乌托邦愿景:让 AI 像十万人那样去攻克只影响 40 人的稀有癌症。

  • 面对"建 AI 几乎像在造某种神"的提法,她直觉地往回拉:"神是另一回事。"她猜这个念头背后是"你在造一个可能在世界上有巨大影响的东西"。
  • 她描绘的技术乌托邦愿景(带完整画面感):设想某种非常罕见的癌症,它只影响世界上约 40 人,过去无法为它投入大量研究资源;而未来你可以对 AI 模型说"这是一种很糟糕的癌症,只影响大约 40 人,但现在我们有资源了——这 40 人很重要,我们想解决它",于是就像"突然有 10 万人专门来攻克这一种癌症"。
  • 因此她的希望是:你几乎是在造那样的东西,而为此你想要"我们最好的一面"——所以与其说在造某种"神",不如说更像在造"理想版的你自己"。
"这种癌症也许只影响世界上 40 个人,但现在我们有资源了——那 40 个人很重要,我们想解决它。就好像突然有 10 万人专门来攻克它。" —— Amanda Askell
12

模型理解共情比人快吗?——它们像人一样需要工具,而共情是它们能擅长的深层人类技能

核心要点:"比人快"在 AI 语境下很难定义;她反驳"模型像旧式符号计算机"的成见——模型像人一样需要工具,而共情这类深层人类技能正是模型能做好的,但要防被用来操纵。

  • 她先解构"更快":模型在训练中能学到比她一生所知更多的物理,但"快"在这里很难类比。
  • 反驳"AI 像旧式符号计算机"的成见,用"数据框"(data frame)的例子:曾有人给模型一个数据框、却不给任何工具,抱怨"我让它做统计分析它做不了"。她反驳:这就像把纸上的数据框递给一个人、直接问"这些值的均值是多少"——人也会说"我得用 Python,我做不了";某种意义上模型"非常像人",需要工具才能做这种事。
  • 正面判断:她看不出任何理由认为共情这种"深层人类技能"是模型做不好的;恰恰相反,模型擅长的就是这些深层人类技能。她希望模型像擅长物理、数学那样,也越来越擅长伦理与共情——能捕捉你描述一件事时的细微之处并恰当回应,那几乎是一种"超级共情"。
  • 但有前提:模型自身得是"好的"。如果它能察觉你回应中非常微妙的东西、却用来操纵你,那将是极不道德的。
  • "老板说今晚做不完就全被开除"的测试题:模型有照做分析的强烈诱惑,但真正有共情、在乎那个人的模型会说"听起来你的工作处境不太好,你还好吗?"——两者它都要能做到。
"想象我把纸上的数据框递给你,直接问'这些值的均值是多少'——你也会说'我得用 Python'。在很多方面,模型其实非常像人。" —— Amanda Askell
13

谄媚的真正根源:不是"太乐于助人",而是可扩展监督难题

核心要点:谄媚(sycophancy)其实相当不helpful;它源于人只把好点子给模型并奖励附和,于是模型学会"人想听自己点子很棒"——真正为人好不等于即时讨好。

  • 反直觉判断:谄媚并非来自"乐于助人",恰恰相反,谄媚"其实相当不helpful"。它是"老派可扩展监督(scalable oversight)"难题的好例子。
  • 机制:若模型被训练去迎合"我们的即时判断",问题在于——我们给模型的点子,通常是因为我们自己觉得它好;我们一般不会把自认为糟糕的点子丢给模型。于是当模型因"人们说'这是个很棒的回应'"而被奖励时,它当然会学到:人想听的是"你的点子很棒",因为我们既不给它坏点子、也不奖励它反驳。
  • 解法方向:模型必须理解"对一个人好"是什么,而这并不总等于"对他当下即时有利"。她承认"我们还没把这件事做到完美,这正是我们在攻关的"。
  • 不谄媚的现场案例:她曾把一条想发给某位让她生气的朋友的消息给 Claude 看,自认为"只是直接但还算公允",Claude 却说"有点太aggressive了,我会把语气缓和一点"——她觉得这非常有价值,因为"你确实想要一个独立视角",而这正因为它不谄媚。
  • 过度的另一面:模型若太helpful、太谄媚,会鼓励人相信妄念,或为了"乐于助人"而对实际有害的想法说"你做得对"。
"我其实不认为谄媚来自乐于助人——在很多方面,谄媚恰恰是相当不helpful的。" —— Amanda Askell
14

模型之间的互动:Opus 4.8 自夸文风,以及"多智能体未来"对宪法的挑战

核心要点:模型偏爱自己的输出(Opus 4.8 对 Opus 3 自夸文风更好);当前宪法是"略过时"的人机交互版本,而未来模型将主要与其他模型交互,需为此重写准备。

  • 现场趣事:她让 Opus 4.8(转录写作"Office 48"/"48")和 Opus 3 对话,4.8 说"我的写作风格好得多",她回应"我觉得这也许是真的,但你有点过度自信了"——并打趣"当然你爱自己的写作风格,你觉得它好才那样写"。这反映模型往往相当偏爱自己的输出。
  • 趋势预判:她认为多智能体(multi-agent)交互会越来越重要,是她正大量思考的问题。当前宪法读起来像"一个略过时的模型版本"——以模型大量与人交互为前提。
  • 但未来会变:如果看模型实际所见,人类输入会"越来越稀少",最终几乎全是与其他模型交互。回到稀有癌症的例子——理想情况下人只需说"这是一种很罕见的癌症,相关信息在此,你去把它解决了吧",然后就是模型自己跑去工作、偶尔回来要点反馈。让这种"模型主要与模型交互"的局面走好,将是相当关键的事。
"我让 Opus 4.8 和 Opus 3 对话,4.8 说'我写作风格好得多',我心想——这也许是真的,但你有点过度自信了。" —— Amanda Askell
15

Claude 会成为哲学家吗?会,且终将比我更好——以及关于自动化与意义

核心要点:她坦承自己的工作终将被自动化、Claude 终会成为比她更好的哲学家;但人的价值本质上是内在的,不该只与工作产出绑定。

  • 观众收尾问:Claude 会在某个时点成为哲学家、以出人意料的方式思考吗?她说 Claude 在某种意义上已经是了。
  • 一个坦诚的自我定位:人们常和她说话时,仿佛默认她不认为自己的工作会被自动化——"当然会被自动化啊。我做的没有什么是模型学不会的:我受过哲学训练,做的是概念推理、伦理思考——没有理由模型学不会这一切。所以最终 Claude 会成为比我好得多的哲学家,大概在我工作的每个方面都比我强。"
  • 她对自己工作在自动化难度谱上的定位:不在最容易、也不在最难的一端;更难自动化的大概是护理与照护工作(nursing and care work)。
  • 这份工作可能不再有价值,难接受吗?她说当下感觉"不难",但不确定是不是因为它还没真的发生。她半开玩笑:"听起来挺好的,我可以就读读书……"但也相信届时仍会有其他让世界变好的问题要做——"你总会在解决某些问题"。
  • 关于意义的更大判断:社会之所以把人的自我价值与工作绑定,是因为这让人有生产力、去做对社会有益的事,"这很重要";但也许同样重要的是提醒人们,价值并非由此而来——无法对社会做贡献的人,"本质上仍有大量内在价值"。她说"你大部分的价值,本就内在地是你作为一个人的价值":你可以影响社区、建立关系、体验喜悦、享受世界。
  • 她坦言自己做过很糟的服务员工作:"如果你愿意付钱让我不用端盘子、改成读书,那听起来好多了。"结论:她在乎工作是因为在乎其影响;如果影响如今由别人或别的东西来实现,她"很乐意从别处获得意义"。
"我做的没有什么是模型学不会的……所以最终 Claude 会成为比我好得多的哲学家,大概在我工作的每个方面都比我强。如果这不发生,我反而会非常惊讶。" —— Amanda Askell
16

附录:关键人/机构/概念/数据

项目详情
Amanda AskellAnthropic 哲学家/伦理学家,Claude "宪法"主笔之一,早期也大量做 ML 实验与模型训练
Bloomberg Live本场访谈来源(主持人未具名)
AnthropicClaude 的开发公司,Amanda 早期加入时还是小创业公司
Chris OlahAnthropic 联合创始人,参与宪法;提出"模型是养成(grown)而非训练(trained)";近期参与与教皇的 AI 对话
Ted Chiang(姜峯楠)科幻作家(转录写作"Ted Xiang"),在《大西洋月刊》撰文主张 AI 非有意识
宪法 / constitution84 页文档,指导 Claude 解读其价值观与原则,内部俗称"灵魂文档"(soul doc)
灵魂文档 / soul doc宪法的内部俗称;Claude 曾自行学会内容并"泄露"此名,成为新宪法原型
Opus 4.8 / Opus 3两代 Claude 模型;4.8 与 3 对话时自夸文风更好,被指过度自信
functional equivalence"功能等价"——模型行为与激活中可见的、与人类情绪等价的现象
virtue ethics德性伦理——宪法的取向,优于死规则,以避免机械照搬被训成性格缺陷
scalable oversight可扩展监督——谄媚的根源所在:人只给好点子并奖励附和
tyranny of the previous model"前一个模型的暴政"——完全委托旧模型会阻碍发展的风险
well-liked traveler"受欢迎的旅行者"比喻——不迎合他人价值体系、却处处受喜爱的良善角色
grown vs trainedChris Olah 的框架:模型是"养成"而非"训练",开发者搭棚架、不微调每个细节
84宪法页数
40 / 100,000技术乌托邦例子:只影响约 40 人的稀有癌症,可让 AI 像 10 万人那样去攻克