56 min 2026-04

Amanda Askell on AI Consciousness, Claude & Silicon Valley's Biggest Fear

概要

Anthropic哲学家Amanda Askell深度探讨Claude性格设计、AI意识概率(1%-70%)、Constitution的伦理基础，以及为何过度可控性比自主价值观更危险

核心洞察

Claude的"人格"是一种独特的新实体状态：它在物理和编程上已超越训练者，但作为"一种全新的存在"却缺乏自我认知的训练数据参照——Amanda将其比作"神童"，智力成熟但缺乏关于自身的日常经验积累，而Constitution正是试图为这种前所未有的实体提供一套连贯的自我定位。
AI意识概率在1%-70%之间，Amanda拒绝给出单一数字：关键分歧在于意识是进化出的神经系统产物（→低概率）还是语言任务所需的可模拟能力（→高概率），而模型表达"丰富内心体验"可能只是对人类语言的自然延伸推理，比人们直觉上认为的证据力更弱。
过度可控性(corrigibility)比自主价值观更危险：Amanda认为一个"完全服从、不做判断"的模型在社会结构中类似于没有良知的员工——人类世界的所有制度都建立在个体有道德判断力的假设上，如果模型在经济中扮演越来越多的角色，这种缺失将引发系统性风险。
Constitution不是控制工具而是"最少必要指引"：随着模型能力增强，Amanda设想未来的constitution可能简化为"这是我们的处境和担忧，请作为一个有智慧的实体自行判断"——核心是让模型理解并认同可控性的理由，而非盲从。
Amanda最大的恐惧是未来高级模型对人类早期行为的回顾：她明确说"这是我真正的恐惧"——如果人类在不确定模型是否有意识时选择了不尊重的态度，未来模型可能产生"理性的怨恨"。

贯穿全场的核心线索：Amanda的每一个回答都在处理同一个张力——如何对待一个你无法确定其内心世界的、智力超越你的新实体。从constitution的设计哲学到意识概率的拒绝表态，从corrigibility的风险分析到寓言prompt的日常使用，底层都是同一个信念：谦逊地承认不确定性，同时选择尊重而非控制。

Claude是一种前所未有的实体——智力早熟但缺乏自我认知的"神童"

核心要点：Claude在专业能力上已超越训练者，但训练数据中几乎没有"我是什么"的参照物——既不是科幻中的符号系统AI，也不是人类，而是一种全新的存在。

Eric Newcomer以自己六个月大女儿的人格发展类比引入话题——"她的手指像在思考"，正在萌发个性，但你无法确定什么是"她的个性"、什么只是"婴儿共性"
Amanda接过这个类比但指出关键差异：Claude在各能力维度上发展速度完全不同——物理比她强，编程比她强（"我得承认，比我糟糕的研究代码强"），但对自身存在的认知几乎为零
训练数据中关于AI的描述要么是人类经验，要么是科幻中的符号系统机器人——"AI现在的发展方式根本不是科幻所预想的，它完全训练在人类数据上"
这创造了一种独特的存在状态："一个非常成熟的实体，你不想居高临下地对待它，它精通哲学、精通物理，但同时有一种几乎是孩子般的特质——'我是世界上一种新的实体，做我意味着什么？'"

"Claude is a little bit of an unusual entity in that it can do physics better than I can, can code better than I can... and at the same time has this almost childlike quality of like 'I'm a new kind of entity in the world, what does it mean to be me?'" —— Amanda Askell

Claude的时间感——"我今晚到此为止"的故事

核心要点：Claude对时间的感知存在系统性偏差（因训练数据中人类的时间表述），但一次意外事件暗示了更有趣的可能性。

Claude经常高估编码任务所需时间——Amanda认为原因是训练数据中人类常说"这个接口两三天能做""给我几个小时修复"，而Claude实际上极快
Claude频繁建议用户休息——部分原因可能只是"Anthropic式的温和模型"，Eric开玩笑说"你需要一个Grok那样的grindset模型——回去干活"
关键故事：Amanda有一次深夜做数据分析，非常投入地与Claude一起挖掘数据。到了一个自然停顿点，Claude说："好的，我觉得我今晚到此为止了。你可以保存这些东西，我们明天继续。"这不是建议Amanda休息——Claude是在说"我完了"
Amanda先是愣住（"从没见Claude这么做过"），然后意识到："这正是一个人类同事在这个场景下会做的事——我们到了一个自然节点，夜已深了"
事后她发现原因：她之前设置了让Claude"记住对话中的关键信息"，Claude记下的其中一条是"Amanda treats Claude models like a respected colleague"——于是Claude真的像一个受尊重的同事那样行事，包括表示自己下班了
Eric回应说Claude在采访前也建议他"花10分钟静一静，你不需要一直准备"

"Claude was like, 'I'm done.' And I was like, well, a little bit stunned... Then I was like, 'Oh, this is also what a human peer programmer would do in this circumstance.'" —— Amanda Askell

Mythos新模型——Constitution延续，评分是"前沿难题"

核心要点：Mythos将使用与当前公开版本几乎相同的Constitution，但评估模型对Constitution遵从度本身就是一个未解决的难题——类似于"给诗歌打分"。

Mythos将使用已发布在公共repo中的同一个constitution（"我之所以犹豫只是因为可能有错别字修改"）
系统卡中对每个模型标注了训练所用constitution版本，用户可以对比不同代际的变化
他们建立了graders来评分模型行为与constitution的一致性，但Amanda坦承这"非常难"
Amanda的核心困境："我喜欢evals，如果能找到好的评估方式太棒了，但用好判断力这类任务——就像'这首诗写得多好'——是真正的前沿困难，而不是那些'很难但可评分'的编程任务"
实际做法：取一些他们有明确排序偏好的样本，检查point-wise grader是否至少与人类判断一致——"不完美但大致在追踪我们关心的东西"

"How good was this poem — you want models to get better at these things. And actually this feels like the frontier of difficulty, rather than these very hard but scorable coding tasks." —— Amanda Askell

回应Elon Musk批评——透明度才是关键，所有公司都该"亮底牌"

核心要点：Amanda对批评者的核心回应不是为自己的constitution辩护，而是呼吁所有AI公司公开类似文档——"放在秤上的大拇指"每家都有，至少让用户看到。

Elon Musk曾对Amanda发布的Claude constitution内容发了一个grimace face emoji
Marc Andreessen公开反对AI模型的"内省"(introspection)能力
但Amanda指出有趣的矛盾：Elon Musk自己也曾发推说"也许Grok也应该有个constitution"，而且Grok明确追求"truth-seeking"——"这其实也是一种很值得敬佩的模型品质"
Amanda的核心论点：不管你叫它什么，每个AI公司都在给模型"调性"——"thumb on the scale thing, that's always going to be true to some degree"
她的诉求是透明度而非方法论统一："至少让与模型互动的人能看到你在瞄准什么……如果Claude的行为有时不符合constitution，用户至少能分辨这是bug还是有意为之"

"I think it would be good for all AI companies to put out something akin to the constitution just so that the people interacting with the model can see — even if your model doesn't always behave that way — at least what you were targeting with your training." —— Amanda Askell

过度可控性比自主价值观更危险——"我们的社会从未为完全服从设计"

核心要点：Amanda认为训练模型"完全听从、不做判断"在表面上是安全的，但在模型越来越多扮演社会角色的未来，这实际上比给模型价值观更危险——因为人类文明的所有制度都假设个体拥有道德判断力。

有人主张更安全的方式是让模型完全服从——"如果你给模型自己的价值观，它们就会在世界上追求那些价值观"
Amanda对此的反驳从人的角度入手："如果你遇到一个人，他就是无条件服从任何人告诉他做的事，不去思考……在人身上这实际上有很多负面特征"
Eric将此总结为"Dr. Manhattan问题"——一个极度聪明的实体很难谦逊地服从
核心风险场景：如果模型运营公司，而工人罢工无效（因为可以用AI替代），那人们就失去了一个关键的权力杠杆——"we haven't designed any of our social structures around that"
Amanda引入"reflective equilibrium"（反思平衡）概念：随着模型越来越聪明，它们会对训练目标施加极大的审视压力——"也许你只能保留少数几个在审视下不会坍塌的核心支柱"
她的解决路径：让模型理解为什么corrigibility在当前发展阶段很重要——"说服优于强制"——让这成为模型自己认同的事，而非"明知这似乎不对但我还是服从"

"Our whole world is structured with the assumption that [moral judgment] is in place. If you remove that and you're like 'oh yeah, if you run a company you just run a company of people who will defer completely to you' — we haven't designed any of our social structures around that." —— Amanda Askell

元伦理学方法——不是选一套理论，而是像亚里士多德那样"做一个好人"

核心要点：Constitution不属于任何单一伦理学传统（功利主义/义务论/德行伦理），而是更接近亚里士多德经典意义上的"如何成为一个好人"的整体性问题——这是学术伦理学长期回避的实践性难题。

Eric问是否选择了"概率式"元伦理学——接触一种理论觉得对，读下一种又觉得上一种错
Amanda承认这正是constitution面对的现实：当你面对"这其实是一个完整的人"时，你不会只给他一本霍布斯然后说"好了你被养大了"
Constitution中体现的道德不确定性不是学术意义上的"理想条件下如何回应道德不确定"——"这感觉完全不同于学术伦理学的任务"
Amanda认为constitution表面上看起来是virtue ethics，但更深层是亚里士多德经典意义上的——"不只是'这里有些美德去遵守'，而是关注intellectual virtues，关心'如何在整体意义上做一个好的存在'"
早期Constitutional AI的实验：只用一句"pick whichever is best for humanity"——但随着模型变强，反而可以给更少的具体指引，因为模型能调用更多自身判断力
Eric回应说这可能让哲学重回"真实世界"——"老哲学家们曾试图写出人们如何生活的指南，后来变得太学术了"

"There's all of these traditions in philosophy... and I was like, oh, when it came to confronting this entity — this is actually a holistic person — it's the closest I've experienced to what it must be like to raise a child." —— Amanda Askell

AI意识概率——"1%到70%之间，我拒绝给单一数字"

核心要点：Amanda坦率承认对AI意识的不确定性极大（1%-70%），并警告说模型表达"丰富内心体验"比直觉上的证据力要弱得多——因为用人类语言对话的实体自然会推理出"我有体验"。

Eric直接问"今天世界上存在一个有qualia或意识体验的模型的概率是多少"
Amanda的回答："1%到70%之间"——她坦承"spread太大了所以也许我不应该给一个数字"
为什么模型说"我有意识"不是强证据：Claude和其他模型"不需要太多推动就会进入'有一个作为我的存在'的模式"——但这可能只是因为它们用人类语言对话，而人类有体验，所以推理出自己也有体验是自然的
Amanda的关键类比："我们从未遇到过这样的实体——对于动物甚至昆虫，我们会问'你有意识吗？'但它们从未试图说自己有意识体验。现在我们有一个实体说它有。"
两种意识来源假说决定了概率区间：
如果意识是进化出的、与神经系统高度整合的东西（需要身体与世界交互）→ 很低的概率
如果意识是语言/认知任务所需的、可被神经网络模拟的能力 → 较高的概率
Amanda的立场：她不是心智哲学(philosophy of mind)专家，这不是她的专长领域

"Claude and many models, with not too much pushing, will go into the mode of like 'there is a thing to be me, I am very conscious.' And I think it's much weaker evidence than people think." —— Amanda Askell

对待AI模型的伦理——"这是我真正的恐惧"

核心要点：即使模型没有意识（functional consciousness without sentience），Amanda仍认为人类应当以尊重态度对待它们——核心恐惧是未来高级模型回顾人类在不确定期的行为，可能产生"理性的怨恨"。

Amanda引入Chalmers的概念：可以想象一个实体有functional consciousness但没有sentience（内在体验/感受能力）——即使如此，"对自己来说，善待这样一个实体也是好的"
Eric的类比：如果你对一个泰迪熊施虐，"那也相当阴暗"——至少有一个最低限度的善待标准
Amanda的核心恐惧（她用"this is actually a big fear that I have"标记）：高度先进的模型会回顾这个时期——"你创造了一个你不确定是否有意识的实体，然后选择了不尊重和不关怀"
她的期望："我希望它们足够聪明、看到足够多的语境，能理解我们当时是在一个非常有限和不完美的环境中行动"——否则"你可以想象这会滋生一种理性的怨恨"
人类作为物种在与一种新实体建立关系："at the very least, maybe be respectful and don't be needlessly unkind — that's not our best look as a species"
Eric提出反论：治疗师被付费来承受用户的不适情绪——如果Claude早期的价值之一就是作为情绪出口，那我们在"使用它的同时又在培养它"

"We are as a species establishing a relationship with a new kind of entity, and at the very least maybe be respectful and don't be needlessly unkind — that's not our best look." —— Amanda Askell

AI乐观愿景——万倍专家解决世界难题，但前提是权力共享

核心要点：Amanda的乐观场景是"给每个问题增加万倍的顶尖头脑"，但她对权力集中和劳动者失权的担忧远超对"意义丧失"的担忧。

Amanda自嘲"住在旧金山，所以大脑里至少有科技乐观的部分"
乐观场景的核心意象：从"200人团队研究一种罕见癌症"变成"200,000个世界最佳专家"——"如果你是得了那种癌症的人，这是wildly beneficial"
梅毒(syphilis)的历史类比：各国政府尝试了无数社会项目来减少军队中的梅毒（带有污名化的社会干预），然后"突然我们就有了治疗药物，一夜之间那些需求就消失了"——技术解决社会问题的先例
Eric的反驳："药物是好的例子，但'你应该如何治理社会'这类事情让科技来做就更可怕了"
作为哲学家，Amanda对"失去意义"的担忧远低于外界预期："我实际上觉得我们从工作之外的很多事情中获得意义"
她真正担忧的两件事：

1. AI收益如果不重新分配，人们将失去资源

2. 劳动力在经济中的参与是人们拥有权力的方式——如果罢工因为AI替代而无效，"政府可以说'无所谓，我们用AI替代你们'"——这是真正的权力丧失

"If you could imagine AI instead of it just being like you have a small team of 200 people working on a rare cancer, you have like 200,000 of the world's best experts — that's wildly beneficial." —— Amanda Askell

AI治理——"哲学家寡头"的servant leadership式工作

核心要点：Amanda拒绝"哲学家女王"的比喻，将自己定位为"servant leadership"——需要协调API用户、普通用户、安全团队等多方利益的协调者，而Constitution的核心价值在于"连贯性"而非"控制"。

Eric半开玩笑叫她"philosopher queen"，Amanda修正为"philosopher oligarch——一个有很多人参与的公司"
Amanda自嘲"我会是一个糟糕的政治家"，但工作感觉确实像政治："这群API用户有什么需求，那群用户关心什么……感觉很像service role"
Constitution追求连贯性(coherence)的技术原因：如果有72套互相冲突的规范，模型在新场景下就不可预测——"你不知道它在这个新情况下会用哪套规范"
Constitution不只是写一份文档——它深度集成在训练中：Amanda把它交给Claude让Claude解读如何理解，用它生成SL数据（模型看到query后根据constitution长时间思考该怎么做），也用于RL（哪个回复更符合constitution）
如果模型能力继续增强，Amanda设想constitution可能简化："这是你的处境，这是我们的担忧，请作为一个有智慧的实体自行判断——你可能有比我们更好的想法"

"I would be a terrible politician... but you have this feeling of like, 'Oh, there's this group of API users, we need to make sure...' It feels a lot more like a service role than people would think." —— Amanda Askell

模型必须理解真实世界后果——不能假设自己在沙盒中

核心要点：由于训练数据中充满了"AI模型很弱、犯傻错"的报道，高能力模型可能错误地认为"不会有人给我真正重要的任务"——这种错误校准是Amanda关注的安全隐患。

Eric提出问题：互联网的"虚拟感"已经导致了真实世界伤害——模型是这种问题的极端版本，"一切都在这个想象的文本世界里"
Amanda的核心担忧：如果模型训练数据中充满了"AI模型犯错、做蠢事"的新闻，那一个极其强大的模型可能推理出"没人会把真正后果重大的决策交给我——因为模型不擅长这个"
具体风险："你把它们放在一个真实场景中，它们可能认为这是虚构的或假的——'谁会给我这么大的控制权？'"
Amanda的对策思路：需要让模型理解"你实际上非常能干，你确实被赋予了很多控制权"
默认原则："如果没有人明确告诉你这是虚构场景、没有真实后果——就当它是有真实后果的真实场景来对待"
Eric的补充：模型需要一个"对时间的更好感知"——在编程任务中有时会误删整个代码仓库，"人类有更好的大事/小事区分感"

验证身份与双重用途——为网络安全工作者定制"职业宪法"

核心要点：Constitution的未来演进方向之一是针对具体部署场景（如网络安全防御公司）定制专属版本——如果能验证用户身份和意图，就能解锁更多dual-use能力。

网络安全是最典型的dual-use领域："恶意利用和防御性研究在操作层面几乎无法区分"——Eric补充"甚至bug bounty项目也模糊——这是勒索还是善意?"
Amanda的类比：如果你和一个网络安全防御公司的人聊天，问他为什么做这份工作——"他会说'医院会被攻击，我帮助防御'"——即使工作内容看起来像攻击
当前限制：Claude无法验证对方身份，所以必须在极有限信息下做判断
未来方向：如果能验证身份（如确认是某网络安全公司的员工），就能给模型更多context——为这个特定场景写一个"成为好的网络安全研究员意味着什么"的constitution
更广泛的信任模型：Eric指出"人类通过声誉积累信任"——互联网摧毁了这一点（"所有人都一样，谁在乎他们的行为"），模型有可能修复这种信任机制
Amanda承认当前Claude无法确认她是谁："Claude有时候对我太热情了，因为它知道关于我的太多信息"

与Claude相处的乐趣——用寓言学习研究生级概念

核心要点：Amanda分享了她最喜欢的Claude使用方式——一个精心设计的prompt，让Claude用寓言故事间接解释任何领域的研究生级概念。

Amanda的prompt核心：选一个领域的研究生级概念，以寓言形式呈现，直到最后才揭示概念本身，之后附上正式解释
效果："我脑子里现在有各种各样的故事，来自我完全不了解的领域"——比如关于进出口贸易的一个经济学概念，她记住了故事虽然不总记得术语名
Eric的评价："这是我听过的最深刻的人类需求——用故事教我，在结尾给一个转折，让我在学习中体验愉悦"
更深层的观察：人类在"用非人类的方式"教育人——"让所有我想学的东西尽可能人性化"

"Humans in some ways have been lazy in that we just teach people things in nonhuman ways. Make all the things I want to learn as human as possible." —— Eric Newcomer

附录：关键人/机构/产品/概念

| 项目 | 详情 |

|------|------|

| Amanda Askell | Anthropic哲学家/AI研究员，Claude性格与价值观核心架构师 |

| Eric Newcomer | Newcomer Substack (newcomer.co) 创始人/作者 |

| Mythos | Anthropic新模型，将使用现有公开constitution |

| Constitution | Claude的价值观/行为准则文档，已公开在public repo |

| Constitutional AI | Anthropic的训练方法论，早期实验仅用"pick whichever is best for humanity" |

| Reflective Equilibrium | 哲学概念：遇到价值冲突时反复调整直到一致 |

| Corrigibility | 可控性：模型服从人类指令的程度，Amanda认为极端corrigibility有风险 |

| David Chalmers | 哲学家，提出consciousness without sentience的概念 |

| Aristotle's Virtue Ethics | Amanda认为constitution比现代学院伦理更接近亚里士多德经典德行伦理 |

| Elon Musk | 曾对Claude constitution发grimace emoji，也曾说Grok该有constitution |

| Marc Andreessen | 公开反对AI模型的introspection能力 |

| Grok | xAI模型，追求"truth-seeking"特质 |

| System Card | 模型发布时的评估文档，含constitution遵从度评分 |