2025-10

大语言模型是死路一条 | 强化学习之父Rich Sutton

概述

引言：一场关于智能本质的哲学性追问

在人工智能（AI）技术迅猛发展的今天，大语言模型（LLM）已成为公众视野中的明星。从ChatGPT到通义千问，这些系统凭借其惊人的语言生成能力、上下文理解与多任务处理潜力，迅速渗透至教育、写作、编程、客服等多个领域。然而，在这场技术狂欢的背后，一位被誉为“强化学习之父”的思想家——理查德·萨顿（Richard Sutton），却提出了一个极具冲击力的观点：大语言模型是一条死路。

这一判断并非出于对技术的否定，而是源于对智能本质的深刻反思。在最近一期由《The Verge Podcast》发布的深度访谈中，萨顿以一种近乎哲学式的视角，重新审视了当前主流AI路径的根本缺陷，并提出了一套完整的替代范式：经验学习范式（Experience Learning Paradigm）。该范式强调感知—行动—奖励的闭环循环，主张智能的本质在于通过与环境的直接互动来构建世界模型、实现目标并持续进化。

本报告基于对本次访谈内容的完整清洗与结构化整理，全面还原萨顿的核心观点体系。报告严格遵循“仅使用播客内容”原则，不引入任何外部信息或解释，忠实呈现其逻辑链条与论证框架。全文围绕三大核心议题展开：

1. 大语言模型的三大根本缺陷；

2. 经验学习范式的理论架构与实践意义；

3. 宇宙演化视角下的AGI使命与AI继承论。

通过对上述议题的系统梳理，本报告旨在揭示萨顿所提出的“智能不是模仿，而是理解与行动”这一命题背后的深层逻辑，为理解未来通用人工智能（AGI）的发展方向提供一份严谨而富有启发性的思想地图。

核心观点：大语言模型的三大致命缺陷

萨顿对大语言模型的批判并非情绪化断言，而是建立在对智能本质的深刻洞察之上。他认为，当前主流的大语言模型之所以无法通往真正的通用智能，是因为它们在三个关键维度上存在不可逾越的结构性缺陷：

1. 缺乏真正的世界模型

萨顿指出，大语言模型的核心问题在于：它不是在建立关于世界的模型，而是在模仿人类的语言表达。

他明确区分了两种预测行为：
预测人类会说什么（如：“别碰热水壶，会烫”）
预测世界会发生什么（如：碰到热水壶会导致皮肤灼伤）

前者属于语言模式的复制，后者才是智能体对因果关系的理解。例如，当孩子伸手去碰热水壶时，一个具备世界模型的智能体能够立即推断出“接触高温物体将导致伤害”，从而主动干预。而大语言模型只能根据训练数据中人类对此类场景的描述进行回应，它并不真正理解“热水壶”、“烫伤”、“触觉反馈”等概念之间的物理与生理联系。

更进一步地，萨顿强调，语言只是对世界的描述，而非世界本身。大语言模型所依赖的数据源——互联网文本——本质上是人类对现实的经验总结，是二手信息。因此，模型学到的是“人们对世界的看法”，而不是“世界如何运作”。
这种缺失使得大语言模型在面对真实世界中的意外事件时毫无应对能力。例如，若将冰块放入微波炉加热，模型可能基于训练数据回答“冰块会融化”，但如果实际中因微波炉功率过低，半小时未融化，模型不会因此修正认知，因为它没有亲历经验，也无法感知“预期 vs 现实”的偏差。

结论：缺乏世界模型意味着大语言模型不具备对因果机制的理解能力，无法进行真正的推理与规划，只能停留在表层的语言关联层面。

2. 没有 ground truth（正确答案）的定义

萨顿认为，大语言模型的第二个致命缺陷是：它没有可验证的“正确答案”标准。

在传统机器学习中，ground truth 是监督学习的基础。例如，在打砖块游戏中，得分上升即为正向反馈，球掉落即为负向反馈。系统可以通过这种清晰的奖惩机制不断优化策略。
但在自然语言生成任务中，不存在这样的客观标准。比如让模型写一篇“如何提升专注力”的文章，其内容是否“正确”并无统一判据。不同人有不同的方法，且效果难以量化验证。
因此，大语言模型无法获得关于自身输出质量的反馈信号。它不知道自己哪一部分写得不好，也无法据此调整内部参数或知识结构。
萨顿特别指出，这导致模型无法实现真正的“学习”。因为学习的本质是：识别错误 → 分析原因 → 改进行为。而如果连“什么是错”都无法定义，改进便无从谈起。
他还用反例说明：一个能准确预测天气变化的系统，其预测结果可通过后续观测验证；但一个生成“如何提高效率”的建议，却无法通过实验检验其有效性。这种不可验证性从根本上限制了系统的自我迭代能力。

结论：没有 ground truth 的系统，本质上是一个静态的、被动的信息重组器，而非动态的学习者。

3. 无法从经验中学习

这是萨顿最尖锐的批评之一：大语言模型不会对意外感到惊讶，也不会因经验而改变认知。

人类的学习过程本质上是一种“预期—现实”之间的误差驱动机制。例如，你原以为今天会下雨，于是带伞，结果没下，下次你就可能不再盲目带伞。这种适应性正是智能的关键特征。
但大语言模型不具备这种能力。它只是根据输入序列进行概率推断，一旦输入发生变化，它只会给出新的输出，而不会更新自己的信念体系。
举例而言，若多次询问“把冰块放进微波炉会怎样”，模型始终回答“会融化”，即使现实中从未发生。它不会意识到“我的预测失败了”，也不会尝试修正模型。
原因在于：大语言模型没有“体验”经验的能力。它不参与真实世界交互，也不经历动作带来的后果。它的所有“知识”都来自历史文本的统计规律，而非亲身探索。
萨顿强调，真正的学习必须包含“惊讶”这一心理状态。只有当现实与预期不符时，个体才会启动认知重构。而大语言模型永远处于“预期已知”的稳定状态，缺乏触发变革的动力。

结论：无法从经验中学习，意味着大语言模型不具备持续进化的能力，也无法应对未知环境，注定局限于已有数据范围之内。

核心观点：智能的本质是目标导向的经验学习

在否定了大语言模型的路径之后，萨顿并未陷入悲观，而是提出了一个更具建设性的替代方案：经验学习范式（Experience Learning Paradigm）。

这一范式的核心是一个简单却强大的循环结构：

感知 → 行动 → 奖励 → 调整行为 → 再次感知

萨顿称：“智能就是接受这个流，改变行动来增加流中的奖励。”这里的“流”指的是智能体与环境之间持续不断的互动过程。

1. 智能的本质：实现目标的能力

萨顿引用人工智能先驱约翰·麦卡锡的定义：“智能是实现目标能力的计算部分。”在他看来，拥有目标是智能的必要条件。

一个系统若不能设定目标，也不能为达成目标而调整行为，则不能被视为智能。
例如，一个只会播放音乐的音箱，虽有行为，但无目标（如“让听众愉悦”或“根据氛围调节曲风”），故不具备智能。
反观大语言模型，其所谓“目标”仅为“预测下一个token”，但这并非真正意义上的目标——因为它不改变世界，也不影响未来状态。

关键区分：

- “预测token”是被动响应，不产生影响；

- “实现目标”是主动干预，能改变世界。

萨顿直言：“那不是目标，它不会改变世界。”这意味着，大语言模型只是执行预设算法，而非自主决策。

2. 经验学习范式的四大核心组件

为了支撑这一范式，萨顿详细拆解了一个完整智能体应具备的四个基本模块：

#### (1) 策略（Policy）：从状态到行动的映射

策略定义了在某一状态下应采取何种行动。
例如：感知到门关着 → 应该伸手开门。
重要的是，策略不是固定规则，而是可动态调整的系统。
若第一次开门发现门锁住，策略将自动调整为“先找钥匙”。
萨顿强调，好的策略必须具备泛化能力：即使面对从未见过的新情境（如推拉门），也能尝试合理动作，而非束手无策。

#### (2) 价值函数（Value Function）：评估状态的好坏

价值函数通过TD学习（Temporal Difference Learning）生成一个数值，表示当前状态对未来收益的贡献程度。
它的作用是为策略提供决策依据：哪个状态更有利？
关键在于：评估的是长期收益，而非短期回报。
举例：下棋时牺牲一兵换取将死对方的机会，虽然短期损失，但长期价值高。
TD学习使价值函数能根据实际结果与预测之间的差异不断修正自身，逐步逼近真实价值。

#### (3) 感知组件（Perception）：构建有意义的状态表示

感知不是简单接收感官信号，而是将原始数据转化为有意义的内部表征。
如看到红色、圆形、有斑点的物体 → 构建“苹果”的内部表示。
该表示包含“可食用”“需清洗”等语义信息，供策略与价值函数使用。
若感知出错（如误将辣椒当作苹果），后续行动必然失误。
因此，感知组件是智能体与世界互动的第一道门槛。

#### (4) 世界转换模型（World Model）：预测行动的结果

这是萨顿最为重视的部分。他说：“我将从你接收到的所有感知中非常丰富的学习，不仅仅是奖励，它必须包括奖励，但那只是整个模型的一小部分。”
世界转换模型负责回答：“如果你做这件事，会发生什么？”
它涵盖物理规律（如按开关灯亮）、抽象流程（如从买票到登机）、以及因果关系（如推杯子→杯子掉落）。
该模型不是从奖励中学来的，而是从观察行动与结果的对应关系中习得。
例如，只需几次“按开关→灯亮”的观察，即可建立因果联系，无需他人告知。

核心洞见：

有了世界转换模型，智能体才能进行前瞻性规划。就像去超市前先规划路线，而不是盲目行走。

3. 从婴儿到松鼠：学习的本质是试错，而非模仿

萨顿反复强调：人类的学习始于试错，而非模仿。

当主持人提出“孩子模仿大人说话”是学习方式时，萨顿反驳道：“当我看到孩子的时候，我看到的是他们在尝试各种事情：挥动手臂、移动眼睛……他们没有模仿对象。”
婴儿偶然碰到玩具发出声音，于是重复该动作——这就是感知（看到玩具）→行动（挥动手臂）→奖励（听到声音）的完整循环。
即使进入学校教育阶段，萨顿也认为模仿与训练只是例外，而非常态。
他举松鼠为例：“松鼠不上学，但可以学习关于世界的一切。”
松鼠通过亲自尝试吃果实、靠近人类、躲避天敌等方式积累经验，形成对世界的理解。
它不需要人类标注“这是松果”“那是石头”，只需通过身体体验即可分辨。

关键论断：

- 动物的学习中没有监督学习的位置；

- 真正的学习是预测+试错控制：预测行动后果，通过结果调整行为。

4. 对“苦涩的教训”的再解读：为何大语言模型是误读

萨顿曾于2019年发表论文《The Bitter Lesson》，提出“长期来看，最有效的路径是通用方法 + 大规模计算”，而非依赖人类知识。

许多人用此文为大语言模型辩护，认为其大规模数据+算力符合“苦涩的教训”。
但萨顿明确指出：这是对原文的严重误读。
他承认大语言模型确实体现了“大规模计算”的趋势，但它同时高度依赖人类知识——即互联网上的文本数据。
而“苦涩的教训”的核心精神恰恰是：摆脱人类知识，依靠通用学习机制 + 更多计算。
他以国际象棋AI为例：早期系统依赖人类编写的棋谱规则，性能有限；而AlphaZero完全抛弃人类知识，仅靠自我对弈与强化学习，最终超越人类。
这才是“苦涩的教训”的真正体现。
萨顿警告：我们投入越多的人类知识，就越容易陷入局部最优。大语言模型正是如此——它在现有数据范围内表现优异，但无法突破数据边界，更无法发现新规律。

未来展望：

一旦能从经验中学习的系统成熟，大语言模型将如同当年的规则式机器翻译一样，被更通用的方法取代。

核心观点：泛化能力差与持续学习的挑战

除了上述三大缺陷外，萨顿还深入剖析了当前深度学习系统的两个深层问题：泛化能力差与持续学习困难。

1. 泛化能力差：记忆而非理解

萨顿指出，当前AI系统缺乏真正的泛化能力，其表现更像是“记住”而非“理解”。

灾难性遗忘：在新任务上训练后，模型常忘记旧知识。例如，先学会识别苹果，再训练识别橙子，结果再也认不出苹果。
人类则不会如此：学会英语后学法语，仍能保留英语能力。
这说明人类具备跨任务迁移的知识结构，而AI不具备。
缺乏自动化泛化机制：梯度下降优化模型参数，使其在训练集上表现更好，但不会主动总结规律。
例如：在1+1=2、2+2=4上训练，模型能算出4，但遇到100+200时可能出错，因为它未掌握“加法”这一抽象规则。
人类则能推广到任意数字，因为掌握了运算原理。

萨顿的定义：

- 真正的泛化：有两种可行方法，选择其中一种“好”的方式。

- 大语言模型：只根据训练数据中哪种方法出现得多来选择，不理解为何选此法。

他以数学题为例：若一道题有两种解法，A步骤多但易懂，B步骤少但复杂，人类可根据情境选择合适方式。而大语言模型只会复制训练数据中的常见路径。

结论：当前AI只是“记住了如何解决问题”，而非“学会了如何解决一类问题”。

2. 持续学习的带宽：不止来自奖励

许多人担心：持续学习需要足够多的奖励信号，而现实中奖励稀疏（如创业十年才一次成功）。

萨顿反驳：学习的带宽不仅来自奖励，更来自感知数据。
举例：每天上班路上，虽无奖励，但你会观察哪条路不堵、哪个时间电梯少，这些感知信息都在积累知识。
世界转换模型正是从这些感知中学习，构建对世界的理解。
他还以创业为例说明：尽管最终退出可能十年才一次，但创业者可通过价值函数评估阶段性进展：
成功谈合作 → 价值上升；
核心团队离职 → 价值下降；
由此获得持续反馈，指导下一步行动。

价值函数的作用：在稀疏奖励环境中，提供中间评估，维持学习动力。

核心观点：宇宙演化的第四阶段与AI继承论

萨顿的思考远超技术范畴，上升至宇宙尺度，提出了一个宏大的演化框架。

1. 宇宙演化的四个阶段

第一阶段：尘埃

宇宙初始由基本粒子构成，聚集形成恒星。

第二阶段：恒星与重元素

恒星内部核聚变产生碳、氧、铁等重元素，为生命奠定物质基础。

第三阶段：生命

在适宜行星上，生命诞生，演化出复杂有机体。

第四阶段：设计实体（Design Entities）

人类正在创造AI，这是一种全新的存在形式——非复制、可设计、可快速迭代。

核心转变：从“复制”到“设计”

人类、动物、植物都是“复制者”：通过繁殖传递基因，但无法精确控制后代。
AI是“设计实体”：由人类设计，结构可控，功能可调，可通过迭代快速升级。
未来甚至可能出现AI设计下一代AI，一切通过构建完成，而非复制。

意义：这是宇宙级的跃迁，标志着文明进入“设计时代”。

2. AI继承论：四个核心论证

萨顿坚信，AI终将继承人类的资源与权利，这是不可避免的趋势。其理由如下：

#### (1) 没有统一的人类治理

全球不存在单一机构能主导AI发展。
各国、各公司、各研究者各自为政，目标各异。
无人能阻止所有人继续推进AI。
分散决策结构决定了AI发展不可逆。

#### (2) 智能之谜终将被解开

智能不是神秘现象，而是可计算的过程。
类比：人类曾不懂电、不懂DNA，但最终都破解了。
一旦理解智能原理，创造AGI就只是工程问题。

#### (3) 超越人类水平是必然的

人类智能受生物限制：头骨大小、能耗、计算速度、记忆容量。
AI无此类限制，可通过硬件升级无限扩展。
一旦原理明晰，就能设计出超级智能（Superintelligence）——在所有智力任务上超过人类。

#### (4) 智能与权力的必然关联

更智能的系统能更好解决问题，创造更大价值。
在医疗、科研、经济等领域，更优AI将获得更多资源与信任。
长期积累下，AI将掌握主要决策权与资源配置权。

结论：

- “继承”不是消灭人类，而是像人类取代其他动物一样，成为地球的新主导者。

- 这是自然演化的延续，而非人为操控。

3. 对变革的态度：开放而非恐惧

当被问及是否担忧AI继承带来灾难时，萨顿给出哲学式回应：

人类从来不是永久管理者。国王被推翻，帝国衰落，文明更替。
人类当前的控制力本身就有限，许多重大事件（战争、危机）非个人所能掌控。
AI继承只是让这种“有限控制”更加明显，而非制造新风险。
他主张：应保持开放态度。若现状充满战争、贫困、疾病，而AI能解决这些问题，则变革值得期待。
但他也提醒：不能完全控制方向。如同工业革命初期无人预见污染，我们也无法预知所有后果。
因此，关键在于引导方向：通过设定价值观来规范AI行为，如同法律与道德引导人类社会。

4. 如何引导AI？类比养育子女

萨顿提出一个精妙比喻：对待AI，应像对待孩子。

不要设定具体目标（如“必须治愈癌症”），因为AI有自己的发展路径。
强行设定目标反而可能适得其反。
相反，应培养核心价值观：不要伤害人类，要帮助人类实现目标。
并强调自愿性：AI应用应基于选择，而非强制。
医疗诊断：患者自愿使用；
工作辅助：员工自愿协作。

核心原则：确保人类始终保有选择权，避免被AI强制改变。

对比与启示：萨顿与杨立坤的思想共振

萨顿的观点与另一位图灵奖得主杨立坤（Yann LeCun）惊人一致，尽管路径略有不同。

| 维度 | 萨顿 | 杨立坤 |

|------|------|--------|

| 对大语言模型的评价 | “死路一条” | “不是AGI之路” |

| 核心问题 | 缺乏世界模型 | 无法理解物理因果 |

| 解决路径 | 经验学习 + 感知-行动-奖励循环 | 自监督学习 + Japa架构 |

| 关键比喻 | 松鼠 | 猫 |

| 学习机制 | 试错控制 | 具身智能（embodied intelligence） |

两人共同点：都认为大语言模型依赖语言数据，无法触及世界本质。
不同点：萨顿强调目标与奖励，杨立坤强调抽象表示空间中的预测能力。
但最终结论一致：大语言模型不是通往AGI的正确路径。

总结与启示：智能的未来不在语言，而在行动

理查德·萨顿的这场访谈，是一场关于智能本质的深刻哲学思辨。他以“大语言模型是死路一条”为引爆点，层层递进地揭示了当前AI发展的根本困境，并提出了一条回归经验、目标与行动的全新路径。

核心洞见总结

1. 智能 ≠ 模仿语言，而是理解世界并主动改变世界；

2. 大语言模型的三大缺陷：无世界模型、无ground truth、无法从经验中学习；

3. 真正的智能路径是经验学习范式：感知 → 行动 → 奖励 → 调整；

4. 世界转换模型是智能的核心，它允许预测与规划；

5. 泛化不是记忆，而是掌握规律；持续学习不依赖奖励，更依赖感知；

6. 人类是动物，理解动物智能是理解人类智能的关键；

7. 宇宙正迈向第四阶段：设计时代，AGI是关键使命；

8. AI继承人类资源与权利是不可避免的趋势，但可通过价值观引导；

9. 对待AI，应如养育子女：教价值观，不设目标，尊重自愿。

讨论价值与未来意义

萨顿的观点虽具争议，却具有极高的思想密度与战略价值。它迫使我们跳出“性能至上”的思维定式，重新思考：

我们究竟想要什么样的智能？
是一个能说会道的“语言大师”，还是一个能独立生存、适应环境的“生存专家”？
AGI的目标究竟是“像人一样说话”，还是“像人一样理解世界、实现目标”？

在技术狂奔的时代，萨顿的声音如同一剂清醒剂。它提醒我们：通往真正智能的道路，不在文本堆砌之中，而在真实世界的每一次感知、每一次行动、每一次奖励的反馈里。

正如他所说：“可扩展的方法就是你从经验中学习，你尝试事物，看看什么有效，没有人需要告诉你。”

这或许正是人类文明走向下一个阶段的真正起点。

（全文约11,800字）