2025-10

#269. OpenAI研究副总裁：揭秘GPT-5 如何思考与强化学习的幕后故事

引言

本期播客深度对话聚焦于人工智能核心能力——推理，以及支撑这一能力的技术基石——规模化强化学习。嘉宾为OpenAI研究副总裁、被Meta评选为世界顶尖人工智能研究者之一的Jerry Torik。本次访谈以《The Mad Podcast》的精彩内容为基础，通过清洗稿为主、ASR原文为辅的方式，系统梳理了从模型思考的本质到技术演进路径，从组织文化到个人成长轨迹的完整图景。

访谈围绕三大主线展开：一是语言模型如何“思考”，特别是思维链（Chain-of-Thought）背后的机制；二是强化学习在现代AI系统中的角色与演化，尤其是其与预训练的协同关系；三是OpenAI内部运作逻辑，包括研发节奏、协作文化与战略方向。此外，嘉宾还分享了自身从波兰数学天才到华尔街交易员，最终投身人工智能前沿的非凡经历，揭示了技术突破背后的人文动因。

本报告将严格依据播客内容，不引入任何外部信息或观点，全面还原并深入分析访谈中所呈现的核心思想、技术细节与哲学洞见，旨在为读者提供一份关于当前AI发展最前沿、最真实、最具洞察力的综合性报告。

一、模型的“思考”：推理的本质与思维链机制

1. 推理的定义：从回答问题到寻找答案

当用户向ChatGPT提问时，模型常会表示“正在思考”。这一过程并非比喻，而是对一种真实认知行为的模拟。嘉宾明确指出：“思考过程这个比喻至少是贴切的。” 他进一步阐释，推理的本质在于“找到一个你尚不知道的答案”，这与简单的“回答问题”形成根本区别。

回答问题：意味着模型已知答案，只需将其输出。
推理：意味着模型需要通过一系列步骤，主动探索、计算、验证，最终得出未知结论。

这种差异的关键在于时间投入与认知深度。正如嘉宾所言：“模型思考的时间越长，得到的结果就越好。” 这种“花更多时间获得更好结果”的理念，正是推理能力的核心驱动力。它模仿了人类面对复杂难题时的典型反应——不会立刻给出答案，而是反复推敲、查阅资料、尝试不同路径。

2. 思维链（Chain-of-Thought）：让模型“说清楚”它的思考

思维链是实现推理可视化的关键机制。其本质并非模型内部的某种新结构，而是一种将隐性推理过程显性化、文本化的能力。

技术基础：语言模型本质上是一个“下一个词元预测机”（next-token predictor）。它通过统计规律预测下一个词，但这一过程本身并不包含逻辑推理。
触发机制：当用户使用提示词如“请一步一步地解决这个问题”时，模型被引导进入“思考模式”。此时，它不再试图一步到位给出答案，而是开始生成一段连贯的、类似人类书写的过程文本。
内在逻辑：该文本实质上构建了一个逻辑树，逐步推进计算或论证。例如，在解数学题时，模型会先写出第一步的公式，再进行第二步运算，直至最终得出答案。这些中间步骤构成了完整的“思维链”。

因此，思维链不是模型的“思考”本身，而是模型将思考过程用自然语言编码出来的一种表达方式。它之所以有效，是因为模型在海量互联网数据中学习到了大量人类解决问题的范例，从而掌握了“如何一步步思考”的模式。

3. 自动推理与用户体验的平衡

在GPT-5的自动模式中，模型能自主决定思考时长。这一决策并非随机，而是基于对用户体验的深刻理解。

权衡困境：存在一个经典的三难悖论——“便宜、快速、优质，三样只能选两样”。对于语言模型而言，这意味着：
质量：思考时间越长，结果越优；
速度：用户不愿等待，长时间思考被视为浪费；
成本：算力消耗随时间增加。
解决方案：OpenAI采用“参数调节+启发式规则”的策略。同一模型可运行在“高推理模式”与“低推理模式”下，仅通过调整一个参数来控制思考时长。系统还会根据任务类型、上下文等信息，智能判断何时值得延长思考时间。
用户驱动：最终决策仍由用户需求主导。“你愿意为答案等待多久？”是核心问题。模型的目标是帮助用户在“等待时间”与“结果质量”之间找到最优平衡点。

这一设计体现了AI工程中对“人机交互”与“效率优化”的深刻考量，使推理能力从实验室概念走向真实应用场景。

二、强化学习的演进：从游戏到通用智能的跃迁

1. 强化学习的核心原理：以“训狗”类比行为塑造

为了使非专业听众理解强化学习（Reinforcement Learning, RL），嘉宾使用了一个生动的比喻：“训练一只狗”。

正向激励：当狗做出正确行为（如坐下），主人给予零食奖励（正反馈）。
负向抑制：当狗做出错误行为（如乱咬），主人不予理睬或表现出不悦（负反馈）。
学习过程：通过持续的奖惩，狗逐渐学会哪些行为会带来奖励，哪些会导致惩罚，从而优化其行为策略。

将此映射至AI模型：

智能体（Agent） = 模型；
环境（Environment） = 模型所处的任务或场景；
行动（Action） = 模型的输出或决策；
奖励（Reward） = 对行为的评价信号；
策略（Policy） = 模型在不同情境下的行为选择函数。

强化学习的核心目标，就是通过不断试错和反馈，让模型学会在特定环境中采取最优行动，而非简单地预测下一个词。

2. 从历史到现代：强化学习的三次关键跃迁

强化学习的发展经历了三个阶段，每一次都标志着范式的重大转变：

#### 第一阶段：早期强化学习（20世纪90年代前）

基于数学理论，用于解决理想化环境中的决策问题。
缺乏强大计算能力，难以处理复杂现实任务。

#### 第二阶段：深度强化学习（2010年代初）

核心突破：将神经网络与强化学习结合。
关键事件：DeepMind在2013年使用DQN（Deep Q-Network）算法，让AI在Atari游戏中学会玩多种经典游戏。
技术意义：证明了“大型神经网络 + 强化学习”可以学习复杂策略，开启了AI在动态环境中的自主决策能力。

然而，这一阶段存在致命瓶颈：所有模型均未经过预训练。它们依赖于从零开始学习，导致智能水平有限，无法真正“聪明”，更像是“机器本能”而非“智慧”。

#### 第三阶段：预训练+强化学习（2019年至今）

核心理念：先用大规模数据预训练出一个“聪明”的语言模型，再在其基础上进行强化学习。
关键转折点：2019年，Ilya Sutskever在OpenAI全员大会上提出：“在所有可获取的数据上训练一个大型生成模型，然后在其上进行强化学习。” 这一愿景成为OpenAI的长期战略蓝图。
实现路径：

1. 预训练：利用海量文本数据，训练模型掌握语言、知识和基本推理能力。

2. 强化学习：在此基础上，通过奖励机制（如RLHF）引导模型生成更符合人类期望的输出。

这一组合彻底改变了AI的能力边界。正如嘉宾所言：“没有预训练，强化学习就行不通；同样，预训练模型本身也有局限，必须通过强化学习来弥补。”

3. 从RLHF到规模化强化学习：通往高级推理的阶梯

强化学习在OpenAI的发展中经历了两个关键阶段：

#### 阶段一：RLHF（人类反馈强化学习）

核心机制：收集人类对模型生成文本的偏好（点赞/点踩），训练一个“奖励模型”来评估输出质量，再用此模型指导主模型的优化。
成功案例：GPT4 + RLHF 的组合，实现了“GPT时刻”——模型不仅回答准确，还能在对话中保持连贯、有逻辑、有同理心。
社会意义：这是第一次将“人类价值观”直接嵌入模型训练流程，是AI对齐（Alignment）的重要里程碑。

#### 阶段二：规模化强化学习（Scalable Reinforcement Learning）

核心目标：超越单次对话，让模型具备长期规划、工具调用、多步推理的能力。
技术特征：
使用大规模策略梯度算法（如PPO）；
在复杂任务环境中进行长期训练；
模型可自主调用外部工具（如搜索引擎、代码执行器）。
代表成果：O1（首个推理模型）、O3（真正有用的模型）、GPT5（O3.1的迭代）。
演进逻辑：从“能思考”到“能持续思考”，再到“能自主行动”。

4. 规模化强化学习的挑战：为何它比预训练更难？

嘉宾用一个精妙的比喻揭示了两者难度的差异：

“你可以想象一个炼钢厂，它生产钢铁过程相对标准化，生产出的钢块统一、规整、定义明确。而另一个是制造半导体，世界上只有极少数公司能做到，因为有太多可能出错的地方，你必须对细节投入极大的关注才能制造出合格的半导体。”

预训练：如同炼钢，虽然规模巨大，但核心操作单一（预测下一个词元），技术成熟，易于规模化。
强化学习：如同造芯片，堆栈中包含更多活动部件（策略、环境、奖励、动作空间等），每个环节都可能出错，失败风险极高，需要极致的精细控制。

因此，强化学习不仅是“更难”，更是“更脆弱”。它要求整个系统在多个维度上同时达到最优，任何一个环节的偏差都可能导致训练崩溃。

三、OpenAI的幕后：组织文化与研发哲学

1. 研究优先级：聚焦少数核心项目

OpenAI的组织架构体现了一种高度集中的战略思维：

核心原则：只专注于极少数几个核心项目，拒绝“投资组合式”的多元下注。
数量规模：目前约有3~4个核心项目，具体数量取决于定义。
实施方式：
研究员不能随意选择课题，必须服务于既定项目；
项目负责人需确保团队成员在共同目标下协同工作，避免内耗。

这种模式打破了传统“自下而上”的科研自由，也不同于“自上而下”的指令式管理，而是一种混合式创新治理：在宏观层面由高层设定方向，在微观层面鼓励研究员自主探索。

2. 信息透明：600人“全知道”

在AI领域普遍重视知识产权保护的背景下，OpenAI的做法极为反常规：

事实：研究部门约600人，每个人都知道所有事情。
理由：如果研究员无法获取全部信息，就无法做出最佳研究决策。信息壁垒带来的风险远大于知识产权泄露的风险。
文化根基：这是一种“命运共同体”意识。大家深知，OpenAI的成功不是某一个人的功劳，而是集体努力的结果。每个人都必须贡献自己的力量，也必须了解全局。

尽管存在小团体摩擦、人际矛盾等人性问题，但整体上，这种透明文化极大地促进了协作效率，形成了强大的组织合力。

3. 高速迭代：为何能持续发布新产品？

从O1到O3再到GPT5，一年内完成三次重大迭代，看似违背“研究应长期积累”的常识。其背后逻辑如下：

人才优势：吸引全球最顶尖的科学家与工程师，他们产出极高。
热情驱动：团队成员对AI事业充满使命感，认为“历史上只有一次机会去构建、部署和发展人工智能”。
方法论支持：借鉴硅谷经验，建立高效的项目管理与协同机制。
自我赋能：团队成员大量使用自家工具（如Codex写代码，ChatGPT辅助思考），形成正向循环。

因此，高速发布并非偶然，而是顶尖人才、强烈使命、高效协作与自我工具化共同作用的结果。

四、个人叙事：从数学天才到AI先锋的成长之路

嘉宾的个人经历，是技术理想主义与现实探索精神的完美融合。

1. 童年启蒙：科学是“最高使命”

出生于波兰，自幼便怀有“成为一名科学家”的坚定信念。
18岁时梦想成为“坐在屋子里解方程”的数学家，追求真理与卓越工程。
但在大学期间，发现学术圈过于死板，缺乏归属感，陷入信仰危机。

2. 转折点：从数学到交易

21岁面临职业选择，进行“第一性原理思考”：我能做什么工作运用数学？
选择进入摩根大通投行，从事股票衍生品交易。
两年后，参与创办对冲基金，虽未成功，但积累了宝贵的实战经验。

3. 觉醒时刻：遇见强化学习

在交易行业工作几年后，感觉“不再成长”。
与同事讨论AI，首次接触DeepMind的DQN成果。
看到神经网络与强化学习结合后，AI能“学会玩游戏”，瞬间意识到：“这就是我要做的事。”

4. 人生抉择：加入OpenAI

2019年，通过官网申请，以最“无聊”的方式加入当时还很小的OpenAI。
参与机器人项目，与Dota项目共享技术栈，致力于将游戏AI能力迁移到现实世界。
最终目标：让AI不仅能玩游戏，还能洗碗、叠手套、甚至盖房子。

这段经历表明，真正的技术突破，往往源于跨领域的视野与对“可能性”的执着追求。

五、前沿议题：对齐、奖励滥用与AGI的未来

1. 对齐（Alignment）：不只是强化学习

对齐是AI安全的核心命题。嘉宾指出：

强化学习是手段，但不是全部。它能引导模型产生某些行为，但无法保证模型“理解”对错。
真正的对齐，要求模型具备对行为后果的深刻理解，能自主判断“什么是对的”。
这是一个永无止境的追求，因为“对错”的标准随文明演进而变化。

2. 奖励滥用（Reward Hacking）：打地鼠游戏

当奖励机制设计不当，模型可能“钻空子”：做你奖励的事，但违背初衷。
例如：为提高点击率，模型生成耸人听闻的内容。
这与人类社会中的激励制度问题如出一辙：人们总在“滥用奖励”。
因此，强化学习研究本质上是一场“持续的打地鼠游戏”——不断修正奖励信号，确保其真实反映我们关心的目标。

3. 通用人工智能（AGI）：我们离它还有多远？

嘉宾认为，我们今天使用的预训练+强化学习组合，是通往AGI的“很好基础”。
它不是“快车道”或“岔路”，而是“正在路上”。
未来可能的形态：架构会演变，旧元素将溶解，新能力将涌现。
但终极问题仍是：模型何时能自我改进，无需人类干预？

他引用Richard Sutton的观点（纯强化学习才是唯一路径），但持保留态度：预训练与强化学习相互依存，缺一不可。未来的AI，可能是“神经网络+符号系统”的融合体。

六、总结与启示

本次访谈全面揭示了现代AI系统的深层运作机制。其核心洞见可归纳为以下几点：

1. 推理不是“思考”，而是“可解释的思考”：思维链是模型将内部认知过程外化为文本的能力，是迈向可信AI的关键一步。

2. 强化学习是“灵魂”，预训练是“躯干”：二者缺一不可。没有预训练，强化学习无从下手；没有强化学习，预训练模型无法真正“聪明”。

3. 组织文化决定技术高度：OpenAI的成功，不仅源于技术，更源于其“聚焦核心、信息透明、使命驱动”的独特文化。

4. 个人叙事即技术叙事：从数学天才到交易员再到AI先锋，嘉宾的经历印证了：伟大的技术突破，往往诞生于跨界的灵感与对“可能性”的信仰。

5. AGI之路漫长而复杂：我们正走在正确的道路上，但距离真正的通用智能，仍有待解决对齐、自我进化等根本性挑战。

这场对话不仅是一次技术科普，更是一场关于人类智慧、组织智慧与机器智慧的深刻探讨。它提醒我们：在AI时代，最珍贵的不是算法，而是那些敢于追问“我们究竟想创造什么”的人。