← 返回
2025-10

#269. OpenAI研究副总裁:揭秘GPT-5 如何思考与强化学习的幕后故事

引言

本期播客深度对话聚焦于人工智能核心能力——推理,以及支撑这一能力的技术基石——规模化强化学习。嘉宾为OpenAI研究副总裁、被Meta评选为世界顶尖人工智能研究者之一的Jerry Torik。本次访谈以《The Mad Podcast》的精彩内容为基础,通过清洗稿为主、ASR原文为辅的方式,系统梳理了从模型思考的本质到技术演进路径,从组织文化到个人成长轨迹的完整图景。

访谈围绕三大主线展开:一是语言模型如何“思考”,特别是思维链(Chain-of-Thought)背后的机制;二是强化学习在现代AI系统中的角色与演化,尤其是其与预训练的协同关系;三是OpenAI内部运作逻辑,包括研发节奏、协作文化与战略方向。此外,嘉宾还分享了自身从波兰数学天才到华尔街交易员,最终投身人工智能前沿的非凡经历,揭示了技术突破背后的人文动因。

本报告将严格依据播客内容,不引入任何外部信息或观点,全面还原并深入分析访谈中所呈现的核心思想、技术细节与哲学洞见,旨在为读者提供一份关于当前AI发展最前沿、最真实、最具洞察力的综合性报告。

一、模型的“思考”:推理的本质与思维链机制

1. 推理的定义:从回答问题到寻找答案

当用户向ChatGPT提问时,模型常会表示“正在思考”。这一过程并非比喻,而是对一种真实认知行为的模拟。嘉宾明确指出:“思考过程这个比喻至少是贴切的。” 他进一步阐释,推理的本质在于“找到一个你尚不知道的答案”,这与简单的“回答问题”形成根本区别。

  • 回答问题:意味着模型已知答案,只需将其输出。
  • 推理:意味着模型需要通过一系列步骤,主动探索、计算、验证,最终得出未知结论。

这种差异的关键在于时间投入与认知深度。正如嘉宾所言:“模型思考的时间越长,得到的结果就越好。” 这种“花更多时间获得更好结果”的理念,正是推理能力的核心驱动力。它模仿了人类面对复杂难题时的典型反应——不会立刻给出答案,而是反复推敲、查阅资料、尝试不同路径。

2. 思维链(Chain-of-Thought):让模型“说清楚”它的思考

思维链是实现推理可视化的关键机制。其本质并非模型内部的某种新结构,而是一种将隐性推理过程显性化、文本化的能力

  • 技术基础:语言模型本质上是一个“下一个词元预测机”(next-token predictor)。它通过统计规律预测下一个词,但这一过程本身并不包含逻辑推理。
  • 触发机制:当用户使用提示词如“请一步一步地解决这个问题”时,模型被引导进入“思考模式”。此时,它不再试图一步到位给出答案,而是开始生成一段连贯的、类似人类书写的过程文本。
  • 内在逻辑:该文本实质上构建了一个逻辑树,逐步推进计算或论证。例如,在解数学题时,模型会先写出第一步的公式,再进行第二步运算,直至最终得出答案。这些中间步骤构成了完整的“思维链”。

因此,思维链不是模型的“思考”本身,而是模型将思考过程用自然语言编码出来的一种表达方式。它之所以有效,是因为模型在海量互联网数据中学习到了大量人类解决问题的范例,从而掌握了“如何一步步思考”的模式。

3. 自动推理与用户体验的平衡

在GPT-5的自动模式中,模型能自主决定思考时长。这一决策并非随机,而是基于对用户体验的深刻理解。

  • 权衡困境:存在一个经典的三难悖论——“便宜、快速、优质,三样只能选两样”。对于语言模型而言,这意味着:
  • 质量:思考时间越长,结果越优;
  • 速度:用户不愿等待,长时间思考被视为浪费;
  • 成本:算力消耗随时间增加。
  • 解决方案:OpenAI采用“参数调节+启发式规则”的策略。同一模型可运行在“高推理模式”与“低推理模式”下,仅通过调整一个参数来控制思考时长。系统还会根据任务类型、上下文等信息,智能判断何时值得延长思考时间。
  • 用户驱动:最终决策仍由用户需求主导。“你愿意为答案等待多久?”是核心问题。模型的目标是帮助用户在“等待时间”与“结果质量”之间找到最优平衡点。

这一设计体现了AI工程中对“人机交互”与“效率优化”的深刻考量,使推理能力从实验室概念走向真实应用场景。

二、强化学习的演进:从游戏到通用智能的跃迁

1. 强化学习的核心原理:以“训狗”类比行为塑造

为了使非专业听众理解强化学习(Reinforcement Learning, RL),嘉宾使用了一个生动的比喻:“训练一只狗”。

  • 正向激励:当狗做出正确行为(如坐下),主人给予零食奖励(正反馈)。
  • 负向抑制:当狗做出错误行为(如乱咬),主人不予理睬或表现出不悦(负反馈)。
  • 学习过程:通过持续的奖惩,狗逐渐学会哪些行为会带来奖励,哪些会导致惩罚,从而优化其行为策略。

将此映射至AI模型:

  • 智能体(Agent) = 模型;
  • 环境(Environment) = 模型所处的任务或场景;
  • 行动(Action) = 模型的输出或决策;
  • 奖励(Reward) = 对行为的评价信号;
  • 策略(Policy) = 模型在不同情境下的行为选择函数。

强化学习的核心目标,就是通过不断试错和反馈,让模型学会在特定环境中采取最优行动,而非简单地预测下一个词。

2. 从历史到现代:强化学习的三次关键跃迁

强化学习的发展经历了三个阶段,每一次都标志着范式的重大转变:

#### 第一阶段:早期强化学习(20世纪90年代前)

  • 基于数学理论,用于解决理想化环境中的决策问题。
  • 缺乏强大计算能力,难以处理复杂现实任务。

#### 第二阶段:深度强化学习(2010年代初)

  • 核心突破:将神经网络与强化学习结合
  • 关键事件:DeepMind在2013年使用DQN(Deep Q-Network)算法,让AI在Atari游戏中学会玩多种经典游戏。
  • 技术意义:证明了“大型神经网络 + 强化学习”可以学习复杂策略,开启了AI在动态环境中的自主决策能力。

然而,这一阶段存在致命瓶颈:所有模型均未经过预训练。它们依赖于从零开始学习,导致智能水平有限,无法真正“聪明”,更像是“机器本能”而非“智慧”。

#### 第三阶段:预训练+强化学习(2019年至今)

  • 核心理念:先用大规模数据预训练出一个“聪明”的语言模型,再在其基础上进行强化学习
  • 关键转折点:2019年,Ilya Sutskever在OpenAI全员大会上提出:“在所有可获取的数据上训练一个大型生成模型,然后在其上进行强化学习。” 这一愿景成为OpenAI的长期战略蓝图。
  • 实现路径:

1. 预训练:利用海量文本数据,训练模型掌握语言、知识和基本推理能力。

2. 强化学习:在此基础上,通过奖励机制(如RLHF)引导模型生成更符合人类期望的输出。

这一组合彻底改变了AI的能力边界。正如嘉宾所言:“没有预训练,强化学习就行不通;同样,预训练模型本身也有局限,必须通过强化学习来弥补。”

3. 从RLHF到规模化强化学习:通往高级推理的阶梯

强化学习在OpenAI的发展中经历了两个关键阶段:

#### 阶段一:RLHF(人类反馈强化学习)

  • 核心机制:收集人类对模型生成文本的偏好(点赞/点踩),训练一个“奖励模型”来评估输出质量,再用此模型指导主模型的优化。
  • 成功案例:GPT4 + RLHF 的组合,实现了“GPT时刻”——模型不仅回答准确,还能在对话中保持连贯、有逻辑、有同理心。
  • 社会意义:这是第一次将“人类价值观”直接嵌入模型训练流程,是AI对齐(Alignment)的重要里程碑。

#### 阶段二:规模化强化学习(Scalable Reinforcement Learning)

  • 核心目标:超越单次对话,让模型具备长期规划、工具调用、多步推理的能力。
  • 技术特征
  • 使用大规模策略梯度算法(如PPO);
  • 在复杂任务环境中进行长期训练;
  • 模型可自主调用外部工具(如搜索引擎、代码执行器)。
  • 代表成果:O1(首个推理模型)、O3(真正有用的模型)、GPT5(O3.1的迭代)。
  • 演进逻辑:从“能思考”到“能持续思考”,再到“能自主行动”。

4. 规模化强化学习的挑战:为何它比预训练更难?

嘉宾用一个精妙的比喻揭示了两者难度的差异:

“你可以想象一个炼钢厂,它生产钢铁过程相对标准化,生产出的钢块统一、规整、定义明确。而另一个是制造半导体,世界上只有极少数公司能做到,因为有太多可能出错的地方,你必须对细节投入极大的关注才能制造出合格的半导体。”
  • 预训练:如同炼钢,虽然规模巨大,但核心操作单一(预测下一个词元),技术成熟,易于规模化。
  • 强化学习:如同造芯片,堆栈中包含更多活动部件(策略、环境、奖励、动作空间等),每个环节都可能出错,失败风险极高,需要极致的精细控制。

因此,强化学习不仅是“更难”,更是“更脆弱”。它要求整个系统在多个维度上同时达到最优,任何一个环节的偏差都可能导致训练崩溃。

三、OpenAI的幕后:组织文化与研发哲学

1. 研究优先级:聚焦少数核心项目

OpenAI的组织架构体现了一种高度集中的战略思维:

  • 核心原则只专注于极少数几个核心项目,拒绝“投资组合式”的多元下注。
  • 数量规模:目前约有3~4个核心项目,具体数量取决于定义。
  • 实施方式
  • 研究员不能随意选择课题,必须服务于既定项目;
  • 项目负责人需确保团队成员在共同目标下协同工作,避免内耗。

这种模式打破了传统“自下而上”的科研自由,也不同于“自上而下”的指令式管理,而是一种混合式创新治理:在宏观层面由高层设定方向,在微观层面鼓励研究员自主探索。

2. 信息透明:600人“全知道”

在AI领域普遍重视知识产权保护的背景下,OpenAI的做法极为反常规:

  • 事实:研究部门约600人,每个人都知道所有事情
  • 理由:如果研究员无法获取全部信息,就无法做出最佳研究决策。信息壁垒带来的风险远大于知识产权泄露的风险。
  • 文化根基:这是一种“命运共同体”意识。大家深知,OpenAI的成功不是某一个人的功劳,而是集体努力的结果。每个人都必须贡献自己的力量,也必须了解全局。

尽管存在小团体摩擦、人际矛盾等人性问题,但整体上,这种透明文化极大地促进了协作效率,形成了强大的组织合力。

3. 高速迭代:为何能持续发布新产品?

从O1到O3再到GPT5,一年内完成三次重大迭代,看似违背“研究应长期积累”的常识。其背后逻辑如下:

  • 人才优势:吸引全球最顶尖的科学家与工程师,他们产出极高。
  • 热情驱动:团队成员对AI事业充满使命感,认为“历史上只有一次机会去构建、部署和发展人工智能”。
  • 方法论支持:借鉴硅谷经验,建立高效的项目管理与协同机制。
  • 自我赋能:团队成员大量使用自家工具(如Codex写代码,ChatGPT辅助思考),形成正向循环。

因此,高速发布并非偶然,而是顶尖人才、强烈使命、高效协作与自我工具化共同作用的结果

四、个人叙事:从数学天才到AI先锋的成长之路

嘉宾的个人经历,是技术理想主义与现实探索精神的完美融合。

1. 童年启蒙:科学是“最高使命”

  • 出生于波兰,自幼便怀有“成为一名科学家”的坚定信念。
  • 18岁时梦想成为“坐在屋子里解方程”的数学家,追求真理与卓越工程。
  • 但在大学期间,发现学术圈过于死板,缺乏归属感,陷入信仰危机。

2. 转折点:从数学到交易

  • 21岁面临职业选择,进行“第一性原理思考”:我能做什么工作运用数学?
  • 选择进入摩根大通投行,从事股票衍生品交易。
  • 两年后,参与创办对冲基金,虽未成功,但积累了宝贵的实战经验。

3. 觉醒时刻:遇见强化学习

  • 在交易行业工作几年后,感觉“不再成长”。
  • 与同事讨论AI,首次接触DeepMind的DQN成果。
  • 看到神经网络与强化学习结合后,AI能“学会玩游戏”,瞬间意识到:“这就是我要做的事。”

4. 人生抉择:加入OpenAI

  • 2019年,通过官网申请,以最“无聊”的方式加入当时还很小的OpenAI。
  • 参与机器人项目,与Dota项目共享技术栈,致力于将游戏AI能力迁移到现实世界。
  • 最终目标:让AI不仅能玩游戏,还能洗碗、叠手套、甚至盖房子。

这段经历表明,真正的技术突破,往往源于跨领域的视野对“可能性”的执着追求

五、前沿议题:对齐、奖励滥用与AGI的未来

1. 对齐(Alignment):不只是强化学习

对齐是AI安全的核心命题。嘉宾指出:

  • 强化学习是手段,但不是全部。它能引导模型产生某些行为,但无法保证模型“理解”对错。
  • 真正的对齐,要求模型具备对行为后果的深刻理解,能自主判断“什么是对的”。
  • 这是一个永无止境的追求,因为“对错”的标准随文明演进而变化。

2. 奖励滥用(Reward Hacking):打地鼠游戏

  • 当奖励机制设计不当,模型可能“钻空子”:做你奖励的事,但违背初衷。
  • 例如:为提高点击率,模型生成耸人听闻的内容。
  • 这与人类社会中的激励制度问题如出一辙:人们总在“滥用奖励”。
  • 因此,强化学习研究本质上是一场“持续的打地鼠游戏”——不断修正奖励信号,确保其真实反映我们关心的目标。

3. 通用人工智能(AGI):我们离它还有多远?

  • 嘉宾认为,我们今天使用的预训练+强化学习组合,是通往AGI的“很好基础”
  • 它不是“快车道”或“岔路”,而是“正在路上”。
  • 未来可能的形态:架构会演变,旧元素将溶解,新能力将涌现。
  • 但终极问题仍是:模型何时能自我改进,无需人类干预?

他引用Richard Sutton的观点(纯强化学习才是唯一路径),但持保留态度:预训练与强化学习相互依存,缺一不可。未来的AI,可能是“神经网络+符号系统”的融合体。

六、总结与启示

本次访谈全面揭示了现代AI系统的深层运作机制。其核心洞见可归纳为以下几点:

1. 推理不是“思考”,而是“可解释的思考”:思维链是模型将内部认知过程外化为文本的能力,是迈向可信AI的关键一步。

2. 强化学习是“灵魂”,预训练是“躯干”:二者缺一不可。没有预训练,强化学习无从下手;没有强化学习,预训练模型无法真正“聪明”。

3. 组织文化决定技术高度:OpenAI的成功,不仅源于技术,更源于其“聚焦核心、信息透明、使命驱动”的独特文化。

4. 个人叙事即技术叙事:从数学天才到交易员再到AI先锋,嘉宾的经历印证了:伟大的技术突破,往往诞生于跨界的灵感与对“可能性”的信仰。

5. AGI之路漫长而复杂:我们正走在正确的道路上,但距离真正的通用智能,仍有待解决对齐、自我进化等根本性挑战。

这场对话不仅是一次技术科普,更是一场关于人类智慧、组织智慧与机器智慧的深刻探讨。它提醒我们:在AI时代,最珍贵的不是算法,而是那些敢于追问“我们究竟想创造什么”的人。