← 返回
25 min 2025-08

#193. OpenAI IMO 团队谈论模型为何终于能解决顶尖数学难题

概述

1. 访谈概述

访谈主题与背景

本期播客《跨国串门计划》克隆并翻译了《Training Data》的一期重磅访谈,聚焦于OpenAI在国际数学奥林匹克竞赛(IMO)中取得金牌级表现的AI系统。这一成就标志着人工智能在复杂推理、长期思维和自我认知能力方面迈出了历史性一步,被视为通向通用人工智能(AGI)的关键里程碑。

该AI模型并非专为数学设计的狭义系统,而是基于可扩展的通用推理架构,在仅几个月内完成冲刺开发,并成功解答了IMO六道高难度题目中的五道,达到人类金牌选手水平。尤其引人注目的是,它在面对最难的第六题时选择“承认无解”,展现出前所未有的元认知能力

参与人员介绍

  • 主持人:伊凯

一位专注于AI领域的产品经理,主持《跨国串门计划》,致力于将全球优质外语科技内容以AI声纹克隆+精准翻译的方式带给中文听众。

  • 嘉宾:
  • Alex:OpenAI研究员,项目核心技术负责人,长期研究难以验证任务下的强化学习与推理扩展。
  • Cheryl Hsu:多智能体与博弈AI专家,曾参与Poker AI、外交游戏AI等项目,在本项目中负责测试与并行计算优化。
  • Norembrown:前外部访客,现OpenAI成员,早期提出“让模型思考数小时”的设想,推动长时间推理方向的发展。

访谈时长与主要内容

本次访谈约持续45分钟,围绕以下核心议题展开:

  • 项目起源与立项过程
  • 技术突破的核心机制
  • 模型如何应对IMO挑战及结果验证方式
  • 多智能体与并行计算的角色
  • 对未来超级智能的启示

2. 核心观点

主要讨论的核心议题

1. AI为何能在IMO上取得突破?

2. 这项技术是否具有通用性?能否迁移到其他领域?

3. 模型“知道自己不知道”意味着什么?这是真正的“自知之明”吗?

4. 从GSM8K到IMO,AI数学能力跃迁背后的推动力是什么?

5. 形式化验证(如Lean) vs 非形式化自然语言推理:哪条路径更具前景?

各方观点与立场

| 观点维度 | Alex | Cheryl Hsu | Norembrown |

|--------|------|-----------|------------|

| 项目动机 | 推动在“难以验证任务”上的通用推理进步 | 支持构建可迁移的技术栈 | 实现早年关于“长时间思考AI”的愿景 |

| 技术哲学 | 强调通用性 > 定制化 | 反对耗时多年的单一任务系统 | 基础设施复用是关键 |

| 模型行为解读 | “承认无解”是重大进步,反映更健康的推理模式 | 不追求人类可读性,但可通过后处理提升 | 自我监控机制值得深入研究 |

| 未来展望 | 距离千禧年难题仍遥远,需指数级推理时间扩展 | 多智能体协同是扩展算力的有效路径 | 测试瓶颈将成为进展限制因素 |

关键论点与支持论据

#### ✅ 论点一:这不是一个“数学专用AI”,而是一次通用推理能力的验证

  • 支持证据
  • 所用技术未针对IMO定制,而是沿用OpenAI现有基础设施(如ChatGPT智能体系统)。
  • 目标不是赢得比赛本身,而是探索“如何让AI进行长时间、高复杂度、低反馈密度的推理”。
“我们没有使用Lean,因为我们优先发展的是自然语言推理能力,而不是形式化证明系统。” —— Alex

#### ✅ 论点二:模型具备初步的“自我认知”能力

  • 支持证据
  • 在面对IMO第6题时,模型经过大量计算后主动放弃求解,而非编造答案。
  • 这种“拒绝回答”的行为在过去极为罕见——旧模型倾向于生成看似合理实则错误的答案(即“幻觉”)。
“能看到它现在这样,我觉得是这些模型自我认知水平的一个惊人进步。” —— Alex

#### ✅ 论点三:推理时间的扩展是质变的关键

  • 支持证据
  • 一年前,AI平均只能专注推理0.1分钟;如今已能持续工作上百分钟。
  • IMO平均每题需1.5小时,相当于人类天才学生的解题节奏。
“从几秒钟的小学题(GSM8K),到现在需要一个半小时的IMO题,中间是上千倍的认知负荷差异。” —— Alex

#### ✅ 论点四:评估将成为未来发展的瓶颈

  • 支持证据
  • 若未来模型需运行数天甚至数月才能得出结论,则每次实验周期也将长达数月。
  • 当前尚可接受1.5小时的测试延迟,但更长的推理时间将严重拖慢迭代速度。
“如果你要等一个月的结果,那进展的速度就快不起来了。” —— Norembrown

3. 关键信息

重要数据与事实

| 数据项 | 内容 |

|-------|------|

| 项目周期 | 正式冲刺仅数月,想法酝酿约6个月 |

| 团队规模 | 核心三人:Alex、Cheryl Hsu、Norembrown |

| IMO成绩 | 解出6题中的5题,达到金牌水平 |

| 第6题结果 | 模型未尝试或失败,最终输出“无法求解” |

| AIME历史表现 | 15个月前正确率仅为12% |

| 验证方式 | 由三位前IMO奖牌得主独立评分,达成一致才认定正确 |

| 推理时长 | 单题最长可达100分钟以上(远超传统模型) |

专业术语解释

| 术语 | 解释 |

|------|------|

| IMO(International Mathematical Olympiad) | 国际数学奥林匹克竞赛,全球最高水平的中学生数学赛事,每年6道题,满分42分,金牌线通常为29分左右。 |

| GSM8K | 小学数学应用题数据集,共8,500道题,曾是衡量AI基础推理能力的标准 benchmark。 |

| AIME | 美国数学邀请赛,介于AMC和IMO之间的进阶赛事,用于选拔美国IMO国家队。 |

| Lean | 一种交互式定理证明器(proof assistant),允许将数学命题形式化并由计算机验证其正确性。 |

| 非形式化数学推理 | 使用自然语言进行数学推导,不要求每一步都严格形式化,更贴近人类数学家的工作方式。 |

| 难以验证的任务(hard-to-verify tasks) | 指那些结果难以自动判断对错的任务(如开放性问题、创造性推理),传统强化学习难以施加奖励信号。 |

行业洞察与趋势

#### 🔍 趋势一:AI正从“答题机器”迈向“思考者”

  • 过去AI的目标是快速给出答案,而现在强调过程合理性、逻辑连贯性和不确定性表达
  • “我不知道”成为一种有价值的输出,代表系统不再盲目迎合用户期待。

#### 🔍 趋势二:通用推理能力正在形成统一技术栈

  • OpenAI明确表示,本次IMO项目的底层技术与ChatGPT智能体、多轮对话系统、自主规划工具共享同一套架构。
  • 这意味着未来的AI产品将普遍具备更强的链式推理(Chain-of-Thought)、反思(Self-reflection)和任务分解能力

#### 🔍 趋势三:多智能体协作成为扩展算力的新范式

  • 团队提及使用多智能体系统来实现并行搜索、假设生成与交叉验证。
  • 类似于AlphaGo中的“自我对弈”,多个AI代理可在不同策略下协同探索解空间。

#### 🔍 趋势四:人类专家仍是不可或缺的验证环节

  • 尽管模型能生成证明,但目前仍依赖人类数学家(尤其是IMO级别)进行最终评判
  • 形式化工具(如Lean)虽精确,但普及度有限;非形式化推理更具现实适用性。

4. 重要案例

案例一:IMO比赛日的真实体验——凌晨1点的紧张等待

  • 情境还原
  • IMO试题公布时间为考试结束后立即发布(北京时间凌晨1点)。
  • 团队迅速将题目输入模型,开始运行推理流程。
  • Cheryl Hsu选择睡觉,“总不能熬四个半小时吧?”
  • Alex与Norembrown全程守候,实时观察模型输出。
  • 关键时刻
  • 第一题很快解出,信心大增。
  • 第三题耗时较长,但最终成功。
  • 第六题运行良久后返回:“无法找到有效解法。”
  • 情绪反应
  • 对前五题的成功感到激动与欣慰。
  • 对第六题的“放弃”感到些许失望,但更多是惊喜:“它居然没瞎编!”
“有没有人给Nom打电话说快醒醒,我们搞定了?”
—— 主持人调侃,暗示历史性时刻的到来。

案例二:模型“外星人式”的证明风格

  • 现象描述
  • 模型生成的证明逻辑严密,但结构混乱、跳跃性强,被形容为“像外星人的语言”。
  • 缺乏人类习惯的叙述顺序与美学组织。
  • 应对策略
  • 团队考虑过用ChatGPT重写为易读版本。
  • 最终决定公开原始输出,以保持透明性与科学诚信
  • 深层意义
  • 表明AI的思维方式可能根本不同于人类。
  • 提醒我们:未来AI的“智慧”未必以人类熟悉的形式呈现。

案例三:内部打赌事件——金牌概率之争

  • 事件回顾
  • 赛前两个月,Alex与另一位OpenAI研究员打赌是否能拿IMO金牌。
  • 对方认为不可能,愿接受1赔2的赔率(即认为胜率低于33%)。
  • 最终因“影响士气”未实际下注。
  • 象征意义
  • 反映出即使在OpenAI内部,对该成果也缺乏充分预期。
  • 凸显技术突破的突然性与非线性特征。
“他岂不是错过了赚点零花钱的机会?”
—— 主持人幽默点评,实则揭示AI进步速度之迅猛。

案例四:从12%到金牌——AIME到IMO的飞跃

  • 背景对比
  • 15个月前,模型在AIME(美国数学邀请赛)上正确率仅为12%,几乎无法应对高中竞赛题。
  • 如今已在IMO(世界级难题)上达到金牌水平。
  • 技术演进路径

1. 预训练增强:更大规模的数据与更优的训练目标。

2. 强化学习优化:在缺乏明确奖励信号的情况下,通过过程奖励建模(Process Reward Modeling)引导推理质量。

3. 推理时间扩展:允许模型“深思熟虑”,而非即时响应。

4. 多智能体协同:多个子模型分工合作,模拟“头脑风暴”。

  • 启示
  • 数学能力的进步并非线性积累,而是架构变革带来的质变
  • 评测标准(如GSM8K)已“饱和”,需转向更高阶挑战。

5. 总结与思考

访谈要点总结

1. 历史性突破:OpenAI的AI系统首次在IMO上达到人类金牌水平,完成五道高难度题。

2. 核心驱动力:不是更大的参数量,而是推理时间延长、通用算法改进、多智能体协同

3. 关键技术特征

  • 能处理“难以验证”的任务;
  • 具备初步的自我认知能力(会说“我不知道”);
  • 使用自然语言而非形式化语言进行推理;
  • 基础设施高度通用,可迁移至ChatGPT等产品。

4. 验证机制严谨:每份证明均由三位前IMO奖牌得主人工评审,确保结果可信。

5. 局限与谦卑

  • 第六题未能破解,显示仍有极限;
  • 距离解决千禧年难题仍有巨大鸿沟;
  • 评估成本将成为未来瓶颈。

对听众的启发

  • 🌟 不要低估AI的进化速度:从12%到金牌仅用15个月,说明AI能力可能呈指数增长。
  • 💡 通用性比专用性更重要:真正改变世界的技术往往是那些可以跨领域迁移的“平台型能力”。
  • 🧠 “知道不知道”比“假装知道”更有价值:AI的诚实是一种高级智能的表现。
  • 🔭 未来属于“长时间思考的AI”:从秒级响应到小时级沉思,AI正在模仿人类最深层的认知过程。
  • ⚖️ 人机协同才是终极形态:AI提供创意与计算,人类负责审美、伦理与最终判断。