25 min 2025-08

#193. OpenAI IMO 团队谈论模型为何终于能解决顶尖数学难题

概述

1. 访谈概述

访谈主题与背景

本期播客《跨国串门计划》克隆并翻译了《Training Data》的一期重磅访谈，聚焦于OpenAI在国际数学奥林匹克竞赛（IMO）中取得金牌级表现的AI系统。这一成就标志着人工智能在复杂推理、长期思维和自我认知能力方面迈出了历史性一步，被视为通向通用人工智能（AGI）的关键里程碑。

该AI模型并非专为数学设计的狭义系统，而是基于可扩展的通用推理架构，在仅几个月内完成冲刺开发，并成功解答了IMO六道高难度题目中的五道，达到人类金牌选手水平。尤其引人注目的是，它在面对最难的第六题时选择“承认无解”，展现出前所未有的元认知能力。

参与人员介绍

主持人：伊凯

一位专注于AI领域的产品经理，主持《跨国串门计划》，致力于将全球优质外语科技内容以AI声纹克隆+精准翻译的方式带给中文听众。

嘉宾：
Alex：OpenAI研究员，项目核心技术负责人，长期研究难以验证任务下的强化学习与推理扩展。
Cheryl Hsu：多智能体与博弈AI专家，曾参与Poker AI、外交游戏AI等项目，在本项目中负责测试与并行计算优化。
Norembrown：前外部访客，现OpenAI成员，早期提出“让模型思考数小时”的设想，推动长时间推理方向的发展。

访谈时长与主要内容

本次访谈约持续45分钟，围绕以下核心议题展开：

项目起源与立项过程
技术突破的核心机制
模型如何应对IMO挑战及结果验证方式
多智能体与并行计算的角色
对未来超级智能的启示

2. 核心观点

主要讨论的核心议题

1. AI为何能在IMO上取得突破？

2. 这项技术是否具有通用性？能否迁移到其他领域？

3. 模型“知道自己不知道”意味着什么？这是真正的“自知之明”吗？

4. 从GSM8K到IMO，AI数学能力跃迁背后的推动力是什么？

5. 形式化验证（如Lean） vs 非形式化自然语言推理：哪条路径更具前景？

各方观点与立场

|--------|------|-----------|------------|

关键论点与支持论据

#### ✅ 论点一：这不是一个“数学专用AI”，而是一次通用推理能力的验证

支持证据：
所用技术未针对IMO定制，而是沿用OpenAI现有基础设施（如ChatGPT智能体系统）。
目标不是赢得比赛本身，而是探索“如何让AI进行长时间、高复杂度、低反馈密度的推理”。

“我们没有使用Lean，因为我们优先发展的是自然语言推理能力，而不是形式化证明系统。” —— Alex

#### ✅ 论点二：模型具备初步的“自我认知”能力

支持证据：
在面对IMO第6题时，模型经过大量计算后主动放弃求解，而非编造答案。
这种“拒绝回答”的行为在过去极为罕见——旧模型倾向于生成看似合理实则错误的答案（即“幻觉”）。

“能看到它现在这样，我觉得是这些模型自我认知水平的一个惊人进步。” —— Alex

#### ✅ 论点三：推理时间的扩展是质变的关键

支持证据：
一年前，AI平均只能专注推理0.1分钟；如今已能持续工作上百分钟。
IMO平均每题需1.5小时，相当于人类天才学生的解题节奏。

“从几秒钟的小学题（GSM8K），到现在需要一个半小时的IMO题，中间是上千倍的认知负荷差异。” —— Alex

#### ✅ 论点四：评估将成为未来发展的瓶颈

支持证据：
若未来模型需运行数天甚至数月才能得出结论，则每次实验周期也将长达数月。
当前尚可接受1.5小时的测试延迟，但更长的推理时间将严重拖慢迭代速度。

“如果你要等一个月的结果，那进展的速度就快不起来了。” —— Norembrown

3. 关键信息

重要数据与事实

| 数据项 | 内容 |

|-------|------|

| 项目周期 | 正式冲刺仅数月，想法酝酿约6个月 |

| 团队规模 | 核心三人：Alex、Cheryl Hsu、Norembrown |

| IMO成绩 | 解出6题中的5题，达到金牌水平 |

| 第6题结果 | 模型未尝试或失败，最终输出“无法求解” |

| AIME历史表现 | 15个月前正确率仅为12% |

| 验证方式 | 由三位前IMO奖牌得主独立评分，达成一致才认定正确 |

| 推理时长 | 单题最长可达100分钟以上（远超传统模型） |

专业术语解释

| 术语 | 解释 |

|------|------|

| IMO（International Mathematical Olympiad） | 国际数学奥林匹克竞赛，全球最高水平的中学生数学赛事，每年6道题，满分42分，金牌线通常为29分左右。 |

| GSM8K | 小学数学应用题数据集，共8,500道题，曾是衡量AI基础推理能力的标准 benchmark。 |

| AIME | 美国数学邀请赛，介于AMC和IMO之间的进阶赛事，用于选拔美国IMO国家队。 |

| Lean | 一种交互式定理证明器（proof assistant），允许将数学命题形式化并由计算机验证其正确性。 |

| 非形式化数学推理 | 使用自然语言进行数学推导，不要求每一步都严格形式化，更贴近人类数学家的工作方式。 |

| 难以验证的任务（hard-to-verify tasks） | 指那些结果难以自动判断对错的任务（如开放性问题、创造性推理），传统强化学习难以施加奖励信号。 |

行业洞察与趋势

#### 🔍 趋势一：AI正从“答题机器”迈向“思考者”

过去AI的目标是快速给出答案，而现在强调过程合理性、逻辑连贯性和不确定性表达。
“我不知道”成为一种有价值的输出，代表系统不再盲目迎合用户期待。

#### 🔍 趋势二：通用推理能力正在形成统一技术栈

OpenAI明确表示，本次IMO项目的底层技术与ChatGPT智能体、多轮对话系统、自主规划工具共享同一套架构。
这意味着未来的AI产品将普遍具备更强的链式推理（Chain-of-Thought）、反思（Self-reflection）和任务分解能力。

#### 🔍 趋势三：多智能体协作成为扩展算力的新范式

团队提及使用多智能体系统来实现并行搜索、假设生成与交叉验证。
类似于AlphaGo中的“自我对弈”，多个AI代理可在不同策略下协同探索解空间。

#### 🔍 趋势四：人类专家仍是不可或缺的验证环节

尽管模型能生成证明，但目前仍依赖人类数学家（尤其是IMO级别）进行最终评判。
形式化工具（如Lean）虽精确，但普及度有限；非形式化推理更具现实适用性。

4. 重要案例

案例一：IMO比赛日的真实体验——凌晨1点的紧张等待

情境还原：
IMO试题公布时间为考试结束后立即发布（北京时间凌晨1点）。
团队迅速将题目输入模型，开始运行推理流程。
Cheryl Hsu选择睡觉，“总不能熬四个半小时吧？”
Alex与Norembrown全程守候，实时观察模型输出。
关键时刻：
第一题很快解出，信心大增。
第三题耗时较长，但最终成功。
第六题运行良久后返回：“无法找到有效解法。”
情绪反应：
对前五题的成功感到激动与欣慰。
对第六题的“放弃”感到些许失望，但更多是惊喜：“它居然没瞎编！”

“有没有人给Nom打电话说快醒醒，我们搞定了？”

—— 主持人调侃，暗示历史性时刻的到来。

案例二：模型“外星人式”的证明风格

现象描述：
模型生成的证明逻辑严密，但结构混乱、跳跃性强，被形容为“像外星人的语言”。
缺乏人类习惯的叙述顺序与美学组织。
应对策略：
团队考虑过用ChatGPT重写为易读版本。
最终决定公开原始输出，以保持透明性与科学诚信。
深层意义：
表明AI的思维方式可能根本不同于人类。
提醒我们：未来AI的“智慧”未必以人类熟悉的形式呈现。

案例三：内部打赌事件——金牌概率之争

事件回顾：
赛前两个月，Alex与另一位OpenAI研究员打赌是否能拿IMO金牌。
对方认为不可能，愿接受1赔2的赔率（即认为胜率低于33%）。
最终因“影响士气”未实际下注。
象征意义：
反映出即使在OpenAI内部，对该成果也缺乏充分预期。
凸显技术突破的突然性与非线性特征。

“他岂不是错过了赚点零花钱的机会？”

—— 主持人幽默点评，实则揭示AI进步速度之迅猛。

案例四：从12%到金牌——AIME到IMO的飞跃

背景对比：
15个月前，模型在AIME（美国数学邀请赛）上正确率仅为12%，几乎无法应对高中竞赛题。
如今已在IMO（世界级难题）上达到金牌水平。
技术演进路径：

1. 预训练增强：更大规模的数据与更优的训练目标。

2. 强化学习优化：在缺乏明确奖励信号的情况下，通过过程奖励建模（Process Reward Modeling）引导推理质量。

3. 推理时间扩展：允许模型“深思熟虑”，而非即时响应。

4. 多智能体协同：多个子模型分工合作，模拟“头脑风暴”。

启示：
数学能力的进步并非线性积累，而是架构变革带来的质变。
评测标准（如GSM8K）已“饱和”，需转向更高阶挑战。

5. 总结与思考

访谈要点总结

1. 历史性突破：OpenAI的AI系统首次在IMO上达到人类金牌水平，完成五道高难度题。

2. 核心驱动力：不是更大的参数量，而是推理时间延长、通用算法改进、多智能体协同。

3. 关键技术特征：

能处理“难以验证”的任务；
具备初步的自我认知能力（会说“我不知道”）；
使用自然语言而非形式化语言进行推理；
基础设施高度通用，可迁移至ChatGPT等产品。

4. 验证机制严谨：每份证明均由三位前IMO奖牌得主人工评审，确保结果可信。

5. 局限与谦卑：

第六题未能破解，显示仍有极限；
距离解决千禧年难题仍有巨大鸿沟；
评估成本将成为未来瓶颈。

对听众的启发

🌟 不要低估AI的进化速度：从12%到金牌仅用15个月，说明AI能力可能呈指数增长。
💡 通用性比专用性更重要：真正改变世界的技术往往是那些可以跨领域迁移的“平台型能力”。
🧠 “知道不知道”比“假装知道”更有价值：AI的诚实是一种高级智能的表现。
🔭 未来属于“长时间思考的AI”：从秒级响应到小时级沉思，AI正在模仿人类最深层的认知过程。
⚖️ 人机协同才是终极形态：AI提供创意与计算，人类负责审美、伦理与最终判断。