#193. OpenAI IMO 团队谈论模型为何终于能解决顶尖数学难题
概述
1. 访谈概述
访谈主题与背景
本期播客《跨国串门计划》克隆并翻译了《Training Data》的一期重磅访谈,聚焦于OpenAI在国际数学奥林匹克竞赛(IMO)中取得金牌级表现的AI系统。这一成就标志着人工智能在复杂推理、长期思维和自我认知能力方面迈出了历史性一步,被视为通向通用人工智能(AGI)的关键里程碑。
该AI模型并非专为数学设计的狭义系统,而是基于可扩展的通用推理架构,在仅几个月内完成冲刺开发,并成功解答了IMO六道高难度题目中的五道,达到人类金牌选手水平。尤其引人注目的是,它在面对最难的第六题时选择“承认无解”,展现出前所未有的元认知能力。
参与人员介绍
- 主持人:伊凯
一位专注于AI领域的产品经理,主持《跨国串门计划》,致力于将全球优质外语科技内容以AI声纹克隆+精准翻译的方式带给中文听众。
- 嘉宾:
- Alex:OpenAI研究员,项目核心技术负责人,长期研究难以验证任务下的强化学习与推理扩展。
- Cheryl Hsu:多智能体与博弈AI专家,曾参与Poker AI、外交游戏AI等项目,在本项目中负责测试与并行计算优化。
- Norembrown:前外部访客,现OpenAI成员,早期提出“让模型思考数小时”的设想,推动长时间推理方向的发展。
访谈时长与主要内容
本次访谈约持续45分钟,围绕以下核心议题展开:
- 项目起源与立项过程
- 技术突破的核心机制
- 模型如何应对IMO挑战及结果验证方式
- 多智能体与并行计算的角色
- 对未来超级智能的启示
2. 核心观点
主要讨论的核心议题
1. AI为何能在IMO上取得突破?
2. 这项技术是否具有通用性?能否迁移到其他领域?
3. 模型“知道自己不知道”意味着什么?这是真正的“自知之明”吗?
4. 从GSM8K到IMO,AI数学能力跃迁背后的推动力是什么?
5. 形式化验证(如Lean) vs 非形式化自然语言推理:哪条路径更具前景?
各方观点与立场
| 观点维度 | Alex | Cheryl Hsu | Norembrown |
|--------|------|-----------|------------|
| 项目动机 | 推动在“难以验证任务”上的通用推理进步 | 支持构建可迁移的技术栈 | 实现早年关于“长时间思考AI”的愿景 |
| 技术哲学 | 强调通用性 > 定制化 | 反对耗时多年的单一任务系统 | 基础设施复用是关键 |
| 模型行为解读 | “承认无解”是重大进步,反映更健康的推理模式 | 不追求人类可读性,但可通过后处理提升 | 自我监控机制值得深入研究 |
| 未来展望 | 距离千禧年难题仍遥远,需指数级推理时间扩展 | 多智能体协同是扩展算力的有效路径 | 测试瓶颈将成为进展限制因素 |
关键论点与支持论据
#### ✅ 论点一:这不是一个“数学专用AI”,而是一次通用推理能力的验证
- 支持证据:
- 所用技术未针对IMO定制,而是沿用OpenAI现有基础设施(如ChatGPT智能体系统)。
- 目标不是赢得比赛本身,而是探索“如何让AI进行长时间、高复杂度、低反馈密度的推理”。
“我们没有使用Lean,因为我们优先发展的是自然语言推理能力,而不是形式化证明系统。” —— Alex
#### ✅ 论点二:模型具备初步的“自我认知”能力
- 支持证据:
- 在面对IMO第6题时,模型经过大量计算后主动放弃求解,而非编造答案。
- 这种“拒绝回答”的行为在过去极为罕见——旧模型倾向于生成看似合理实则错误的答案(即“幻觉”)。
“能看到它现在这样,我觉得是这些模型自我认知水平的一个惊人进步。” —— Alex
#### ✅ 论点三:推理时间的扩展是质变的关键
- 支持证据:
- 一年前,AI平均只能专注推理0.1分钟;如今已能持续工作上百分钟。
- IMO平均每题需1.5小时,相当于人类天才学生的解题节奏。
“从几秒钟的小学题(GSM8K),到现在需要一个半小时的IMO题,中间是上千倍的认知负荷差异。” —— Alex
#### ✅ 论点四:评估将成为未来发展的瓶颈
- 支持证据:
- 若未来模型需运行数天甚至数月才能得出结论,则每次实验周期也将长达数月。
- 当前尚可接受1.5小时的测试延迟,但更长的推理时间将严重拖慢迭代速度。
“如果你要等一个月的结果,那进展的速度就快不起来了。” —— Norembrown
3. 关键信息
重要数据与事实
| 数据项 | 内容 |
|-------|------|
| 项目周期 | 正式冲刺仅数月,想法酝酿约6个月 |
| 团队规模 | 核心三人:Alex、Cheryl Hsu、Norembrown |
| IMO成绩 | 解出6题中的5题,达到金牌水平 |
| 第6题结果 | 模型未尝试或失败,最终输出“无法求解” |
| AIME历史表现 | 15个月前正确率仅为12% |
| 验证方式 | 由三位前IMO奖牌得主独立评分,达成一致才认定正确 |
| 推理时长 | 单题最长可达100分钟以上(远超传统模型) |
专业术语解释
| 术语 | 解释 |
|------|------|
| IMO(International Mathematical Olympiad) | 国际数学奥林匹克竞赛,全球最高水平的中学生数学赛事,每年6道题,满分42分,金牌线通常为29分左右。 |
| GSM8K | 小学数学应用题数据集,共8,500道题,曾是衡量AI基础推理能力的标准 benchmark。 |
| AIME | 美国数学邀请赛,介于AMC和IMO之间的进阶赛事,用于选拔美国IMO国家队。 |
| Lean | 一种交互式定理证明器(proof assistant),允许将数学命题形式化并由计算机验证其正确性。 |
| 非形式化数学推理 | 使用自然语言进行数学推导,不要求每一步都严格形式化,更贴近人类数学家的工作方式。 |
| 难以验证的任务(hard-to-verify tasks) | 指那些结果难以自动判断对错的任务(如开放性问题、创造性推理),传统强化学习难以施加奖励信号。 |
行业洞察与趋势
#### 🔍 趋势一:AI正从“答题机器”迈向“思考者”
- 过去AI的目标是快速给出答案,而现在强调过程合理性、逻辑连贯性和不确定性表达。
- “我不知道”成为一种有价值的输出,代表系统不再盲目迎合用户期待。
#### 🔍 趋势二:通用推理能力正在形成统一技术栈
- OpenAI明确表示,本次IMO项目的底层技术与ChatGPT智能体、多轮对话系统、自主规划工具共享同一套架构。
- 这意味着未来的AI产品将普遍具备更强的链式推理(Chain-of-Thought)、反思(Self-reflection)和任务分解能力。
#### 🔍 趋势三:多智能体协作成为扩展算力的新范式
- 团队提及使用多智能体系统来实现并行搜索、假设生成与交叉验证。
- 类似于AlphaGo中的“自我对弈”,多个AI代理可在不同策略下协同探索解空间。
#### 🔍 趋势四:人类专家仍是不可或缺的验证环节
- 尽管模型能生成证明,但目前仍依赖人类数学家(尤其是IMO级别)进行最终评判。
- 形式化工具(如Lean)虽精确,但普及度有限;非形式化推理更具现实适用性。
4. 重要案例
案例一:IMO比赛日的真实体验——凌晨1点的紧张等待
- 情境还原:
- IMO试题公布时间为考试结束后立即发布(北京时间凌晨1点)。
- 团队迅速将题目输入模型,开始运行推理流程。
- Cheryl Hsu选择睡觉,“总不能熬四个半小时吧?”
- Alex与Norembrown全程守候,实时观察模型输出。
- 关键时刻:
- 第一题很快解出,信心大增。
- 第三题耗时较长,但最终成功。
- 第六题运行良久后返回:“无法找到有效解法。”
- 情绪反应:
- 对前五题的成功感到激动与欣慰。
- 对第六题的“放弃”感到些许失望,但更多是惊喜:“它居然没瞎编!”
“有没有人给Nom打电话说快醒醒,我们搞定了?”
—— 主持人调侃,暗示历史性时刻的到来。
案例二:模型“外星人式”的证明风格
- 现象描述:
- 模型生成的证明逻辑严密,但结构混乱、跳跃性强,被形容为“像外星人的语言”。
- 缺乏人类习惯的叙述顺序与美学组织。
- 应对策略:
- 团队考虑过用ChatGPT重写为易读版本。
- 最终决定公开原始输出,以保持透明性与科学诚信。
- 深层意义:
- 表明AI的思维方式可能根本不同于人类。
- 提醒我们:未来AI的“智慧”未必以人类熟悉的形式呈现。
案例三:内部打赌事件——金牌概率之争
- 事件回顾:
- 赛前两个月,Alex与另一位OpenAI研究员打赌是否能拿IMO金牌。
- 对方认为不可能,愿接受1赔2的赔率(即认为胜率低于33%)。
- 最终因“影响士气”未实际下注。
- 象征意义:
- 反映出即使在OpenAI内部,对该成果也缺乏充分预期。
- 凸显技术突破的突然性与非线性特征。
“他岂不是错过了赚点零花钱的机会?”
—— 主持人幽默点评,实则揭示AI进步速度之迅猛。
案例四:从12%到金牌——AIME到IMO的飞跃
- 背景对比:
- 15个月前,模型在AIME(美国数学邀请赛)上正确率仅为12%,几乎无法应对高中竞赛题。
- 如今已在IMO(世界级难题)上达到金牌水平。
- 技术演进路径:
1. 预训练增强:更大规模的数据与更优的训练目标。
2. 强化学习优化:在缺乏明确奖励信号的情况下,通过过程奖励建模(Process Reward Modeling)引导推理质量。
3. 推理时间扩展:允许模型“深思熟虑”,而非即时响应。
4. 多智能体协同:多个子模型分工合作,模拟“头脑风暴”。
- 启示:
- 数学能力的进步并非线性积累,而是架构变革带来的质变。
- 评测标准(如GSM8K)已“饱和”,需转向更高阶挑战。
5. 总结与思考
访谈要点总结
1. 历史性突破:OpenAI的AI系统首次在IMO上达到人类金牌水平,完成五道高难度题。
2. 核心驱动力:不是更大的参数量,而是推理时间延长、通用算法改进、多智能体协同。
3. 关键技术特征:
- 能处理“难以验证”的任务;
- 具备初步的自我认知能力(会说“我不知道”);
- 使用自然语言而非形式化语言进行推理;
- 基础设施高度通用,可迁移至ChatGPT等产品。
4. 验证机制严谨:每份证明均由三位前IMO奖牌得主人工评审,确保结果可信。
5. 局限与谦卑:
- 第六题未能破解,显示仍有极限;
- 距离解决千禧年难题仍有巨大鸿沟;
- 评估成本将成为未来瓶颈。
对听众的启发
- 🌟 不要低估AI的进化速度:从12%到金牌仅用15个月,说明AI能力可能呈指数增长。
- 💡 通用性比专用性更重要:真正改变世界的技术往往是那些可以跨领域迁移的“平台型能力”。
- 🧠 “知道不知道”比“假装知道”更有价值:AI的诚实是一种高级智能的表现。
- 🔭 未来属于“长时间思考的AI”:从秒级响应到小时级沉思,AI正在模仿人类最深层的认知过程。
- ⚖️ 人机协同才是终极形态:AI提供创意与计算,人类负责审美、伦理与最终判断。