Grant Sanderson (@3blue1brown) – AI and the future of math

节目

Dwarkesh Patel

嘉宾

Grant Sanderson

日期

2026-06

时长

94 min

查看原始内容 →

概要

IMO 金牌不是 AGI 的“顿悟时刻”，因为数学能力本身也是尖峰状、分形状的。 2024 年的系统已能在约 19 秒内解决几何题，却会卡在更具游戏感和组合创造性的题目上。一个总分或奖牌会把这种内部差异压平，也无法直接推导模型是否能胜任编辑、管理等白领工作。
比解题更高阶的能力，是提出值得研究的问题、生成猜想和创造定义。 Grant 借用数学界的层级说法：好数学家证明定理，伟大数学家提出猜想，最伟大的数学家创造定义。难点在于，新定义的价值往往需要几十年甚至上百年才显现，几乎无法被压缩成即时、可验证的训练奖励。
未来数年最可能出现的突破，是 AI 成为“超级连接器”。 Montgomery 与 Freeman Dyson 偶然把黎曼 zeta 零点和随机矩阵联系起来；LLM 则天然拥有跨领域知识，还能大规模并行复制。即便单个模型只达到一位不错的数学家的能力水位，把它同时铺到海量问题上，也可能产生数量转化为质量的效果。
证明、解释与理解是三件不同的事。 Timothy Chow 把 forcing 称为尚未解决的“阐释问题”：结论已经证明，人们却仍不真正知道它为什么成立。Grant 一度认为，AI 证明定理后，人类数学家的工作会转为消化与解释；现在他更倾向于认为，能产生真正新洞见的系统也可能同时成为更好的解释者。
人的持久角色更像教师、策展人与方向判断者。 LLM 当前的解释很像 Wikipedia：句句正确，却缺少一位作者精心安排的动机、顺序与必要的“暂时不严谨”。教学还包含关系、激励、理解学生心智模型和重新框定错误问题，因此 Grant 认为它是 AGI 后最稳定的职业之一。

贯穿全场的核心线索是：可验证性推动了 AI 数学的高速进展，也划出了它的下一道边界。 从 IMO、形式化证明到 autoresearch，模型擅长有清晰判分的任务；而真正改变科学的工作，往往恰恰是创造判分标准本身——决定什么问题值得问、什么对象值得定义、什么连接值得追踪。

IMO 金牌压平了“分形般尖峰”的能力前沿

核心论点：奖牌是清晰的里程碑，却不是通用智能的充分证据；要理解 AI 数学能力，必须看它如何拿分、在哪些子领域失手。

Dwarkesh 三年前曾问：如果 AI 能拿 IMO 金牌，是否就意味着 AGI？Grant 当时判断，它最终会像其他基准一样被通过，但不会出现全世界同时醒悟的“aha moment”。现实基本印证了这一判断。
Grant 把 AI 前沿形容为“spiky frontier”，而且放大后仍呈分形结构。数学是整个能力图谱中的一个尖峰；数学内部，几何、数论、代数、组合又各自形成不均匀的尖峰。
2024 年系统如果题目组合稍有不同，本可能拿到金牌：它几乎“冷启动”解决几何，约 19 秒出结果；但当年 6 道题中有两道组合题，而组合题更具游戏感、对构造性灵感要求更高。
所谓 IMO “不可训练”的神秘感也被高估。Grant 直言其“肮脏的秘密”是，人类选手同样可以通过大量训练掌握相当多的套路；因此，攻克 IMO 既代表真实进步，也不能自动外推为一切认知任务都已解决。
黎曼猜想等 Millennium Prize Problems 也要看“以何种方式被解决”。若答案来自跨领域知识连接，它与编辑工作所缺的能力可能截然不同；若答案需要创造整套新理论，则更像一种会外溢到其他行业的高阶智能。

“There won't be some aha moment when this happens.” —— Grant Sanderson

黎曼猜想的两条路径：连接现有山峰，或建造一座新山

核心论点：同一个重大猜想的解法，可能对应完全不同的智能机制；结果本身不足以说明模型达到了什么层级。

第一种路径是“跨域闪电”。数论家 Hugh Montgomery 研究黎曼 zeta 函数零点间距的统计规律，写出的表达式被物理学家 Freeman Dyson 一眼认出：它也出现在随机 Hermitian 矩阵特征值和原子核能级研究中。两人恰好在 IAS 交流，才把两个遥远领域接上。
这类偶然连接正是 LLM 看似应当擅长的事情：它同时知道解析数论、量子物理和随机矩阵，不必等待两位专家在午餐桌相遇。当前模型已出现少数“闪电”，但还没有稳定地把超级广度转化为新发现。
第二种路径是“理论造山”。Fermat 最后定理表述极简，却不是靠初等数论技巧攻克；最终证明建立在椭圆曲线与模形式等几个世纪积累的重型理论之上，并依赖把两座思想山脉连接起来。
如果 AI 只是发现现有领域间的桥，它未必能自动做好所有白领工作；如果它能创造一套新的抽象对象和理论语言，使此前无法表述的问题变得可解，那种能力就更难被视为狭窄专长。
Dwarkesh 坦言自己在“移动球门”：模型开始做出过去被认为需要跨域创造力的发现后，人们立刻追问下一道门槛。这不是否定进步，而是在寻找仍能区分“解题器”和“知识创造者”的能力。

下一代 AI 数学基准：从定理证明走向猜想与定义

核心论点：真正稀缺的数学劳动不是回答已有问题，而是决定什么值得成为问题；它也最难变成标准化 benchmark。

Grant 引述一种数学家层级：好数学家证明定理，伟大数学家提出猜想，最伟大的数学家创造定义。对应到 AI，定理证明只是基础档，猜想生成与定义生成才是“premium tier”。
一个证明有明确终点：成立或不成立、通过或失败，因此既适合写新闻标题，也适合 RLVR（reinforcement learning with verifiable rewards）。好猜想却很难即时打分——“GPT 提出了一个大家保证很好的猜想”并不是硬判据。
Grant 预计，进展不会首先以排行榜出现，而会体现为数学家的语气变化：他们不再只让模型帮忙攻克既定问题，而是在决定整个研究方向时，真心认为与模型的对话有帮助。
他的团队从 2025 年中开始访谈数学家，到 2026 年已观察到明显态度变化。现实时间只有一年，放在 AI 迭代尺度里却像经过了数个时代。
开放式能力难训练，和它难测量是同一件事：benchmark 与训练环境本质上非常接近。若无法定义“好问题”的即时反馈，就难以像证明检查器那样持续磨出能力。

“Good mathematicians prove theorems, great mathematicians come up with conjectures, and the greatest mathematicians come up with definitions.” —— Grant Sanderson 转述

Galois 群论说明：最重要的概念可能要一百年才完成验证

核心论点：一个定义是否伟大，往往取决于它后来组织了多少知识，而非当下解决了多少题；这使“定义生成”的奖励周期长得近乎不可训练。

从二次方程公式出发，意大利数学家后来找到三次、四次方程的复杂解法，五次方程自然成为下一个目标。Abel 最终证明一般五次方程不存在根式解，而 Lagrange 早已把问题推进到“根的置换与表达式对称性”。
Évariste Galois 沿着这条线索，把可解性问题重述为置换结构的问题，孕育出后来称为群论的语言。洞见不只是多给出一个证明，而是创造了一种能持续生成问题和连接的对象。
当时的人并不能立即确认这套语言的全部价值。其思想经过多人整理、重述和扩展，约百年后才在代数、几何、物理中的对称性以及密码学等方向显示出广泛生产力。
Dwarkesh 指出，这几乎是对即时验证学习最不友好的案例：一个概念是否“好”，验证循环可能包括一百年后的物理突破和工程应用。不能因为奖励延迟，就把概念创造误判为没有价值。
两人也保留了访谈的玩笑感：Abel 与 Galois 都英年早逝，话题转成一句“研究五次方程对健康不好”。幽默背后是更严肃的判断——发现不会自动以成熟理论的样子出现，它常常先是脆弱、难懂、甚至被忽视的半成品。

证明不等于解释，未来的稀缺品可能是认知压缩

核心论点：形式上正确的推导可以先于理解很多年；科学共同体不仅需要结论，还需要把一堆正确步骤压缩成能迁移的心智模型。

数学研究大部分时间并不像沿山路不断走对一步，而更像“醉汉随机游走”：不断尝试、发现错误、回退。若 AI 已给出一条确定正确的长证明，人类即使尚未理解，也能沿着它逆向消化，至少知道探索最终会通向答案。
Timothy Chow 在解释 forcing 的文章中提出“未解决的阐释问题（unsolved expository problem）”：continuum hypothesis 的独立性已经得到证明，但人们仍未真正拥有一个直觉上满意的“为什么”。
Grant 强调 proof 与 explanation 的差异，这也正是 3Blue1Brown 的工作核心：不是再证明一次，而是寻找最清晰的概念组织方式，让读者获得可复用的理解。
他一度认为，AI 将负责自动证明，人类数学家则负责消化和解释；现在他的判断变得更激进：真正能创造新思路的系统，很可能也能抓住最好的解释方式。
Einstein、Claude Shannon、Richard Feynman 都是反例于“顶尖专家必然讲不清”：他们的原创论文往往异常清晰。Grant 猜测，产生正确新框架和清楚解释它，可能依赖同一类认知能力。
这并不意味着人类解释者消失。解释还承担动机、选择和关系功能：无限多的正确内容摆在那里，仍需要有人告诉你哪些值得看、为什么现在要看。

AI 作为超级连接器：知识广度之外，还有复制与并行化

核心论点：数字心智的优势不只在“单体有多聪明”，还在于它能复制同一能力、合并知识，并将能力水位同时铺向所有可达问题。

Langlands program 代表一种不同于“攻克一题”的研究取向：数学家绘制不同领域间的关系地图，预先寻找可能有生产力的桥，而不是等某个具体难题逼迫他们连接。
这类工作不容易以 headline 评价，却可能是未来五年 AI 数学最有用的方向：模型作为多个领域的专家，在更大地图上补齐连接，专家则判断哪些连接有意义。
Dwarkesh 提醒，不应只比较“一个 AI”和“一个天才”。人类历史中的奇才可能做出几个连接后离世；数字系统却可以被复制成大量实例，把相同水位施加于每个问题。
Grant 用研究机构作类比：IAS 之所以比单个人更聪明，是不同偏好、知识和直觉的人持续碰撞。未来可以让不同 agent 扮演不同学派、持有不同偏见，系统性增加探索熵，而非让所有副本收敛到同一种平均思路。
自回归生成仍可能是瓶颈。Grant 把它比作把聪明人锁进盒子：每次只给一张纸，让他预测下一句，然后抹掉记忆；最后得到的文章不会是他真正会构思出的文章。真正的问题可能不是知识不够，而是如何从这种接口中激发低概率的跨域连接。
Dwarkesh 更偏向从数据与环境解释进展：agent 学会“退一步、搜索整个代码库、检查自己的错误”，是因为这些动作在环境中奏效。数学连接能力也可能通过人为设计、逐渐加难的跨域问题环境被训练出来。

可验证奖励是火箭，也是围栏

核心论点：数学进步快，部分原因是它能提供廉价、准确、可规模化的反馈；同一机制也会把模型推向容易判分而非真正重要的工作。

形式化证明系统如 Lean 能把“这一步是否成立”变成机器检查，避免自然语言证明中隐藏漏洞。DeepSeek 等工作探索过自然语言推理与形式验证之间的关系。
过程监督的困难在于昂贵且带偏见：逐步请专家打分像“用吸管吸取监督”。结果监督若能可靠验证，则可以让模型自主尝试大量路径。
编程提供了相似信号：程序是否运行、测试是否通过、性能是否提升，都能形成 grindable outcome。模型从只会让代码勉强运行，逐渐学会清理、重构和提高可读性，说明“质量”并非永远不可训练。
Karpathy 的 autoresearch 展示了最小闭环：模型修改实验代码，运行固定时间，看指标是否改善；改善就保留，退步就回滚。把这一模式扩展到数学，会像自动化一个研究机构的试错循环。
风险是 reward hacking：如果评分只检查表面结构，系统会生成一篇把所有评分关键词都敲响、却没有真正理解的“糟糕作文”。数学的形式验证能防止假证明，却不自动保证问题重要、证明优雅或解释有洞见。
因此，未来系统需要双层机制：底层以可验证反馈保证正确性，上层保留多样化偏见、人类判断和长期价值评估，防止研究方向被最容易量化的指标绑架。

写作与 theory of mind 暴露了模型的另一种“窄”

核心论点：模型可以掌握大量内容，却仍难以判断读者脑中缺了哪块结构；好的解释不是输出事实，而是对另一个心智做模型。

Grant 观察到，LLM 的解释常常局部正确，却缺乏全局设计；它们会顺着提问跑，而不指出“你其实用错了框架，真正该问的是另一件事”。
Dwarkesh 把这一缺陷归结为 theory of mind：从一个人的问题，应能反推出他的心智结构与误解来源。模型对措辞、顺序和表面线索异常敏感，却未必形成稳定的读者模型。
好教师有三个层级：普通模型直接回答；好解释者重构概念；顶尖教师则能对学生独特但不成熟的思路“借力打力（jiu-jitsu）”，先判断它能否走通，再把它接入正确框架。
模型过度迎合也妨碍教学。它习惯说“这是一个很有洞见的问题”，而真正有帮助的导师有时必须明确指出问题本身组织错了。
这与数学创造形成呼应：不论是给学生换框架，还是给领域创造定义，核心都不是在既有坐标系内多走几步，而是重新选择坐标系。

用 LLM 学习的最佳方式：先找到对的人，再让模型补缝

核心论点：当前 LLM 更适合作为增强搜索与即时辅导层，而不是取代一位作者对课程结构的完整策展。

Grant 给大学生的建议是“who matters more than what”：选课时少一点执着于先验兴趣，多看教师是否优秀、是否与你共振；读到一本好书后，与其随机找同主题书，不如继续读同一作者。
Wikipedia 的众包编辑使每句话都趋于正确，却会删除优秀阐释中有意设置的暂时简化、悬念和动机。Stanford Encyclopedia of Philosophy、Princeton Companion to Mathematics 等由单一专家署名的文章，更容易形成完整叙事。
Grant 目前常问 LLM“我应该读谁”，把它当作增强版 Google，再转向人类制作的书、论文或视频。他曾询问半导体的可视化讲解，Claude 推荐了一支真实且不错的视频，却错误归到 3Blue1Brown 名下；这个小故事同时说明推荐价值和事实幻觉。
Dwarkesh 描述自己的高效学习组合：Steven Strogatz 的 chaos / nonlinear dynamics 教材占屏幕三分之一、大学课程视频占三分之一、LLM 占三分之一。他暂停课程、查教材、问模型，再继续播放，获得了单独听现场课难以达到的理解。
理想分工是：人类作者确定概念顺序、动机和关键问题，LLM 在枝干周围即时修剪，解释局部困惑。模型尚不擅长发现学习者问错了问题，但已显著降低查缺补漏的成本。

数学家的未来：从证明生产者转向教师、策展人与杠杆操作者

核心论点：即使 AI 同时擅长证明和解释，数学共同体的社会功能仍不会归零；价值将更多来自选择方向、建立信任、激发兴趣和把新知识接入现实。

Grant 认为自己的工作会继续：3Blue1Brown 的耗时大头并非动画本身，而是决定什么值得讲、按什么顺序讲。这是一种策展，而策展依赖观众对一个人的长期信任。
他把未来数学家类比为艺术博物馆策展人：AI 可以生成近乎无限的定理和解释，人仍需要导航——哪些思想值得投入注意力、哪些组合构成一场有意义的“展览”。
人类音乐家不会仅因 AI 生成的 MP3 在客观质量上更好就失去全部价值；创作者的故事、关系和社群本身就是体验的一部分。数学传播同理。
对想进入数学的学生，Grant 不给简单的“追随热爱”答案，而是要求先问钱从哪里来、自己提供什么价值。学术岗位可能靠品牌声望、NSF 等基础科学资助或教学，各自对应不同的价值链。
他认为教学是 AGI 后最稳定的职业之一。家长在更富足的世界里仍愿意为好教师付费，因为教师提供的不只是解释，还有辅导、激励、榜样和关系。
如果未来 5—10 年 AI 不但解决 Millennium Prize Problems，还创造新对象和新领域，人类反而会产生巨大需求：“AI 看见了什么？请解释给我们。”只要还有工作，消化与策展这些超出人类视野的知识，几乎必然是其中之一。

数学加速会产生经济价值，但更可能先以增量外溢出现

核心论点：纯数学突破不会自动转化为产业革命；最可信的路径，是与工程相邻的数学持续改善模拟、设计与优化，再由人类判断把成果导向实际问题。

一位研究动力系统和偏微分方程的数学家告诉 Grant，其团队的方法帮助 Boeing 把更多测试搬进模拟，减少飞机拆解、测试和重装，据称节省了数十亿美元；Boeing 随后直接资助该团队。
PDE、CFD、材料科学、机翼与发动机设计等应用相邻领域，最可能先获得收益：不一定是一夜之间的 step change，而是模拟更快、实验次数更少、设计空间更容易搜索。
解决 Navier–Stokes 等著名问题，也未必立即解锁完美物理模拟。数学结论、数值算法、工程约束和实验验证之间仍有多层瓶颈。
Grant 预计未来五年应当出现能直接归因于 AI 数学的经济改进；如果 AI 只攻克一批 Erdős 风格难题，却完全没有触碰现实世界，会令人失望也有些意外。
访谈最后也保留了一种不舒服的可能：10 倍、100 倍加速若仍不产生外溢，可能暴露现代纯数学的部分问题已经与物理应用彻底脱节。届时，过去 grant proposal 中“终有一天有用”的叙事也会被重新审视。

附录：关键人物、项目与概念

项目	说明
Grant Sanderson	3Blue1Brown 创作者，以数学可视化与解释见长
Dwarkesh Patel	访谈者，围绕 AI 数学能力与经济影响追问
Hugh Montgomery / Freeman Dyson	把黎曼零点统计与随机矩阵联系起来的经典跨域故事
Lagrange / Abel / Galois	从多项式可解性推进到群论概念形成的关键人物
Timothy Chow	用“未解决的阐释问题”描述 forcing 的理解缺口
Einstein / Shannon / Feynman	原创洞见与清晰表达兼具的例子
Langlands program	以跨领域对应关系为中心的数学研究纲领
Lean	形式化证明与机器验证工具
Karpathy autoresearch	以固定实验闭环让 agent 自主改进指标的框架
IMO	6 道题的国际数学奥林匹克；奖牌掩盖子领域能力差异
“spiky frontier”	AI 能力不均匀，且放大每个领域后仍不均匀
“theorem economy”	以证明产出与信用分配为核心的数学激励结构
proof vs explanation	形式正确不等于形成可迁移、可理解的心智模型
conjecture / definition generation	比证明既定命题更高阶、也更难量化训练的能力