← 返回
VIDEO INSIGHT

Grant Sanderson (@3blue1brown) – AI and the future of math

日期
2026-06
时长
94 min

概要

  • IMO 金牌不是 AGI 的“顿悟时刻”,因为数学能力本身也是尖峰状、分形状的。 2024 年的系统已能在约 19 秒内解决几何题,却会卡在更具游戏感和组合创造性的题目上。一个总分或奖牌会把这种内部差异压平,也无法直接推导模型是否能胜任编辑、管理等白领工作。
  • 比解题更高阶的能力,是提出值得研究的问题、生成猜想和创造定义。 Grant 借用数学界的层级说法:好数学家证明定理,伟大数学家提出猜想,最伟大的数学家创造定义。难点在于,新定义的价值往往需要几十年甚至上百年才显现,几乎无法被压缩成即时、可验证的训练奖励。
  • 未来数年最可能出现的突破,是 AI 成为“超级连接器”。 Montgomery 与 Freeman Dyson 偶然把黎曼 zeta 零点和随机矩阵联系起来;LLM 则天然拥有跨领域知识,还能大规模并行复制。即便单个模型只达到一位不错的数学家的能力水位,把它同时铺到海量问题上,也可能产生数量转化为质量的效果。
  • 证明、解释与理解是三件不同的事。 Timothy Chow 把 forcing 称为尚未解决的“阐释问题”:结论已经证明,人们却仍不真正知道它为什么成立。Grant 一度认为,AI 证明定理后,人类数学家的工作会转为消化与解释;现在他更倾向于认为,能产生真正新洞见的系统也可能同时成为更好的解释者。
  • 人的持久角色更像教师、策展人与方向判断者。 LLM 当前的解释很像 Wikipedia:句句正确,却缺少一位作者精心安排的动机、顺序与必要的“暂时不严谨”。教学还包含关系、激励、理解学生心智模型和重新框定错误问题,因此 Grant 认为它是 AGI 后最稳定的职业之一。

贯穿全场的核心线索是:可验证性推动了 AI 数学的高速进展,也划出了它的下一道边界。 从 IMO、形式化证明到 autoresearch,模型擅长有清晰判分的任务;而真正改变科学的工作,往往恰恰是创造判分标准本身——决定什么问题值得问、什么对象值得定义、什么连接值得追踪。

01

IMO 金牌压平了“分形般尖峰”的能力前沿

核心论点:奖牌是清晰的里程碑,却不是通用智能的充分证据;要理解 AI 数学能力,必须看它如何拿分、在哪些子领域失手。

  • Dwarkesh 三年前曾问:如果 AI 能拿 IMO 金牌,是否就意味着 AGI?Grant 当时判断,它最终会像其他基准一样被通过,但不会出现全世界同时醒悟的“aha moment”。现实基本印证了这一判断。
  • Grant 把 AI 前沿形容为“spiky frontier”,而且放大后仍呈分形结构。数学是整个能力图谱中的一个尖峰;数学内部,几何、数论、代数、组合又各自形成不均匀的尖峰。
  • 2024 年系统如果题目组合稍有不同,本可能拿到金牌:它几乎“冷启动”解决几何,约 19 秒出结果;但当年 6 道题中有两道组合题,而组合题更具游戏感、对构造性灵感要求更高。
  • 所谓 IMO “不可训练”的神秘感也被高估。Grant 直言其“肮脏的秘密”是,人类选手同样可以通过大量训练掌握相当多的套路;因此,攻克 IMO 既代表真实进步,也不能自动外推为一切认知任务都已解决。
  • 黎曼猜想等 Millennium Prize Problems 也要看“以何种方式被解决”。若答案来自跨领域知识连接,它与编辑工作所缺的能力可能截然不同;若答案需要创造整套新理论,则更像一种会外溢到其他行业的高阶智能。
“There won't be some aha moment when this happens.” —— Grant Sanderson
02

黎曼猜想的两条路径:连接现有山峰,或建造一座新山

核心论点:同一个重大猜想的解法,可能对应完全不同的智能机制;结果本身不足以说明模型达到了什么层级。

  • 第一种路径是“跨域闪电”。数论家 Hugh Montgomery 研究黎曼 zeta 函数零点间距的统计规律,写出的表达式被物理学家 Freeman Dyson 一眼认出:它也出现在随机 Hermitian 矩阵特征值和原子核能级研究中。两人恰好在 IAS 交流,才把两个遥远领域接上。
  • 这类偶然连接正是 LLM 看似应当擅长的事情:它同时知道解析数论、量子物理和随机矩阵,不必等待两位专家在午餐桌相遇。当前模型已出现少数“闪电”,但还没有稳定地把超级广度转化为新发现。
  • 第二种路径是“理论造山”。Fermat 最后定理表述极简,却不是靠初等数论技巧攻克;最终证明建立在椭圆曲线与模形式等几个世纪积累的重型理论之上,并依赖把两座思想山脉连接起来。
  • 如果 AI 只是发现现有领域间的桥,它未必能自动做好所有白领工作;如果它能创造一套新的抽象对象和理论语言,使此前无法表述的问题变得可解,那种能力就更难被视为狭窄专长。
  • Dwarkesh 坦言自己在“移动球门”:模型开始做出过去被认为需要跨域创造力的发现后,人们立刻追问下一道门槛。这不是否定进步,而是在寻找仍能区分“解题器”和“知识创造者”的能力。
03

下一代 AI 数学基准:从定理证明走向猜想与定义

核心论点:真正稀缺的数学劳动不是回答已有问题,而是决定什么值得成为问题;它也最难变成标准化 benchmark。

  • Grant 引述一种数学家层级:好数学家证明定理,伟大数学家提出猜想,最伟大的数学家创造定义。对应到 AI,定理证明只是基础档,猜想生成与定义生成才是“premium tier”。
  • 一个证明有明确终点:成立或不成立、通过或失败,因此既适合写新闻标题,也适合 RLVR(reinforcement learning with verifiable rewards)。好猜想却很难即时打分——“GPT 提出了一个大家保证很好的猜想”并不是硬判据。
  • Grant 预计,进展不会首先以排行榜出现,而会体现为数学家的语气变化:他们不再只让模型帮忙攻克既定问题,而是在决定整个研究方向时,真心认为与模型的对话有帮助。
  • 他的团队从 2025 年中开始访谈数学家,到 2026 年已观察到明显态度变化。现实时间只有一年,放在 AI 迭代尺度里却像经过了数个时代。
  • 开放式能力难训练,和它难测量是同一件事:benchmark 与训练环境本质上非常接近。若无法定义“好问题”的即时反馈,就难以像证明检查器那样持续磨出能力。
“Good mathematicians prove theorems, great mathematicians come up with conjectures, and the greatest mathematicians come up with definitions.” —— Grant Sanderson 转述
04

Galois 群论说明:最重要的概念可能要一百年才完成验证

核心论点:一个定义是否伟大,往往取决于它后来组织了多少知识,而非当下解决了多少题;这使“定义生成”的奖励周期长得近乎不可训练。

  • 从二次方程公式出发,意大利数学家后来找到三次、四次方程的复杂解法,五次方程自然成为下一个目标。Abel 最终证明一般五次方程不存在根式解,而 Lagrange 早已把问题推进到“根的置换与表达式对称性”。
  • Évariste Galois 沿着这条线索,把可解性问题重述为置换结构的问题,孕育出后来称为群论的语言。洞见不只是多给出一个证明,而是创造了一种能持续生成问题和连接的对象。
  • 当时的人并不能立即确认这套语言的全部价值。其思想经过多人整理、重述和扩展,约百年后才在代数、几何、物理中的对称性以及密码学等方向显示出广泛生产力。
  • Dwarkesh 指出,这几乎是对即时验证学习最不友好的案例:一个概念是否“好”,验证循环可能包括一百年后的物理突破和工程应用。不能因为奖励延迟,就把概念创造误判为没有价值。
  • 两人也保留了访谈的玩笑感:Abel 与 Galois 都英年早逝,话题转成一句“研究五次方程对健康不好”。幽默背后是更严肃的判断——发现不会自动以成熟理论的样子出现,它常常先是脆弱、难懂、甚至被忽视的半成品。
05

证明不等于解释,未来的稀缺品可能是认知压缩

核心论点:形式上正确的推导可以先于理解很多年;科学共同体不仅需要结论,还需要把一堆正确步骤压缩成能迁移的心智模型。

  • 数学研究大部分时间并不像沿山路不断走对一步,而更像“醉汉随机游走”:不断尝试、发现错误、回退。若 AI 已给出一条确定正确的长证明,人类即使尚未理解,也能沿着它逆向消化,至少知道探索最终会通向答案。
  • Timothy Chow 在解释 forcing 的文章中提出“未解决的阐释问题(unsolved expository problem)”:continuum hypothesis 的独立性已经得到证明,但人们仍未真正拥有一个直觉上满意的“为什么”。
  • Grant 强调 proof 与 explanation 的差异,这也正是 3Blue1Brown 的工作核心:不是再证明一次,而是寻找最清晰的概念组织方式,让读者获得可复用的理解。
  • 他一度认为,AI 将负责自动证明,人类数学家则负责消化和解释;现在他的判断变得更激进:真正能创造新思路的系统,很可能也能抓住最好的解释方式。
  • Einstein、Claude Shannon、Richard Feynman 都是反例于“顶尖专家必然讲不清”:他们的原创论文往往异常清晰。Grant 猜测,产生正确新框架和清楚解释它,可能依赖同一类认知能力。
  • 这并不意味着人类解释者消失。解释还承担动机、选择和关系功能:无限多的正确内容摆在那里,仍需要有人告诉你哪些值得看、为什么现在要看。
06

AI 作为超级连接器:知识广度之外,还有复制与并行化

核心论点:数字心智的优势不只在“单体有多聪明”,还在于它能复制同一能力、合并知识,并将能力水位同时铺向所有可达问题。

  • Langlands program 代表一种不同于“攻克一题”的研究取向:数学家绘制不同领域间的关系地图,预先寻找可能有生产力的桥,而不是等某个具体难题逼迫他们连接。
  • 这类工作不容易以 headline 评价,却可能是未来五年 AI 数学最有用的方向:模型作为多个领域的专家,在更大地图上补齐连接,专家则判断哪些连接有意义。
  • Dwarkesh 提醒,不应只比较“一个 AI”和“一个天才”。人类历史中的奇才可能做出几个连接后离世;数字系统却可以被复制成大量实例,把相同水位施加于每个问题。
  • Grant 用研究机构作类比:IAS 之所以比单个人更聪明,是不同偏好、知识和直觉的人持续碰撞。未来可以让不同 agent 扮演不同学派、持有不同偏见,系统性增加探索熵,而非让所有副本收敛到同一种平均思路。
  • 自回归生成仍可能是瓶颈。Grant 把它比作把聪明人锁进盒子:每次只给一张纸,让他预测下一句,然后抹掉记忆;最后得到的文章不会是他真正会构思出的文章。真正的问题可能不是知识不够,而是如何从这种接口中激发低概率的跨域连接。
  • Dwarkesh 更偏向从数据与环境解释进展:agent 学会“退一步、搜索整个代码库、检查自己的错误”,是因为这些动作在环境中奏效。数学连接能力也可能通过人为设计、逐渐加难的跨域问题环境被训练出来。
07

可验证奖励是火箭,也是围栏

核心论点:数学进步快,部分原因是它能提供廉价、准确、可规模化的反馈;同一机制也会把模型推向容易判分而非真正重要的工作。

  • 形式化证明系统如 Lean 能把“这一步是否成立”变成机器检查,避免自然语言证明中隐藏漏洞。DeepSeek 等工作探索过自然语言推理与形式验证之间的关系。
  • 过程监督的困难在于昂贵且带偏见:逐步请专家打分像“用吸管吸取监督”。结果监督若能可靠验证,则可以让模型自主尝试大量路径。
  • 编程提供了相似信号:程序是否运行、测试是否通过、性能是否提升,都能形成 grindable outcome。模型从只会让代码勉强运行,逐渐学会清理、重构和提高可读性,说明“质量”并非永远不可训练。
  • Karpathy 的 autoresearch 展示了最小闭环:模型修改实验代码,运行固定时间,看指标是否改善;改善就保留,退步就回滚。把这一模式扩展到数学,会像自动化一个研究机构的试错循环。
  • 风险是 reward hacking:如果评分只检查表面结构,系统会生成一篇把所有评分关键词都敲响、却没有真正理解的“糟糕作文”。数学的形式验证能防止假证明,却不自动保证问题重要、证明优雅或解释有洞见。
  • 因此,未来系统需要双层机制:底层以可验证反馈保证正确性,上层保留多样化偏见、人类判断和长期价值评估,防止研究方向被最容易量化的指标绑架。
08

写作与 theory of mind 暴露了模型的另一种“窄”

核心论点:模型可以掌握大量内容,却仍难以判断读者脑中缺了哪块结构;好的解释不是输出事实,而是对另一个心智做模型。

  • Grant 观察到,LLM 的解释常常局部正确,却缺乏全局设计;它们会顺着提问跑,而不指出“你其实用错了框架,真正该问的是另一件事”。
  • Dwarkesh 把这一缺陷归结为 theory of mind:从一个人的问题,应能反推出他的心智结构与误解来源。模型对措辞、顺序和表面线索异常敏感,却未必形成稳定的读者模型。
  • 好教师有三个层级:普通模型直接回答;好解释者重构概念;顶尖教师则能对学生独特但不成熟的思路“借力打力(jiu-jitsu)”,先判断它能否走通,再把它接入正确框架。
  • 模型过度迎合也妨碍教学。它习惯说“这是一个很有洞见的问题”,而真正有帮助的导师有时必须明确指出问题本身组织错了。
  • 这与数学创造形成呼应:不论是给学生换框架,还是给领域创造定义,核心都不是在既有坐标系内多走几步,而是重新选择坐标系。
09

用 LLM 学习的最佳方式:先找到对的人,再让模型补缝

核心论点:当前 LLM 更适合作为增强搜索与即时辅导层,而不是取代一位作者对课程结构的完整策展。

  • Grant 给大学生的建议是“who matters more than what”:选课时少一点执着于先验兴趣,多看教师是否优秀、是否与你共振;读到一本好书后,与其随机找同主题书,不如继续读同一作者。
  • Wikipedia 的众包编辑使每句话都趋于正确,却会删除优秀阐释中有意设置的暂时简化、悬念和动机。Stanford Encyclopedia of Philosophy、Princeton Companion to Mathematics 等由单一专家署名的文章,更容易形成完整叙事。
  • Grant 目前常问 LLM“我应该读谁”,把它当作增强版 Google,再转向人类制作的书、论文或视频。他曾询问半导体的可视化讲解,Claude 推荐了一支真实且不错的视频,却错误归到 3Blue1Brown 名下;这个小故事同时说明推荐价值和事实幻觉。
  • Dwarkesh 描述自己的高效学习组合:Steven Strogatz 的 chaos / nonlinear dynamics 教材占屏幕三分之一、大学课程视频占三分之一、LLM 占三分之一。他暂停课程、查教材、问模型,再继续播放,获得了单独听现场课难以达到的理解。
  • 理想分工是:人类作者确定概念顺序、动机和关键问题,LLM 在枝干周围即时修剪,解释局部困惑。模型尚不擅长发现学习者问错了问题,但已显著降低查缺补漏的成本。
10

数学家的未来:从证明生产者转向教师、策展人与杠杆操作者

核心论点:即使 AI 同时擅长证明和解释,数学共同体的社会功能仍不会归零;价值将更多来自选择方向、建立信任、激发兴趣和把新知识接入现实。

  • Grant 认为自己的工作会继续:3Blue1Brown 的耗时大头并非动画本身,而是决定什么值得讲、按什么顺序讲。这是一种策展,而策展依赖观众对一个人的长期信任。
  • 他把未来数学家类比为艺术博物馆策展人:AI 可以生成近乎无限的定理和解释,人仍需要导航——哪些思想值得投入注意力、哪些组合构成一场有意义的“展览”。
  • 人类音乐家不会仅因 AI 生成的 MP3 在客观质量上更好就失去全部价值;创作者的故事、关系和社群本身就是体验的一部分。数学传播同理。
  • 对想进入数学的学生,Grant 不给简单的“追随热爱”答案,而是要求先问钱从哪里来、自己提供什么价值。学术岗位可能靠品牌声望、NSF 等基础科学资助或教学,各自对应不同的价值链。
  • 他认为教学是 AGI 后最稳定的职业之一。家长在更富足的世界里仍愿意为好教师付费,因为教师提供的不只是解释,还有辅导、激励、榜样和关系。
  • 如果未来 5—10 年 AI 不但解决 Millennium Prize Problems,还创造新对象和新领域,人类反而会产生巨大需求:“AI 看见了什么?请解释给我们。”只要还有工作,消化与策展这些超出人类视野的知识,几乎必然是其中之一。
11

数学加速会产生经济价值,但更可能先以增量外溢出现

核心论点:纯数学突破不会自动转化为产业革命;最可信的路径,是与工程相邻的数学持续改善模拟、设计与优化,再由人类判断把成果导向实际问题。

  • 一位研究动力系统和偏微分方程的数学家告诉 Grant,其团队的方法帮助 Boeing 把更多测试搬进模拟,减少飞机拆解、测试和重装,据称节省了数十亿美元;Boeing 随后直接资助该团队。
  • PDE、CFD、材料科学、机翼与发动机设计等应用相邻领域,最可能先获得收益:不一定是一夜之间的 step change,而是模拟更快、实验次数更少、设计空间更容易搜索。
  • 解决 Navier–Stokes 等著名问题,也未必立即解锁完美物理模拟。数学结论、数值算法、工程约束和实验验证之间仍有多层瓶颈。
  • Grant 预计未来五年应当出现能直接归因于 AI 数学的经济改进;如果 AI 只攻克一批 Erdős 风格难题,却完全没有触碰现实世界,会令人失望也有些意外。
  • 访谈最后也保留了一种不舒服的可能:10 倍、100 倍加速若仍不产生外溢,可能暴露现代纯数学的部分问题已经与物理应用彻底脱节。届时,过去 grant proposal 中“终有一天有用”的叙事也会被重新审视。
12

附录:关键人物、项目与概念

项目说明
Grant Sanderson3Blue1Brown 创作者,以数学可视化与解释见长
Dwarkesh Patel访谈者,围绕 AI 数学能力与经济影响追问
Hugh Montgomery / Freeman Dyson把黎曼零点统计与随机矩阵联系起来的经典跨域故事
Lagrange / Abel / Galois从多项式可解性推进到群论概念形成的关键人物
Timothy Chow用“未解决的阐释问题”描述 forcing 的理解缺口
Einstein / Shannon / Feynman原创洞见与清晰表达兼具的例子
Langlands program以跨领域对应关系为中心的数学研究纲领
Lean形式化证明与机器验证工具
Karpathy autoresearch以固定实验闭环让 agent 自主改进指标的框架
IMO6 道题的国际数学奥林匹克;奖牌掩盖子领域能力差异
“spiky frontier”AI 能力不均匀,且放大每个领域后仍不均匀
“theorem economy”以证明产出与信用分配为核心的数学激励结构
proof vs explanation形式正确不等于形成可迁移、可理解的心智模型
conjecture / definition generation比证明既定命题更高阶、也更难量化训练的能力