概要
- Adam Brown 的核心判断很直接:LLM 不再只是物理学家的“专用工具”,而是正在覆盖理论物理工作栈的每一部分。他用自己的选择开场——职业生涯已写约 40 篇理论物理论文,但现在停止手写单篇论文,因为更重要的事是参与制造一台能“工业规模喷出知识”的机器。
- 演讲的证据链不是单点轶事,而是一条 benchmark 被连续击穿的曲线:MATH 从 2021 年 SOTA 约 6%,到 Minerva 迅速越过 50%,再到 Max Math 2024 年中达到 90%,随后通用模型几乎满分;GPQA 从 2024 年初接近随机猜,到 2024-2025 年超过 PhD expert 的约 70%;IMO 则在去年由 Google DeepMind 做到 6 题中 5 题正确、35 分、金牌。
- Brown 强调,这些进步不是单靠 Moore's law。过去十年训练 FLOPs 约每年 4x 增长、训练金额约每年 2.7x 增长,但他认为最大驱动力是算法进步:人类不断削掉训练低效、改进数据、引入 chain-of-thought、long thinking、reinforcement learning 和多模型对话。
- 他承认 LLM 仍有明显缺陷:低 agency、慢学习、弱规划、弱纠错;直接让模型“发明一套量子引力理论”只会得到 AI slop。但即使进步今天停止,它们作为非评判 tutor、coding assistant、semantic literature search、brainstorming partner 和 lemma prover,已经足以重塑物理学实践。
- 最强的未来判断来自 chess analogy:科学 AI 可能沿着 toy → tool → centaur → superhuman 的轨迹前进。当前已经进入 centaur research,甚至出现了 Brown 认为可称为“重大突破”的 AI 数学结果;如果成本继续下降,一旦能制造一个 AI Einstein,就能制造十亿个。
贯穿全场的主线是“能力曲线是否还会继续直线外推”。Brown 反复把 LLM 能力放在 log-log straight line、benchmark 死亡速度、chess computer Elo 曲线中观察:如果过去五年的直线只是前奏,那么物理学面对的不是一个更好的工具,而是可复制、可并行、可超人的科学劳动新形态。
开场不是科普噱头:Brown 已把个人科研重心从“写论文”转向“造知识机器”
核心要点: Brown 用“训练沙子思考”重新讲述计算文明史:沙子被炼成硅,硅被做成芯片,芯片被组装成神经网络,现在人类学会训练神经网络思考。这个开场不是比喻游戏,而是他解释自己职业选择的底层判断。
- Brown 说自己职业生涯已写约 40 篇理论物理论文,但已经停下。他把继续一篇篇手写理论物理论文称为一种 “guilty pleasure”,因为真正该做的是制造一台能以工业规模生产知识的机器。
- 他把 LLM 与算盘、袖珍计算器等传统计算辅助工具明确区分开。旧工具只替代物理工作中的某个步骤,“帮你走一步,剩下的还要你做”;LLM 的新处在于,它可能替代理论物理学家工作栈的每一层。
- Brown 将 LLM 直接称为 general intelligence,并认为大语言模型会成为构建通用智能的 substrate。这不是“模型会辅助物理学”的弱表述,而是“模型可能承载完整科学智能”的强表述。
- 他选择在 Perimeter Institute 讲这个题目,也有象征意义:这不是 AI 产品发布会,而是对理论物理共同体解释为什么科研方法论正在改变。
“A large language model has the capability not just to be a special purpose tool that replaces one part of the stack, but in fact do every single part of my job as a theoretical physicist.” —— Adam Brown
LLM 是“长出来的”而不是“写出来的”:这解释了它为什么不像传统程序
核心要点: Brown 用最简模型解释 LLM:神经网络不是传统程序,不靠人手写规则,而是从随机权重开始,在预测下一个词的训练中“生长”出能力。
- 本世纪初最大的 LLM 大约有 10 亿参数,当时这已足以被称为 “large”;现在 frontier 模型达到数万亿参数。这个量级仍低于人脑约 100 万亿突触,但 Brown 的判断是:它已经足够产生令人震惊的能力。
- 训练过程从随机权重开始。模型一开始输出胡言乱语,随后通过预测文本中的下一个词来调整神经通路:猜对则强化,猜错则惩罚。Brown 特意强调,“grow, not programmed” 是理解神经网络的关键。
- 能力随数据规模逐步出现:看过约 100 万词仍接近胡言乱语;到数千万、数亿、数十亿词时能组织语法连贯句子;读完整个互联网、即数万亿词后,才具备跨主题智能对话能力。
- Brown 把预训练后阶段称为 finishing school。预训练只让模型学会预测语料中的下一个词,后训练则让它更礼貌、更有用、更服从用户意图。
- 这个解释服务于后面的推论:因为模型不是传统程序,传统软件的直觉常常失效。比如对 Mathematica 说“请小心、一步步想”不会改变结果,但对 LLM 会显著改变行为。
“They are grown, not programmed.” —— Adam Brown
物理学家参与现代 LLM boom 的关键入口是 scaling laws
核心要点: Brown 把 scaling laws 视为物理学对现代 LLM boom 最重要的贡献之一:它把“投入更多 compute 是否会稳定换来更好表现”变成可预测曲线,也让资本理解为什么继续扩张值得下注。
- 他先用动物体重与代谢率的 Kleiber law 做铺垫:跨越多个数量级,log-log plot 上出现直线,说明存在幂律关系。物理学家喜欢这种规律,因为它能用简单关系概括复杂系统。
- LLM scaling law 的核心问题是:如果训练更大的神经网络,或更准确说,花更多 compute、按合适方式扩大模型尺寸和训练长度,performance 会改善多少?经验结果是在 log-log plot 上形成近似直线。
- Brown 说这条曲线“simple enough that even a venture capitalist can understand it”:只要投入 compute,也就是钱,就能得到更好的下一个词预测表现。这种可预期性直接推动了 scaling era。
- 原始 scaling law 覆盖约 8 个数量级;后来又向右延伸了约 8 个数量级,并且基本仍成立。Brown 接下来展示的多个判断,都建立在“直线如果再延伸一点会怎样”的思维上。
- 他区分三类增长源:Moore's law 让 compute 单价长期下降,但过去五年不是主要来源;更重要的是人类愿意买更多芯片、建更大数据中心;最重要的则是算法进步。
“Large language models get predictably better with scale.” —— Adam Brown
过去十年真正的加速器是算法进步,不只是芯片和钱
核心要点: Brown 认为 LLM 能力提升有三层驱动:硬件单价下降、训练资源投入增长、算法效率提升。其中算法进步是最大贡献源,因为人类持续发现如何更有效地训练同样的机器。
- Moore's law 是背景而非主因。Brown 展示的是过去五年 LLM 能力跃迁,而这一小段时间里,compute 单价并没有改善出足以解释所有能力跃迁的数量级。
- 资源投入增长非常快:frontier AI model 的训练 FLOPs 自 2010 年以来约每年 4x 增长;训练花费过去十年约每年 2.7x 增长。Brown 把这描述为把同样芯片成规模地买下来、组装成大数据中心。
- 训练成本已经从 2020 年约 50 万美元量级上升到去年约 1/3 billion dollar。Brown 用 “Avogadro flop costs about a million dollars” 这类尺度感说明训练运行已经进入巨额工程,但仍未触及宏观经济上限。
- 他用 US GDP 接近每年 30 trillion dollars 说明:如果模型能力继续带来足够回报,人类仍有很长 runway 可以把更多 GDP 转化成训练运行。
- 但 Brown 也明确指出,仅靠更好地预测互联网下一个词无法吸引 trillions of dollars。继续 scaling 必须买来真实 performance,尤其是科学推理和创造新知识的能力。
“We have a very long runway to go before we are converting most of our GDP into training runs.” —— Adam Brown
MATH benchmark 的死亡速度展示了“考试能力”如何被连续低估
核心要点: Brown 用 MATH benchmark 讲出一个反复出现的模式:新 benchmark 一开始太难,随后被模型快速追上,再变得太容易而失去测量价值。
- MATH benchmark 来自高水平高中数学题。人类基线中,不特别喜欢数学的 CS PhD student 约得 40%,三届 International Math Olympiad 金牌得 90%,说明它对人类也不轻松。
- 2021 年 SOTA LLM 只有约 6%。Brown 强调,不是计算 11% 这类算术本身难,而是模型当时连题目语义都难以解析,无法把自然语言转化成数学问题。
- 当时预测市场认为 2025 年模型会超过 50%。benchmark 创建者对此非常难以置信;Brown 半开玩笑说,对 Bay Area rationalist 来说,这已经接近怀疑 efficient market hypothesis。
- 结果是 Google 的 Minerva 很快达到 50%;2024 年中 Max Math 达到 90%,Brown 团队为此去 90s roller disco 庆祝。更残酷的是,6 个月后 off-the-shelf 通用 LLM 几乎直接做满。
- Brown 总结出一个经验法则:在这些考试 benchmark 上,模型大约以人类学生 4 倍速度前进——现实中过一年,能力曲线像走过人类学习四年。
“The sad fate of a benchmark in today's LLM era [is] from way too hard to way too easy.” —— Adam Brown
推理能力不是神秘魔法:scale、数据、chain-of-thought、long thinking 和模型互相 babysit
核心要点: Brown 列举的推理增强技术刻意“不显得高深”:很多方法像低垂果实,试了就有效。这支撑他的乐观判断——还有大量 obvious ideas 尚未充分尝试。
- 第一项仍是 Rich Sutton 所说的 bitter lesson:扩大规模往往压过人类精巧设计。人类为某个 benchmark 做出巧妙系统,下一代模型 scaling 后常常直接学会这些技巧。
- Chain-of-thought 被 Brown 称为“asking nicely”。在问题后加一句 “please be careful and think step by step”,模型表现会改善;这对传统计算器荒谬,对 LLM 却有效,因为它是一种可对话的异质智能。
- 反例同样有信息量。有人系统测试各种提示,发现 “think step by step” 很好,而 “Come on, kid, you can do it. Don't think, just do.” 会让表现下降约 20 个百分点。
- Long thinking 是 2024 年末 “strawberry” 类模型的关键:模型不再只输出几十个词的 reasoning,而是经过 reinforcement learning 被训练为思考数千词后再回答。
- 最近一年,一个重要方向是 test-time compute:让多个 LLM 互相 babysit、互相审稿、分工扮演 creative planner、skeptic、integrator 等角色。Brown 的类比很实际:人类使用模型解难题时常会不断提醒它“review your guess and keep going”,于是研究者把这个过程自动化。
“Think step by step was found to be the best.” —— Adam Brown
GPQA、私有 Stanford 考题和 IMO 把问题从“会考试吗”推到“有创造性吗”
核心要点: MATH 之后,Brown 逐级提高难度:研究生科学考试 GPQA、未上网的 Stanford 私有考试、International Math Olympiad。每一层都曾被认为能挡住 LLM,但都很快被突破。
- GPQA 模拟一阶 PhD 学生的领域考试,覆盖物理、化学等专业知识。PhD-level experts 约得 70%;模型在 2024 年初仍接近随机猜,随后在 2024-2025 年越过专家水平并接近满分。
- Brown 回应“是不是记住了答案”的质疑:可靠模型在公开 test set 和 newly invented look-alike problems 上表现差异很小,说明不是单纯背答案。
- 他进一步用自己从未放到网上的 Stanford 广义相对论和量子力学研究生考试做私有测试,并亲自手工评分。结果是在随后 18 个月中,模型达到 100% accuracy,Brown 感叹自己的 benchmark 也死了。
- IMO 是更强的创造性门槛。Brown 回忆一位 Turing Award 得主一年前还认为 LLM 永远无法解出未见过的 IMO 题,因为那需要真正创造性。
- 去年 Google DeepMind 做到 6 题中 5 题正确、35 分、gold medal。IMO 主席确认解答清晰、精准、多数易懂,这一点对 Brown 很重要:模型不是倾倒不可读的形式化证明,而是在输出接近人类数学家的优雅论证。
“Their solutions were astonishing in many respects... clear, precise and most of them easy to follow.” —— Adam Brown 引述 IMO 主席评价
Brown 没有回避 LLM 的蠢:外科医生谜题说明模型会被训练分布吸回去
核心要点: Brown 在展示 IMO gold 后,刻意插入一个 LLM 失败案例,说明他不是把模型神化。模型能非常聪明,也会在训练集中经典模式过强时犯低级错。
- 经典谜题是“男孩和父亲车祸,父亲死亡,外科医生说这是我儿子”,答案是外科医生是男孩母亲。LLM 能很好回答,因为它在互联网上见过无数次。
- Brown 改写谜题:男孩和母亲车祸,母亲死亡,外科医生括号注明是男孩父亲,然后外科医生说“这是我儿子”。这时正确答案已在题面中,但模型仍回答“外科医生是男孩母亲”。
- 这个例子暴露的是 snap to standard version:模型遇到与训练集中高频模板相似的问题,会被经典版本吸回去,而不充分处理题面新增约束。
- Brown 明确说这不是不可克服缺陷,但它是训练方式留下的 signature。这个插曲也让后面关于 agency、planning、error correction 的不足更可信。
“It just sort of snaps to the standard version.” —— Adam Brown
Centaur research 已经出现:人类数学家负责方向感,Gemini 负责生成候选证明
核心要点: Brown 把 2024 年末自己团队的一项数学研究称为 centaur-style mathematical research:人类专家与 LLM 协作,最终产生新的数学论证。
- Centaur 的意思是半人半非人。这里的非人部分不是马,而是大语言模型。Brown 说他们从去年 9 月开始,与职业数学家合作,尝试让 Gemini 参与新数学研究。
- 这不是回答已知 benchmark,也不是做已有题库。Brown 强调这是 novel mathematical research:开始前并不存在标准答案。
- 合作者之一是 Stanford University professor、American Mathematical Society 主席。Brown 不解释具体数学,而引用这位合作者的评价:Gemini 的论证不是 existing proofs 的重包装,而是“the kind of insight I would have been proud to have produced myself”。
- 过程不是模型完全自治。人类专家与模型反复对话:模型提出候选证明,人类研究哪些部分好、哪些部分坏,再引导模型集中在有希望的方向。最后完整证明在人类指导下由 LLM 拼接成形。
- 这个案例把 Brown 的当前定位说清楚:今天最强科学实体未必是纯模型,而是人类数学家 + 模型的 centaur。它对应 chess computer 历史中的 centaur era。
“It was no mere repackaging of existing proofs.” —— Adam Brown 引述合作者评价 Gemini 论证
当前模型还不能“一键发明量子引力”,但已经足以重塑物理学日常
核心要点: Brown 对现状的判断分两层:直接让模型做最大问题仍然无效;但把模型嵌入科研日常,它已经极其有用,甚至即使能力停止进步也会革命性改变物理学。
- 不工作的事情很明确:对模型说 “Please invent a novel theory of quantum gravity for me” 会得到 AI slop。Brown 说读它可能让你无聊,甚至发疯,但不会让你理解量子引力。
- 他列出四个当前核心缺陷:low agency、slow learners、poor at planning、poor at error correction。每个问题过去一年都变好了,但每个问题仍存在。
- 已经工作的第一类是 non-judgmental tutor。模型读过教材,可以在凌晨 3 点解释高级理论物理概念,还能 debug Brown 自己的误解;这比找到世界专家并把对方叫醒现实得多。
- 第二类是 coding assistant,而且 Brown 认为“assistant”这个词已经近乎侮辱。过去 6 个月,模型从 autocomplete 进化到能根据需求独立花 10 分钟、一小时甚至更久写出完整 Python code set。Code becoming free 会让许多本来不被认为是 coding problem 的物理问题被重新表达为 coding problem。
- 第三类是 semantic literature search:给模型你的论文,问“这个 idea 是否已存在于文献中”,模型可以基于读完整个文献库的能力给出语义层面的回答。
- 第四类包括 brainstorming、证明 lemma、并行克隆。Brown 强调模型 fast、broad、tireless、clonal;训练一个人类物理学家要几十年,训练一个 LLM 也贵,但训练一次后可服务出大量实例。
“Even if we have no further progress whatsoever, these things are going to revolutionize the conduct of physics.” —— Adam Brown
Brown 的乐观不是“相信奇迹”,而是相信还有大量低垂算法果实
核心要点: Brown 认为 LLM 继续进步的 inside view 很强:今天造模型的方式并不精致,很多 obvious ideas 还没试到足够规模;同时更多人和更多芯片正在进入这个领域。
- Outside view 是线还在上升:能力、资金、compute、benchmark 表现都仍在改善。没有自然定律要求它永远继续,但也没有理由刚好现在停止。
- Inside view 是 sausage-making 并不神秘。Brown 说如果看到今天大语言模型怎么制造,会发现并不特别 impressive:很多时候只是做显而易见的事,而它居然有效。
- 他反驳“LLM 只能 pattern match,不能产生新 idea”这类悲观看法。Brown 的立场是,在足够高抽象层上,智能本身某种意义上就是 pattern matching;许多看似突破性的发现,也是在抽象空间里匹配到了深层结构。
- 他指出 San Francisco consensus 与他的个人判断一致:不一定需要根本新思想才能到 AGI;已有 ideas、甚至已有 chips,持续 scale 和 refine 可能已经足够。
- “Models just want to learn” 是他概括经验现象的口号。研究者不断做 worst-case analysis,解释模型为什么不该有效,但模型实际学得比理论担心更好。
“The models just want to learn.” —— Adam Brown
重大突破已经开始:Erdős unit distance conjecture 是 Brown 眼中的 AI 数学里程碑
核心要点: Brown 在演讲接近尾声时修正自己早先的 slide:原本他说截至上周还没有 AI major breakthroughs;但现在这个说法不再成立。
- Brown 称 2026 是 code 的疯狂之年,也是 AI mathematics 的疯狂之年。模型在研究数学上的能力不断跃迁。
- 他提到几周前出现的一个结果:OpenAI 的大语言模型 more or less autonomously 证明了 Erdős 喜爱的 unit distance conjecture,随后其他 LLM 也复现了该结果。
- Brown 强调这不是那种“文献中形式上未解,但其实没人认真试”的问题。许多数学家长期认真尝试过它。
- Tim Gowers 的评价是关键证据。Gowers 是 Fields Medalist,他说 AI 已解决一个 major open problem;若人类写成论文投给 Annals of Mathematics,他会毫不犹豫建议接收。
- Brown 的预测是 floodgates will open:第一批突破会发生在特别适合模型优势的问题上,然后随着模型能力增强,逐步扩展到不那么友好的问题。
“AI has now solved a major open problem.” —— Adam Brown 引述 Tim Gowers
Chess analogy 是全场最重要的未来模型:科学 AI 可能越过人类峰值后继续上升
核心要点: Brown 最后揭示,他画的“智能持续上升”曲线其实来自 chess computers 的 Elo 历史。这个类比提供了他预测 AI scientist 的结构:toy、tool、centaur、superhuman。
- 棋类计算机经历四个时代:toy era,能下出像样棋步就值得惊讶;tool era,人类用它们做残局或开局等专门任务;centaur era,最强实体是 grandmaster + computer;superhuman era,grandmaster 坐在旁边最好别插手。
- Brown 承认数学和物理比国际象棋难得多,可能空间更开放,但这正是为什么这场讨论比 chess 晚了 30 年发生,而不是为什么不会发生。
- 固定整体强度下,chess computer 更强于 tactics、search、speed,更弱于 strategy 或 taste。Brown 认为科学 AI 也类似:它们擅长冲进去套标准 lemma、跑搜索,但较弱于确定整体方向;不过这个弱点也正在改善。
- 训练上也有相似性:棋类神经网络需要比人类多得多的对局,在玩到人类同等局数时仍像随机;但由于可以高速自弈,四天强化学习后就远超人类。科学 AI 也可能需要更多训练样本,但日历时间更短,且训练一次即可复制。
- 最关键的是,chess computer 没有在 peak human 停下。它越过人类最高水平后继续上升。Brown 暗示:没有理由认为科学智能会在人类最强物理学家处自动停住。
“It just blew straight past peak human. It didn't stop.” —— Adam Brown
未来几年可能是物理学黄金时代:一个 AI Einstein 可以复制成十亿个
核心要点: Brown 对长期未来保持不确定,但对未来几年很确定:AI 工具放到人类物理学家、数学家和领域专家手中,将带来科学复兴。
- 除了 frontier intelligence 变强,另一个趋势是固定智能水平的服务成本持续下降。Brown 展示的图虽停在几年前,但他说趋势仍在继续。
- 成本下降改变了科学劳动力的复制逻辑。人类 Einstein 不可复制;如果能制造一个 AI Einstein,就能制造十亿个,让大量超人 AI scientist 并行工作。
- Brown 认为未来会更难预测,因为 AI 提升会改变世界本身的可预测性。但短期看,他预期物理学与数学会进入 recorded history 中最令人兴奋的时期。
- 他的最终落点不是“人类物理学家消失”,而是先进入 human experts + AI tools 的 renaissance:所有困扰他整个职业生涯的问题,可能在未来几年被回答。
- 这也是演讲题目 “Training Sand to Think” 的闭环:人类把沙子训练成会思考的东西之后,科学不再只靠稀缺人类大脑的串行劳动,而可能转向大规模、并行、可复制的知识生产。
“If you can make one AI Einstein, you can make a billion of them.” —— Adam Brown
附录:关键人/机构/产品/数据
| 项目 | 详情 |
|---|---|
| Adam Brown | Google DeepMind Blueshift 团队负责人,Gemini 核心贡献者;曾在 Princeton、Stanford 物理系任职。 |
| Perimeter Institute | 本演讲发布方,理论物理研究机构。 |
| Google DeepMind | Brown 所在机构;IMO gold、Gemini 和相关数学研究均在演讲中出现。 |
| Gemini | Brown 参与贡献的大语言模型。 |
| ChatGPT / Claude | Brown 列举的其他 frontier LLM。 |
| MATH benchmark | 高中数学 benchmark;LLM 从 6% 快速进步到 90% 乃至几乎满分。 |
| Minerva | Google 早期数学系统,快速达到 MATH 约 50%。 |
| Max Math | Brown 团队 2024 年中达到 MATH 约 90% 的系统。 |
| GPQA | PhD-level science benchmark;专家约 70%,模型从随机猜到接近满分。 |
| International Math Olympiad | Google DeepMind 去年解出 5/6 题,35 分,金牌。 |
| Strawberry | Brown 提到的 2024 年末 long-thinking 模型代表,用 RL 训练模型思考更久。 |
| Erdős unit distance conjecture | Brown 称 OpenAI 模型近期 more or less autonomously 证明的 major open problem。 |
| Tim Gowers | Fields Medalist;评价 unit distance 问题 AI 解法达到 Annals of Mathematics 接收标准。 |
| 10亿参数 | 本世纪初 LLM 的大致最大规模。 |
| 数万亿参数 | 当前大模型规模。 |
| 100万亿突触 | Brown 提到的人脑突触量级。 |
| 每年 4x FLOPs | 自 2010 年以来 frontier AI training FLOPs 增长速度。 |
| 每年 2.7x 训练金额 | Brown 展示的过去十年训练投入增长速度。 |
| 约 40 篇论文 | Brown 已写理论物理论文数量。 |
| AI Einstein | Brown 对可复制超人 AI scientist 的比喻。 |