Training Sand to Think: Artificial General Intelligence & Future of Physics

节目

Perimeter Institute for Theoretical Physics

嘉宾

Adam Brown

日期

2026-06

时长

55 min

查看原始内容 →

概要

Adam Brown 的核心判断很直接：LLM 不再只是物理学家的“专用工具”，而是正在覆盖理论物理工作栈的每一部分。他用自己的选择开场——职业生涯已写约 40 篇理论物理论文，但现在停止手写单篇论文，因为更重要的事是参与制造一台能“工业规模喷出知识”的机器。
演讲的证据链不是单点轶事，而是一条 benchmark 被连续击穿的曲线：MATH 从 2021 年 SOTA 约 6%，到 Minerva 迅速越过 50%，再到 Max Math 2024 年中达到 90%，随后通用模型几乎满分；GPQA 从 2024 年初接近随机猜，到 2024-2025 年超过 PhD expert 的约 70%；IMO 则在去年由 Google DeepMind 做到 6 题中 5 题正确、35 分、金牌。
Brown 强调，这些进步不是单靠 Moore's law。过去十年训练 FLOPs 约每年 4x 增长、训练金额约每年 2.7x 增长，但他认为最大驱动力是算法进步：人类不断削掉训练低效、改进数据、引入 chain-of-thought、long thinking、reinforcement learning 和多模型对话。
他承认 LLM 仍有明显缺陷：低 agency、慢学习、弱规划、弱纠错；直接让模型“发明一套量子引力理论”只会得到 AI slop。但即使进步今天停止，它们作为非评判 tutor、coding assistant、semantic literature search、brainstorming partner 和 lemma prover，已经足以重塑物理学实践。
最强的未来判断来自 chess analogy：科学 AI 可能沿着 toy → tool → centaur → superhuman 的轨迹前进。当前已经进入 centaur research，甚至出现了 Brown 认为可称为“重大突破”的 AI 数学结果；如果成本继续下降，一旦能制造一个 AI Einstein，就能制造十亿个。

贯穿全场的主线是“能力曲线是否还会继续直线外推”。Brown 反复把 LLM 能力放在 log-log straight line、benchmark 死亡速度、chess computer Elo 曲线中观察：如果过去五年的直线只是前奏，那么物理学面对的不是一个更好的工具，而是可复制、可并行、可超人的科学劳动新形态。

开场不是科普噱头：Brown 已把个人科研重心从“写论文”转向“造知识机器”

核心要点： Brown 用“训练沙子思考”重新讲述计算文明史：沙子被炼成硅，硅被做成芯片，芯片被组装成神经网络，现在人类学会训练神经网络思考。这个开场不是比喻游戏，而是他解释自己职业选择的底层判断。

Brown 说自己职业生涯已写约 40 篇理论物理论文，但已经停下。他把继续一篇篇手写理论物理论文称为一种 “guilty pleasure”，因为真正该做的是制造一台能以工业规模生产知识的机器。
他把 LLM 与算盘、袖珍计算器等传统计算辅助工具明确区分开。旧工具只替代物理工作中的某个步骤，“帮你走一步，剩下的还要你做”；LLM 的新处在于，它可能替代理论物理学家工作栈的每一层。
Brown 将 LLM 直接称为 general intelligence，并认为大语言模型会成为构建通用智能的 substrate。这不是“模型会辅助物理学”的弱表述，而是“模型可能承载完整科学智能”的强表述。
他选择在 Perimeter Institute 讲这个题目，也有象征意义：这不是 AI 产品发布会，而是对理论物理共同体解释为什么科研方法论正在改变。

“A large language model has the capability not just to be a special purpose tool that replaces one part of the stack, but in fact do every single part of my job as a theoretical physicist.” —— Adam Brown

LLM 是“长出来的”而不是“写出来的”：这解释了它为什么不像传统程序

核心要点： Brown 用最简模型解释 LLM：神经网络不是传统程序，不靠人手写规则，而是从随机权重开始，在预测下一个词的训练中“生长”出能力。

本世纪初最大的 LLM 大约有 10 亿参数，当时这已足以被称为 “large”；现在 frontier 模型达到数万亿参数。这个量级仍低于人脑约 100 万亿突触，但 Brown 的判断是：它已经足够产生令人震惊的能力。
训练过程从随机权重开始。模型一开始输出胡言乱语，随后通过预测文本中的下一个词来调整神经通路：猜对则强化，猜错则惩罚。Brown 特意强调，“grow, not programmed” 是理解神经网络的关键。
能力随数据规模逐步出现：看过约 100 万词仍接近胡言乱语；到数千万、数亿、数十亿词时能组织语法连贯句子；读完整个互联网、即数万亿词后，才具备跨主题智能对话能力。
Brown 把预训练后阶段称为 finishing school。预训练只让模型学会预测语料中的下一个词，后训练则让它更礼貌、更有用、更服从用户意图。
这个解释服务于后面的推论：因为模型不是传统程序，传统软件的直觉常常失效。比如对 Mathematica 说“请小心、一步步想”不会改变结果，但对 LLM 会显著改变行为。

“They are grown, not programmed.” —— Adam Brown

物理学家参与现代 LLM boom 的关键入口是 scaling laws

核心要点： Brown 把 scaling laws 视为物理学对现代 LLM boom 最重要的贡献之一：它把“投入更多 compute 是否会稳定换来更好表现”变成可预测曲线，也让资本理解为什么继续扩张值得下注。

他先用动物体重与代谢率的 Kleiber law 做铺垫：跨越多个数量级，log-log plot 上出现直线，说明存在幂律关系。物理学家喜欢这种规律，因为它能用简单关系概括复杂系统。
LLM scaling law 的核心问题是：如果训练更大的神经网络，或更准确说，花更多 compute、按合适方式扩大模型尺寸和训练长度，performance 会改善多少？经验结果是在 log-log plot 上形成近似直线。
Brown 说这条曲线“simple enough that even a venture capitalist can understand it”：只要投入 compute，也就是钱，就能得到更好的下一个词预测表现。这种可预期性直接推动了 scaling era。
原始 scaling law 覆盖约 8 个数量级；后来又向右延伸了约 8 个数量级，并且基本仍成立。Brown 接下来展示的多个判断，都建立在“直线如果再延伸一点会怎样”的思维上。
他区分三类增长源：Moore's law 让 compute 单价长期下降，但过去五年不是主要来源；更重要的是人类愿意买更多芯片、建更大数据中心；最重要的则是算法进步。

“Large language models get predictably better with scale.” —— Adam Brown

过去十年真正的加速器是算法进步，不只是芯片和钱

核心要点： Brown 认为 LLM 能力提升有三层驱动：硬件单价下降、训练资源投入增长、算法效率提升。其中算法进步是最大贡献源，因为人类持续发现如何更有效地训练同样的机器。

Moore's law 是背景而非主因。Brown 展示的是过去五年 LLM 能力跃迁，而这一小段时间里，compute 单价并没有改善出足以解释所有能力跃迁的数量级。
资源投入增长非常快：frontier AI model 的训练 FLOPs 自 2010 年以来约每年 4x 增长；训练花费过去十年约每年 2.7x 增长。Brown 把这描述为把同样芯片成规模地买下来、组装成大数据中心。
训练成本已经从 2020 年约 50 万美元量级上升到去年约 1/3 billion dollar。Brown 用 “Avogadro flop costs about a million dollars” 这类尺度感说明训练运行已经进入巨额工程，但仍未触及宏观经济上限。
他用 US GDP 接近每年 30 trillion dollars 说明：如果模型能力继续带来足够回报，人类仍有很长 runway 可以把更多 GDP 转化成训练运行。
但 Brown 也明确指出，仅靠更好地预测互联网下一个词无法吸引 trillions of dollars。继续 scaling 必须买来真实 performance，尤其是科学推理和创造新知识的能力。

“We have a very long runway to go before we are converting most of our GDP into training runs.” —— Adam Brown

MATH benchmark 的死亡速度展示了“考试能力”如何被连续低估

核心要点： Brown 用 MATH benchmark 讲出一个反复出现的模式：新 benchmark 一开始太难，随后被模型快速追上，再变得太容易而失去测量价值。

MATH benchmark 来自高水平高中数学题。人类基线中，不特别喜欢数学的 CS PhD student 约得 40%，三届 International Math Olympiad 金牌得 90%，说明它对人类也不轻松。
2021 年 SOTA LLM 只有约 6%。Brown 强调，不是计算 11% 这类算术本身难，而是模型当时连题目语义都难以解析，无法把自然语言转化成数学问题。
当时预测市场认为 2025 年模型会超过 50%。benchmark 创建者对此非常难以置信；Brown 半开玩笑说，对 Bay Area rationalist 来说，这已经接近怀疑 efficient market hypothesis。
结果是 Google 的 Minerva 很快达到 50%；2024 年中 Max Math 达到 90%，Brown 团队为此去 90s roller disco 庆祝。更残酷的是，6 个月后 off-the-shelf 通用 LLM 几乎直接做满。
Brown 总结出一个经验法则：在这些考试 benchmark 上，模型大约以人类学生 4 倍速度前进——现实中过一年，能力曲线像走过人类学习四年。

“The sad fate of a benchmark in today's LLM era [is] from way too hard to way too easy.” —— Adam Brown

推理能力不是神秘魔法：scale、数据、chain-of-thought、long thinking 和模型互相 babysit

核心要点： Brown 列举的推理增强技术刻意“不显得高深”：很多方法像低垂果实，试了就有效。这支撑他的乐观判断——还有大量 obvious ideas 尚未充分尝试。

第一项仍是 Rich Sutton 所说的 bitter lesson：扩大规模往往压过人类精巧设计。人类为某个 benchmark 做出巧妙系统，下一代模型 scaling 后常常直接学会这些技巧。
Chain-of-thought 被 Brown 称为“asking nicely”。在问题后加一句 “please be careful and think step by step”，模型表现会改善；这对传统计算器荒谬，对 LLM 却有效，因为它是一种可对话的异质智能。
反例同样有信息量。有人系统测试各种提示，发现 “think step by step” 很好，而 “Come on, kid, you can do it. Don't think, just do.” 会让表现下降约 20 个百分点。
Long thinking 是 2024 年末 “strawberry” 类模型的关键：模型不再只输出几十个词的 reasoning，而是经过 reinforcement learning 被训练为思考数千词后再回答。
最近一年，一个重要方向是 test-time compute：让多个 LLM 互相 babysit、互相审稿、分工扮演 creative planner、skeptic、integrator 等角色。Brown 的类比很实际：人类使用模型解难题时常会不断提醒它“review your guess and keep going”，于是研究者把这个过程自动化。

“Think step by step was found to be the best.” —— Adam Brown

GPQA、私有 Stanford 考题和 IMO 把问题从“会考试吗”推到“有创造性吗”

核心要点： MATH 之后，Brown 逐级提高难度：研究生科学考试 GPQA、未上网的 Stanford 私有考试、International Math Olympiad。每一层都曾被认为能挡住 LLM，但都很快被突破。

GPQA 模拟一阶 PhD 学生的领域考试，覆盖物理、化学等专业知识。PhD-level experts 约得 70%；模型在 2024 年初仍接近随机猜，随后在 2024-2025 年越过专家水平并接近满分。
Brown 回应“是不是记住了答案”的质疑：可靠模型在公开 test set 和 newly invented look-alike problems 上表现差异很小，说明不是单纯背答案。
他进一步用自己从未放到网上的 Stanford 广义相对论和量子力学研究生考试做私有测试，并亲自手工评分。结果是在随后 18 个月中，模型达到 100% accuracy，Brown 感叹自己的 benchmark 也死了。
IMO 是更强的创造性门槛。Brown 回忆一位 Turing Award 得主一年前还认为 LLM 永远无法解出未见过的 IMO 题，因为那需要真正创造性。
去年 Google DeepMind 做到 6 题中 5 题正确、35 分、gold medal。IMO 主席确认解答清晰、精准、多数易懂，这一点对 Brown 很重要：模型不是倾倒不可读的形式化证明，而是在输出接近人类数学家的优雅论证。

“Their solutions were astonishing in many respects... clear, precise and most of them easy to follow.” —— Adam Brown 引述 IMO 主席评价

Brown 没有回避 LLM 的蠢：外科医生谜题说明模型会被训练分布吸回去

核心要点： Brown 在展示 IMO gold 后，刻意插入一个 LLM 失败案例，说明他不是把模型神化。模型能非常聪明，也会在训练集中经典模式过强时犯低级错。

经典谜题是“男孩和父亲车祸，父亲死亡，外科医生说这是我儿子”，答案是外科医生是男孩母亲。LLM 能很好回答，因为它在互联网上见过无数次。
Brown 改写谜题：男孩和母亲车祸，母亲死亡，外科医生括号注明是男孩父亲，然后外科医生说“这是我儿子”。这时正确答案已在题面中，但模型仍回答“外科医生是男孩母亲”。
这个例子暴露的是 snap to standard version：模型遇到与训练集中高频模板相似的问题，会被经典版本吸回去，而不充分处理题面新增约束。
Brown 明确说这不是不可克服缺陷，但它是训练方式留下的 signature。这个插曲也让后面关于 agency、planning、error correction 的不足更可信。

“It just sort of snaps to the standard version.” —— Adam Brown

Centaur research 已经出现：人类数学家负责方向感，Gemini 负责生成候选证明

核心要点： Brown 把 2024 年末自己团队的一项数学研究称为 centaur-style mathematical research：人类专家与 LLM 协作，最终产生新的数学论证。

Centaur 的意思是半人半非人。这里的非人部分不是马，而是大语言模型。Brown 说他们从去年 9 月开始，与职业数学家合作，尝试让 Gemini 参与新数学研究。
这不是回答已知 benchmark，也不是做已有题库。Brown 强调这是 novel mathematical research：开始前并不存在标准答案。
合作者之一是 Stanford University professor、American Mathematical Society 主席。Brown 不解释具体数学，而引用这位合作者的评价：Gemini 的论证不是 existing proofs 的重包装，而是“the kind of insight I would have been proud to have produced myself”。
过程不是模型完全自治。人类专家与模型反复对话：模型提出候选证明，人类研究哪些部分好、哪些部分坏，再引导模型集中在有希望的方向。最后完整证明在人类指导下由 LLM 拼接成形。
这个案例把 Brown 的当前定位说清楚：今天最强科学实体未必是纯模型，而是人类数学家 + 模型的 centaur。它对应 chess computer 历史中的 centaur era。

“It was no mere repackaging of existing proofs.” —— Adam Brown 引述合作者评价 Gemini 论证

当前模型还不能“一键发明量子引力”，但已经足以重塑物理学日常

核心要点： Brown 对现状的判断分两层：直接让模型做最大问题仍然无效；但把模型嵌入科研日常，它已经极其有用，甚至即使能力停止进步也会革命性改变物理学。

不工作的事情很明确：对模型说 “Please invent a novel theory of quantum gravity for me” 会得到 AI slop。Brown 说读它可能让你无聊，甚至发疯，但不会让你理解量子引力。
他列出四个当前核心缺陷：low agency、slow learners、poor at planning、poor at error correction。每个问题过去一年都变好了，但每个问题仍存在。
已经工作的第一类是 non-judgmental tutor。模型读过教材，可以在凌晨 3 点解释高级理论物理概念，还能 debug Brown 自己的误解；这比找到世界专家并把对方叫醒现实得多。
第二类是 coding assistant，而且 Brown 认为“assistant”这个词已经近乎侮辱。过去 6 个月，模型从 autocomplete 进化到能根据需求独立花 10 分钟、一小时甚至更久写出完整 Python code set。Code becoming free 会让许多本来不被认为是 coding problem 的物理问题被重新表达为 coding problem。
第三类是 semantic literature search：给模型你的论文，问“这个 idea 是否已存在于文献中”，模型可以基于读完整个文献库的能力给出语义层面的回答。
第四类包括 brainstorming、证明 lemma、并行克隆。Brown 强调模型 fast、broad、tireless、clonal；训练一个人类物理学家要几十年，训练一个 LLM 也贵，但训练一次后可服务出大量实例。

“Even if we have no further progress whatsoever, these things are going to revolutionize the conduct of physics.” —— Adam Brown

Brown 的乐观不是“相信奇迹”，而是相信还有大量低垂算法果实

核心要点： Brown 认为 LLM 继续进步的 inside view 很强：今天造模型的方式并不精致，很多 obvious ideas 还没试到足够规模；同时更多人和更多芯片正在进入这个领域。

Outside view 是线还在上升：能力、资金、compute、benchmark 表现都仍在改善。没有自然定律要求它永远继续，但也没有理由刚好现在停止。
Inside view 是 sausage-making 并不神秘。Brown 说如果看到今天大语言模型怎么制造，会发现并不特别 impressive：很多时候只是做显而易见的事，而它居然有效。
他反驳“LLM 只能 pattern match，不能产生新 idea”这类悲观看法。Brown 的立场是，在足够高抽象层上，智能本身某种意义上就是 pattern matching；许多看似突破性的发现，也是在抽象空间里匹配到了深层结构。
他指出 San Francisco consensus 与他的个人判断一致：不一定需要根本新思想才能到 AGI；已有 ideas、甚至已有 chips，持续 scale 和 refine 可能已经足够。
“Models just want to learn” 是他概括经验现象的口号。研究者不断做 worst-case analysis，解释模型为什么不该有效，但模型实际学得比理论担心更好。

“The models just want to learn.” —— Adam Brown

重大突破已经开始：Erdős unit distance conjecture 是 Brown 眼中的 AI 数学里程碑

核心要点： Brown 在演讲接近尾声时修正自己早先的 slide：原本他说截至上周还没有 AI major breakthroughs；但现在这个说法不再成立。

Brown 称 2026 是 code 的疯狂之年，也是 AI mathematics 的疯狂之年。模型在研究数学上的能力不断跃迁。
他提到几周前出现的一个结果：OpenAI 的大语言模型 more or less autonomously 证明了 Erdős 喜爱的 unit distance conjecture，随后其他 LLM 也复现了该结果。
Brown 强调这不是那种“文献中形式上未解，但其实没人认真试”的问题。许多数学家长期认真尝试过它。
Tim Gowers 的评价是关键证据。Gowers 是 Fields Medalist，他说 AI 已解决一个 major open problem；若人类写成论文投给 Annals of Mathematics，他会毫不犹豫建议接收。
Brown 的预测是 floodgates will open：第一批突破会发生在特别适合模型优势的问题上，然后随着模型能力增强，逐步扩展到不那么友好的问题。

“AI has now solved a major open problem.” —— Adam Brown 引述 Tim Gowers

Chess analogy 是全场最重要的未来模型：科学 AI 可能越过人类峰值后继续上升

核心要点： Brown 最后揭示，他画的“智能持续上升”曲线其实来自 chess computers 的 Elo 历史。这个类比提供了他预测 AI scientist 的结构：toy、tool、centaur、superhuman。

棋类计算机经历四个时代：toy era，能下出像样棋步就值得惊讶；tool era，人类用它们做残局或开局等专门任务；centaur era，最强实体是 grandmaster + computer；superhuman era，grandmaster 坐在旁边最好别插手。
Brown 承认数学和物理比国际象棋难得多，可能空间更开放，但这正是为什么这场讨论比 chess 晚了 30 年发生，而不是为什么不会发生。
固定整体强度下，chess computer 更强于 tactics、search、speed，更弱于 strategy 或 taste。Brown 认为科学 AI 也类似：它们擅长冲进去套标准 lemma、跑搜索，但较弱于确定整体方向；不过这个弱点也正在改善。
训练上也有相似性：棋类神经网络需要比人类多得多的对局，在玩到人类同等局数时仍像随机；但由于可以高速自弈，四天强化学习后就远超人类。科学 AI 也可能需要更多训练样本，但日历时间更短，且训练一次即可复制。
最关键的是，chess computer 没有在 peak human 停下。它越过人类最高水平后继续上升。Brown 暗示：没有理由认为科学智能会在人类最强物理学家处自动停住。

“It just blew straight past peak human. It didn't stop.” —— Adam Brown

未来几年可能是物理学黄金时代：一个 AI Einstein 可以复制成十亿个

核心要点： Brown 对长期未来保持不确定，但对未来几年很确定：AI 工具放到人类物理学家、数学家和领域专家手中，将带来科学复兴。

除了 frontier intelligence 变强，另一个趋势是固定智能水平的服务成本持续下降。Brown 展示的图虽停在几年前，但他说趋势仍在继续。
成本下降改变了科学劳动力的复制逻辑。人类 Einstein 不可复制；如果能制造一个 AI Einstein，就能制造十亿个，让大量超人 AI scientist 并行工作。
Brown 认为未来会更难预测，因为 AI 提升会改变世界本身的可预测性。但短期看，他预期物理学与数学会进入 recorded history 中最令人兴奋的时期。
他的最终落点不是“人类物理学家消失”，而是先进入 human experts + AI tools 的 renaissance：所有困扰他整个职业生涯的问题，可能在未来几年被回答。
这也是演讲题目 “Training Sand to Think” 的闭环：人类把沙子训练成会思考的东西之后，科学不再只靠稀缺人类大脑的串行劳动，而可能转向大规模、并行、可复制的知识生产。

“If you can make one AI Einstein, you can make a billion of them.” —— Adam Brown

附录：关键人/机构/产品/数据

项目	详情
Adam Brown	Google DeepMind Blueshift 团队负责人，Gemini 核心贡献者；曾在 Princeton、Stanford 物理系任职。
Perimeter Institute	本演讲发布方，理论物理研究机构。
Google DeepMind	Brown 所在机构；IMO gold、Gemini 和相关数学研究均在演讲中出现。
Gemini	Brown 参与贡献的大语言模型。
ChatGPT / Claude	Brown 列举的其他 frontier LLM。
MATH benchmark	高中数学 benchmark；LLM 从 6% 快速进步到 90% 乃至几乎满分。
Minerva	Google 早期数学系统，快速达到 MATH 约 50%。
Max Math	Brown 团队 2024 年中达到 MATH 约 90% 的系统。
GPQA	PhD-level science benchmark；专家约 70%，模型从随机猜到接近满分。
International Math Olympiad	Google DeepMind 去年解出 5/6 题，35 分，金牌。
Strawberry	Brown 提到的 2024 年末 long-thinking 模型代表，用 RL 训练模型思考更久。
Erdős unit distance conjecture	Brown 称 OpenAI 模型近期 more or less autonomously 证明的 major open problem。
Tim Gowers	Fields Medalist；评价 unit distance 问题 AI 解法达到 Annals of Mathematics 接收标准。
10亿参数	本世纪初 LLM 的大致最大规模。
数万亿参数	当前大模型规模。
100万亿突触	Brown 提到的人脑突触量级。
每年 4x FLOPs	自 2010 年以来 frontier AI training FLOPs 增长速度。
每年 2.7x 训练金额	Brown 展示的过去十年训练投入增长速度。
约 40 篇论文	Brown 已写理论物理论文数量。
AI Einstein	Brown 对可复制超人 AI scientist 的比喻。