265 min 2026-01

State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI | Lex Fridman Podcast #490

Lex Fridman · Sebastian Raschka · Nathan Lambert

概要

Lex Fridman 与 Sebastian Raschka、Nathan Lambert 深度回顾 2026 年 AI 技术现状：DeepSeek 冲击、scaling laws 争论、后训练革命、coding agents、开源 vs 闭源、AGI 定义分歧

核心洞察

元信息

| 项目 | 详情 |

|------|------|

| 嘉宾 | Sebastian Raschka（ML 研究者/作者，著有 Build a Large Language Model from Scratch）、Nathan Lambert（Allen Institute for AI post-training lead，RLHF 专著作者） |

| 主持人 | Lex Fridman |

| 来源 | Lex Fridman Podcast #490 |

| 日期 | 2026-01-31 |

| 时长 | ~265 分钟 |

Executive Summary

DeepSeek 时刻并未产生一家赢家，而是引爆了中国开放权重模型的"寒武纪大爆发"。 Nathan 指出，Z.ai（GLM）、MiniMax、Kimi Moonshot 等公司正在夺走 DeepSeek 的皇冠；Sebastian 则认为这些公司只是在复用 DeepSeek 的架构创新（如 Multi-head Latent Attention、MoE），体现了"没有公司能独占技术"的判断——真正的差异化在于预算和硬件约束，而非 idea 本身。
Claude Opus 4.5 已成为 2026 年初最大的行业话题，但这是 X/Twitter 回音室的放大效应。 Nathan 坦承 Opus 4.5 的 hype "almost a meme"，Gemini 3 在基础能力和分发渠道上同样强悍；三人各自使用不同模型组合（Lex 用 Cursor + Claude Code、Nathan 用 GPT-5.2 Thinking + Gemini + Claude Opus 4.5、Sebastian 用 Codeium + 各种快速模型），这种"用到出错再换"的使用模式印证了当前模型之间差异化有限。
Scaling Laws 在预训练、后训练、推理三个维度上均仍然有效，但"低垂果实"已被摘走。 Nathan 引用"scaling laws 跨越 13 个数量级的算力都成立，为什么会终止？"来表达信心，但指出 2026 年重点在于 Blackwell 集群上线后的算力利用方式——预训练仍占大头计算量，RLVR 的 scaling 是最令人兴奋的新维度（AI2 的 OLMo 3 在 5 天 RL 后额外跑了 3.5 周，模型显著提升），而 RLHF 的 scaling 已被证实存在天花板。
后训练已进入 RLVR 1.0 时代，下一步是 RLVR 2.0——对推理过程中间步骤的奖励。 Sebastian 预测 2026 年将聚焦 process reward models 和 value functions 来利用"问题与答案之间"的信息；Nathan 则更看好 value functions 但承认"very little proof"。三人一致认为：RLVR 并非教模型新知识，而是"解锁"预训练中已有的知识——Sebastian 用 Qwen 3 基模在 MATH-500 上仅 50 步 RLVR 就从 15% 跃升至 50% 的实验生动地证明了这一点。
通往 AGI 的道路充满"锯齿状"不均匀进展，全自动编程在 2026 年将大幅推进但不会完全实现。 AI27 报告的平均预测从 2027 推迟到 2031；Nathan 认为 AI 在前端/传统 ML 系统上已接近超人，但分布式训练等领域因缺乏训练数据仍然很差。三人的共识是：与其追问 AGI 定义，不如关注模型能力的实际经济影响——而目前"GDP 跳跃"尚未发生。

贯穿全场的核心线索是"没有赢家通吃"——从国际竞争到开闭源之争，从 scaling laws 的多维度博弈到 AGI 路径的锯齿状推进，Sebastian 和 Nathan 反复从不同角度回到同一个判断：AI 的进步是多路径、多玩家、渐进式放大的过程，而非某个奇点式的突破。

DeepSeek 时刻的真正遗产：不是一家公司胜出，而是中国开放模型生态的全面崛起

核心要点：DeepSeek R1 的最大意义不在于自身性能，而在于它激活了一批中国公司——Z.ai、MiniMax、Kimi Moonshot、Qwen——进入开放权重前沿，形成了类似"ChatGPT 在美国引爆聊天机器人热潮"的中国版效应。

Nathan 明确指出 DeepSeek 正在"losing its crown"：Kimi Moonshot 在近几个月表现更突出，Z.ai 和 MiniMax 已提交 IPO 申请，积极拓展西方市场。Sebastian 则为 DeepSeek 辩护——"不是 DeepSeek 变差了，是其他公司在复用 DeepSeek 的 idea"，比如 Kimi 就采用了相同的架构。
中国公司开放模型的动机非常务实：Nathan 透露他收到多家中国公司的主动联络（inbound），"它们很聪明，知道美国顶级科技公司出于安全考虑不会购买中国公司的 API 订阅，所以开放权重是影响力和进入美国 AI 支出市场的手段。"
中国开放模型的许可证比 Llama 或 Gemma 更友好——无限制开源许可，没有用户量上限的附加条件。Sebastian 认为这是它们受欢迎的关键原因之一。
但 Nathan 提出一个关键现实：中国模型在服务端使用更少 GPU 副本（可能与出口管制有关），导致速度更慢、错误模式不同。只要美国模型在智能和速度上保持优势，付费用户就会继续选择美国产品。

"These Chinese companies have realized... a lot of top US tech companies won't pay for an API subscription to Chinese companies for security concerns... they see open weight models as an ability to influence and take part of a huge growing AI expenditure market in the US." —— Nathan

模型使用的现实：三人各自的"模型组合拳"揭示当前竞争格局

核心要点：没有人只用一个模型，每个人都在不同场景切换不同产品——这既说明各模型各有长板，也说明差异化在缩小，"用到出错再换"是最真实的用户行为。

Nathan 的工作流：GPT-5.2 Thinking 或 Pro 用于信息检索（同时开 5 个 Pro 查询找论文），Gemini 用于快速简单查询，Claude Opus 4.5（始终开扩展思考）用于代码和深度讨论，Grok 4 SuperGrok Heavy 用于实时信息和 AI Twitter 考古。他坦言"从未碰过 GPT-5 非思考模式"。
Sebastian 的工作流：大多数日常查询用快速非思考模型（包括 ChatGPT 自动路由），深度校对用 Pro 模式（写完东西后丢进去，吃个晚饭回来看结果），编程用 Codeium 插件。他讲了一个有趣的故事——妻子已经在车里等了，他发现不小心拔掉了 GPU 电源，需要在 10 秒内用最快模型生成一个 Bash 脚本来链接多个实验脚本并写入 log 文件。Lex 打趣"这听起来像 Mission Impossible"。
Lex 的工作流：一半用 Cursor，一半用 Claude Code，认为两者是"fundamentally different experiences"——Cursor 更像 diff 审查，Claude Code 更像用英语编程。他用 Gemini 做快速查询（因为 Gemini 的长上下文 needle-in-haystack 测试一度让他"fall in love"），用 Grok 4 Heavy 做 hardcore debugging。
Sebastian 提出一个被忽略的观点：ChatGPT 的 Memory 功能创造了"个人/工作分离"问题——你可能需要两个订阅，一个干净的工作版本和一个个人版本。

"You use it until it breaks, then you explore other options." —— Sebastian

架构演进的真相：从 GPT-2 到 2026 前沿模型，核心改动惊人地少

核心要点：当前所有前沿模型在架构上仍然是 GPT-2 的"变体"——Sebastian 用自己的 from-scratch 项目证明，你可以从 GPT-2 出发，通过添加 MoE、Multi-head Latent Attention、Group Query Attention 等组件，逐步构建出 OLMo 3、Gemini 3 等模型。真正的进步来自训练算法、数据质量和系统工程，而非架构革命。

Sebastian 逐一列举了从 GPT-2 到 gpt-oss-120b 的改动：MoE 层、Group Query Attention（替代 Multi-Head Attention）、RMSNorm（替代 LayerNorm）、不同的非线性激活函数——"It's not really fundamentally that different. It's still the same architecture."
MoE 的核心 idea 是"pack more knowledge without using it all at once"——256 个 expert 中只激活少数几个，由 router 根据 token 类型选择。Sebastian 用一个类比解释：数学输入和翻译输入会咨询不同的 expert，但边界不清晰。
Nathan 强调系统层面的进步被低估：FP8/FP4 训练让 tokens/second/GPU 从 10K 提升到 13K，虽然不给模型带来新能力，但大幅加快实验迭代——"the code base used to train these models is vastly different" 即便架构完全相同。
替代架构（文本扩散模型、Mamba/State Space Models）开始出现但尚未取代 autoregressive transformer。Google 宣布 Gemini Diffusion，号称在同等质量下生成速度大幅提升。Nathan 指出文本扩散在代码 diff 生成场景已有应用——因为 autoregressive 生成长 diff 需要分钟级时间，用户流失严重。

"You can go from one into the other by just adding these changes basically... It fundamentally is still the same architecture." —— Sebastian

Scaling Laws 三维博弈：预训练未死、RLVR 正热、推理 scaling 改变使用范式

核心要点：预训练 scaling 仍然有效但"低垂果实已摘"，投资重心正向 RLVR 后训练和推理时 scaling 转移。关键不是哪条路径"死了"，而是在有限算力下如何分配——这是一道经济学优化题。

Nathan 引用一个核心论据："scaling laws 已在 13 个数量级的算力上成立，为什么会终止？"但他同时指出实际约束：2026 年 Blackwell 集群（千兆瓦级数据中心）正在上线，这些是 2022-2023 年签约的合同，需要 2-3 年建设。
预训练的经济学：DeepSeek V3 预训练花了约 500 万美元（云市场价），AI2 的 OLMo 3 租用集群（含工程问题、多种子运行）花了约 200 万美元。但服务数亿用户的推理成本才是真正的"数十亿美元级"开支。
Sebastian 提出预训练 vs 推理 scaling 的成本结构差异：预训练是固定成本（"train once, use forever"），推理 scaling 是按查询付费。如果模型半年后就被替换，花 1 亿美元延长预训练可能不值得，不如用推理 scaling 在当下获得性能。
Nathan 预测 2026 年可能出现 $2,000/月的订阅（相比当前 $200 订阅的 10 倍），这是大模型 + 更多推理计算的自然结果。
xAI 据报将在 2026 年初达到 1 GW 规模、年底达到 2 GW——Nathan 认为大部分算力仍会投入预训练，"you still want the best base model you can"。
Sebastian 用一个精妙的类比总结：Claude Opus 4.5 的教训是——花更多钱在预训练上不如用 o1 的推理 scaling 获得的收益大。"I wouldn't say pre-training scaling is dead, it's just that there are other more attractive ways to scale right now."

"It's been loosely established the likes of GPT-4 and similar models were around one trillion parameters at the biggest size. There's a lot of rumors that they've actually gotten smaller as training has gotten more efficient." —— Nathan

后训练的完整配方：RLVR 的胜利、RLHF 的天花板、以及 2026 的 RLVR 2.0

核心要点：RLVR 是 2025 年最重要的技术突破——它让 RL 训练具有了 scaling law（对数增加计算量，线性提升性能），而 RLHF 的标志性论文标题恰恰是"Scaling Laws for Reward Model Over-Optimization"。2026 年的重点将是 process reward models 和扩展 RLVR 到科学等非数学/代码领域。

Nathan 透露了后训练的实际规模：AI2 在 11 月用 5 天做了 OLMo 3（30B 参数）的后训练（相比 2024 年已是"very long time"），12 月又跑了 3.5 周 RL，模型"notably better"后再发布。他指出 Ilya Sutskever 曾说预训练和后训练的计算量已接近相同。
RLVR 和 RLHF 的本质区别：RLHF 是偏好平均化——"不同人对同一问题有不同正确答案"（如推荐笔记本电脑：有人优先电池续航，有人优先 RAM），训练到某种"average preferred answer"后就不必再练。RLVR 则是解决越来越难的问题，计算量投入没有上限。
Sebastian 展示了一个震撼的实验：在 Qwen 3 基础模型上，仅用 50 步 RLVR（几分钟时间），MATH-500 准确率从 15% 跳到 50%。"You can't tell me it's learning anything fundamentally about math in 50 steps. The knowledge is already there."
但 Nathan 立即提出质疑——Qwen 3 存在严重的数据污染问题：改变数学题中的数字但保留文字，Qwen 会输出高精度小数结果，说明它在 mid-training 阶段看过了几乎相同的测试题。这引发了"RLVR 到底是 formatting 还是 unlocking"的社区辩论。
DeepSeek R1 论文中的"aha moment"——模型在训练过程中自发学会了自我纠错（"Ah, I did something wrong, let me try again"），Sebastian 认为这是整个 RLVR 范式最令人兴奋的涌现现象。
Nathan 提出 RLVR 的领域扩展方向：数学和代码之外，研究者正在用 LLM-as-a-judge 构建 rubrics 来评分开放性问题，将 RLVR 推向科学等更模糊的领域。

"The seminal scaling paper for RLHF is 'scaling laws for reward model over-optimization.' So that's a big line to draw." —— Nathan

数据：训练的"不性感但最有价值的工作"，以及 Anthropic 的 15 亿美元版权诉讼

核心要点：数据质量是前沿实验室中影响力最大的杠杆——"如果你加入前沿实验室想要产生影响，最好的方式就是找到更好的数据"。同时，数据的法律地位正通过天价诉讼被重新定义。

Nathan 描述了预训练数据的规模：小型研究模型用 5-10 万亿 token，Qwen 文档记录用到 50 万亿，传闻闭源实验室达到 100 万亿 token。数据来源包括 Common Crawl（数百万亿 token 的互联网爬取数据）的过滤、OCR 处理 PDF（DeepSeek、AI2、Meta 都开发了 Almost-OCR 工具）、以及合成数据。
Sebastian 强调合成数据不一定是"纯 AI 生成"——可以是将 Reddit 帖子重写为结构化 Q&A、将 Wikipedia 文章改写为摘要，让模型从一开始就学到正确的语法和格式，加速训练收敛。
AI2 的 Semantic Scholar 积累了大量公开科学 PDF——Nathan 认为这类"让有经验的研究员找到新数据、清洗、整合"的劳动密集型工作是前沿实验室中最不性感但最有价值的贡献。
2025 年发生的大事件几乎被遗忘：Anthropic 在版权诉讼中败诉，赔偿作者 15 亿美元。Anthropic 购买了数千本书并扫描（法院认定合法），但也通过种子下载获取了部分书籍——后者被判定为侵权。Nathan 称这是"mind-boggling"的金额，"so much money from the VC ecosystem"。
Sebastian 作为开源项目维护者提供了 LLM 生成代码涌入的第一手观察：他 10 年前开发的 MLxtend 库最近收到大量疑似 LLM 辅助的 PR，"作为维护者有些不堪重负，但也有价值——人类层面的验证仍在其中"。

"If you join a frontier lab and you want to have impact, the best way to do it is just find new data that's better." —— Nathan

文本扩散模型、工具使用与持续学习：三条正在成形的新路径

核心要点：文本扩散模型不会取代 autoregressive LLM，但将在特定场景（如代码 diff 生成）提供速度优势；工具使用是减少幻觉的最大杠杆；持续学习（权重更新）目前太贵，上下文学习可能是更实际的替代方案。

文本扩散模型：Sebastian 解释了核心差异——autoregressive 是逐 token 生成，text diffusion 是从随机文本开始并行"去噪"，类似 BERT 的 masked language modeling。Google 宣布 Gemini Diffusion 并关联 Gemini Nano 2，声称在大多数 benchmark 上同等质量但生成更快。Nathan 听说代码创业公司已在用它生成长 diff——因为 autoregressive 要分钟级时间，"every second, you lose a lot of users"。但关键限制是工具使用——扩散过程被外部 tool call 中断时该怎么办？
工具使用：Sebastian 认为这是解决幻觉的最重要路径——"Why memorize who won the 1998 World Cup when you can Google it?"。gpt-oss-120b 被他视为标杆，因为它是第一个真正以 tool use 为核心训练的开放模型。Nathan 对比了开放 vs 闭源模型的 tool use 差异：开放模型需要兼容多种工具（"making a general reasoning engine"），闭源模型则深度集成特定工具。
持续学习 vs 上下文学习：Nathan 个人更看好通过提供丰富 context 来实现"学习的外观"，而非修改模型权重。Sebastian 指出在设备端进行个性化权重更新（如 Apple 尝试的方案）可能是唯一经济可行的方向——"在 OpenAI 规模的数据中心为每个用户更新权重都太贵了"。Cursor 的博客透露他们每 90 分钟基于用户反馈更新 Composer 模型权重——Nathan 称这是"closest thing to real-world RL happening on a model"。

"The first open-weight model that was really trained with tool use in mind... a huge unlock." —— Sebastian（谈 gpt-oss-120b）

AGI 时间表：锯齿状进展、$2000 订阅与"GDP 跳跃"何时到来

核心要点：AI27 报告的 AGI 预测已从 2027 推迟到 2031，三人的共识是 AI 进步呈"jagged"（锯齿状）——在某些能力上已超人，在另一些上仍很差。全自动编程在 2026 年将大幅推进，但"economic impact 的 GDP 跳跃"尚未发生。

Nathan 用"jagged frontier"概念总结：Claude Code 做网站已近乎完美，但分布式 ML 训练的代码生成仍然糟糕，"because there's so little training data on doing large-scale distributed learning"。
AI27 报告定义了清晰的里程碑链：Superhuman coder --> Superhuman AI researcher --> Superintelligent AI researcher --> full ASI。报告认为"有了超人编码者，其他一切很快跟进"。Lex 引用了他们将平均预测从 2027 推迟到 2031 的修订。
Nathan 的判断更激进：他认为 research 是"messy, social, and largely in the data in ways that AI models can't process"——自动化 AI 研究比自动化编码难得多。"Big tech is going to spend $100 billion much faster than we get an automated AI researcher."
Sebastian 提出一个有意思的反问：即使特定领域（法律、制药、金融）出现 AlphaFold 式突破，"is it really AGI? Because we are now specializing it again"。他认为 foundation model + 专有数据定制才是下一波经济价值的真正释放——"Bank of America, for $100 million we will do your custom model"。
关于计算机使用（computer use），Nathan 对 2025 年的演示（Claude 控制你的电脑、OpenAI Operator）直接评价："they all suck"。他认为 API 调用比屏幕接管更有前途，但当前的核心瓶颈是 specification——"for arbitrary tasks, you still have to specify what you want"。
三人讨论了一个有趣的反面场景——如果 2026 年 AI 实质上"plateau"了呢？Nathan 回应："there are so many obvious things to improve... it'll take us with the ideas that we have multiple years to actually saturate."

"The models are already superhuman at some types of code. I think that will continue. And people are creative, so they'll utilize these incredible abilities to fill in the weaknesses." —— Nathan

开放模型之战：Llama 的陨落、ATOM 项目与美国的战略焦虑

核心要点：Meta 的 Llama 因内部政治斗争和错误的 benchmark 策略自我毁灭，Nathan 发起 ATOM（American Truly Open Models）项目呼吁美国投资开放模型以对抗中国在该领域的主导地位——AI2 获得 NSF 史上最大计算机科学拨款（1 亿美元/4 年），但一个组织不够。

Llama 的衰落：Sebastian 认为 Meta 高管因 Llama 的社区热度"got too excited about headlines pushing the frontier"，结果 Llama 4 过度追求 benchmark 表现（通过针对偏好训练来刷分），却没有发布社区真正需要的小模型。Nathan 更尖锐——"it imploded under internal political fighting and misaligned incentives"，传闻有"horrible technical decision was made"。
Nathan 认为不会再有开放权重的 Llama 5，尤其在 Alexandr Wang（倾向闭源）加入 Meta AI 领导层后。Mark Zuckerberg 在 2024 年 7 月写了"The Case for Open Source AI"的博文，但 2025 年 7 月就变成了"We're reevaluating our relationship with open source"。Sebastian 为 Meta 说了句公道话——社区对 Llama 4 的过度负面反馈也是促成这一转向的因素。
ATOM 项目的起源：Nathan 描述了 2025 年 7 月的关键时刻——"four or five DeepSeek-caliber Chinese open-weight models and zero from the US. That's the moment where I realized I have to spend energy on this." 他用 Claude Opus 4.5 vibe coded 了项目网站（自嘲"a true vibe coded website"）。
ATOM 的核心主张只有两句话：（1）开放模型是 AI 研究的引擎，谁拥有最好的开放模型，最好的研究就发生在谁那里；（2）创造一个超越闭源实验室前沿一代的开放模型大约需要 1 亿美元——"a lot of money, but not a lot of money to these companies"。
NVIDIA 的 Jensen Huang 积极支持这一方向——Nemotron 3 开始发布数据，Reflection AI 宣布 20 亿美元融资"dedicated to building US open models"。Nathan 还提到 2025 年美国 AI Action Plan 包含专门的"鼓励开源和开放权重 AI"章节。

"In July, four or five DeepSeek-caliber Chinese open-weight models and zero from the US. That's the moment where I realized, 'Oh, I guess I have to spend energy on this because nobody else is gonna do it.'" —— Nathan

教育路径与行业选择：PhD vs 前沿实验室的残酷经济学

核心要点：前沿实验室的 996 文化和百万美元年薪 vs 学术界的资金削减和发表压力——Nathan 坦率地建议"take the well-paying job with meaningful impact"，但也承认教授朋友因为"mentorship and mission"反而"seem happier"。

Sebastian 推荐的学习路径：从 GPT-2 开始从零实现一个能在单 GPU 上运行的小模型，然后逐步添加组件（MoE、GQA 等），通过与 Hugging Face Transformers 的参考实现进行单元测试验证——"It's almost like RLVR for your own learning." 他坦言实现 OLMo 3 的 YaRN RoPE 位置编码花了一整天。
Nathan 的职业建议极其务实：OpenAI 的平均员工年薪股票补偿超过 100 万美元，"For any normal person in the US, to get into this AI lab is transformative for your life." 他对学生的态度是——"If you're going to OpenAI, it could be worth leaving a PhD for. Don't go work at some random startup that might go to zero."
但两人都认为学术界有其独特价值：Nathan 提到计算资源最匮乏的学者可以专注 evaluation——"if you go from a small university with no compute and find something that Claude struggles with, and then the next Claude model has it in the blog post, there's your career rocket ship"。他还讲述了一位牛津学生主动联系他做 character training 研究的案例，"there's like two or three people in the world that were very interested in this"。
关于 996 文化：Nathan 透露他读了 Patrick McGee 的书 Apple in China，书中描述苹果工程师为建立中国供应链而过劳——"they had 'saving marriage' programs... people died from this level of working hard"。他把当前 AI 行业的工作强度类比为此。

"OpenAI's average compensation is over a million dollars in stock a year per employee. For any normal person in the US, to get into this AI lab is transformative for your life." —— Nathan

AI 编程的 enjoyment 悖论：80% 的开发者觉得更有趣，但"struggle"是学习的核心

核心要点：一项 791 名 10 年以上经验开发者的调查显示，80% 的人觉得 AI 辅助编程"somewhat more enjoyable"或"significantly more enjoyable"，且资深开发者比初级开发者更多使用 AI 生成代码（>50%）。但三人都担忧：如果年轻人跳过 struggle 阶段，未来谁来成为"能有效使用 AI 的专家"？

Sebastian 讲了一个生动的生活案例：他妻子的播客节目需要将 Spotify 的 show notes 转移到 YouTube，100 个链接全部损坏，手动修复需要两小时——丢进 ChatGPT 后几分钟搞定。"I think everyone has a use case where AI is useful for something that would be really boring, really mundane."
但 Sebastian 也表达了对"完全外包编码"的担忧：两年后如果你每天 8 小时只是管理 AI 编码，"do I feel fulfilled still? Is this hurting me?"
Lex 提供了不同视角——他从 pair programming 的角度看 AI 编码的乐趣来源是"less lonely"，调侃 Sebastian 把 debugging 说得像人间美事，"No, I would say debugging is like a drink of water after you've been going through a desert for days. You skip the whole desert part."
Nathan 提出教育领域的黑色幽默：有一个短暂的 10 年窗口期，所有作业和考试可以数字化——之前必须用蓝色考卷本因为没有替代方案，现在 AI 之后又得回到蓝色考卷本和口试，"because everyone could cheat so easily"。

"80% of people find it either somewhat more enjoyable or significantly more enjoyable to use AI as part of the work." —— Sebastian（引用开发者调查）

行业整合、IPO 前景与 NVIDIA 的护城河

核心要点：Groq 被 NVIDIA 以约 200 亿美元收购、Scale AI 近 300 亿美元交易标志着整合开始，但 Nathan 对这些 licensing deal 结构感到不安——它们绕过反垄断但损害普通员工利益。Anthropic 和 OpenAI 因融资容易而不会急于 IPO。NVIDIA 的真正护城河是 CUDA 生态系统而非芯片本身。

Nathan 预判 Perplexity 可能被 Apple 收购，Manus.ai（成立仅 8 个月的新加坡公司）已以 20 亿美元退出，Cursor 因用户数据积累处于被收购的有利位置。"Dario will never sell" 是他对 Anthropic 的判断。
中国方面，MiniMax 和 Z.ai 已提交 IPO 申请——Nathan 预期中国市场的反应同样会被 hype 驱动，"not based on the reality that they're both losing a ton of money"。
NVIDIA 的护城河分析：Sebastian 从 15 年前做生物物理模拟时就用 Tesla GPU 开始回溯——"CUDA ecosystem has evolved over two decades, that's the moat, not the chip itself." 但他也指出 LLM 可能使复制 CUDA 变得更容易。Nathan 补充了训练与推理芯片分离的趋势——Vera Rubin 新芯片去掉高带宽内存，专为 prefill 优化，大幅降低 per-FLOP 成本。

"NVIDIA's fate lies in the diffusion of AI still. So long as the pace of AI progress is high, NVIDIA's platform is the most flexible." —— Nathan

100 年后的世界：AI slop 的淹没、人类 agency 的回归与"值得为之战斗的人类"

核心要点：三人在最后的哲学讨论中形成了一个共同判断——AI 最大的被低估影响是"making all of human knowledge accessible to the entire world"，而 slop 的泛滥反而会推高实体体验和人类创作的价值。

Lex 提出了一个常被忽视的论点：LLM 已经在做"让全人类知识对全世界可访问"这件事——"kids throughout the world being able to learn these ideas, the impact that has across time is probably... that's the real impact"。相比之下，GPU 集群和 scaling laws 只是手段。
Sebastian 对 AI 生成内容的态度鲜明："I have a hard time reading things where I obviously see it's obviously AI generated. I'm sorry." 他预测实体艺术和人类创作的价值将上升——"there is something when you go to a museum and you look at that art and you see the real thing and you just think, 'Okay. A human.'"
Nathan 预测近几年"slop is only starting"，但他有一个乐观推测：社会会被 slop 淹没到足以"snap out of it"，然后实体体验获得更高溢价。
关于意识和 AI 接管，Sebastian 给出了一个简洁的回答："You have to tell it what to do. It doesn't take the agency from you because it becomes a tool." Nathan 则指出 UBI 不能解决 agency 问题——人们需要的是社区、意义和自主行动的能力。
最后被问及在终结者式人机战争中人类能否获胜，Sebastian 说 100%，Lex 补充"我们可能会用本地开源 LLM 来对抗机器"——以此幽默收场。

"I'm hoping that society drowns in slop enough to snap out of it and be like, 'We can't deal with it. It just doesn't matter.' And then, the physical has such a higher premium on it." —— Nathan

附录：关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Sebastian Raschka | ML 研究者/教育者，著有 Build a Large Language Model from Scratch 和 Build a Reasoning Model from Scratch，维护 MLxtend 开源库 |

| Nathan Lambert | Allen Institute for AI (AI2) post-training lead，RLHF 专著作者，ATOM (American Truly Open Models) 项目发起人 |

| AI2 / Allen Institute for AI | 获 NSF 1 亿美元/4 年拨款（史上最大 CS 拨款），开发 OLMo 系列模型，运营 Semantic Scholar |

| ATOM 项目 | Nathan 发起，主张美国投资约 1 亿美元打造超越闭源前沿一代的开放模型，以对抗中国开放模型主导地位 |

| Claude Opus 4.5 | Anthropic 于 2025 年 11 月底发布，2026 年初成为最受关注模型，尤其在代码领域 |

| Gemini 3 | Google 发布，早于 Claude Opus 4.5 数月，在基础能力和长上下文上强劲但 hype 相对较低 |

| GPT-5 / GPT-5.2 | OpenAI 旗舰，high-line feature 作为 router 节省 GPU 成本，长上下文评分从 30% 跃升至 70% |

| gpt-oss-120b | OpenAI 自 GPT-2 以来首个开放权重模型，以 tool use 为核心训练设计 |

| DeepSeek R1 / V3 / V3.2 | 中国开放模型标杆，R1 引入 RLVR at scale，V3 创新 MoE + Multi-head Latent Attention，V3.2 引入稀疏注意力机制 |

| OLMo 3 | AI2 开放模型，预训练花约 200 万美元，RL 后训练从 5 天延长到近 4 周获得显著提升 |

| Qwen 3 | 阿里模型，训练数据疑似包含数学 benchmark 近似题目（contamination 争议），mid-training 阶段数据问题被多篇论文指出 |

| Cursor / Composer | 代码编辑器，Composer 模型基于中国大型 MoE 模型微调，每 90 分钟根据用户反馈更新权重 |

| Groq (with Q) | 推理芯片公司，被 NVIDIA 以约 200 亿美元收购 |

| Scale AI | AI 数据标注公司，近 300 亿美元交易 |

| Manus.ai | 新加坡公司，成立仅 8 个月，20 亿美元退出 |

| DeepSeek 预训练成本 | 约 500 万美元（云市场价） |

| OLMo 3 集群租用成本 | 约 200 万美元（含工程问题、多种子运行） |

| Anthropic 版权败诉 | 2025 年败诉，赔偿作者 15 亿美元（种子下载书籍部分） |

| AI2 NSF 拨款 | 1 亿美元 / 4 年 |

| OpenAI 员工年薪 | 平均股票补偿超 100 万美元 |

| 开发者调查（791 人） | 10 年以上经验，80% 认为 AI 辅助编程更有趣，资深开发者使用 AI 生成代码比例更高 |

| AI27 报告 | AGI 预测从 2027 推迟至 2031（mean prediction） |

| RLVR (Reinforcement Learning with Verifiable Rewards) | Nathan 团队在 Tulu 3 工作中命名，DeepSeek R1 将其推广至规模化训练 |

| GRPO | Group Relative Policy Optimization，RLVR 中常用的策略梯度算法，奖励基于同一问题多个回答的相对表现 |

| MoE (Mixture of Experts) | 稀疏架构，多个 expert 中只激活少数，在不增加前向传播成本的前提下扩大模型容量 |

| Multi-head Latent Attention | DeepSeek 创新的注意力变体，压缩 KV cache 以降低长上下文推理成本 |

| 文本扩散模型 | 并行"去噪"生成文本的替代架构，Google 宣布 Gemini Diffusion，已有创业公司用于代码 diff 生成 |