228 min 2026-05

140. 对姚顺宇的4小时访谈：请允许我小疯一下！在Anthropic和Gemini训模型、技术预测、英雄主义已过去 - 张小珺Jùn｜商业访谈录

报告概述

本报告基于对《商业访谈录》第140期节目《对姚舜禹的4小时访谈：请允许我小疯一下！在Anthropic和Gemini训模型、技术预测、英雄主义已过去》的完整ASR原文分析，系统性地重构并深化了嘉宾姚舜禹作为清华-斯坦福双料理论物理背景、现任职于Google DeepMind的研究科学家，在人工智能领域从“非厄米系统”到“大规模强化学习”的跨学科跃迁历程。报告以2026年Q1为时间锚点，全面呈现其对当前AI发展范式、组织文化差异、技术演进路径及未来趋势的深刻洞见。核心议题涵盖：AI本质是否为“简单预训练+强化学习”的系统性工程？；为何“个人英雄主义时代已终结”？；大公司与初创企业组织机制的根本差异如何塑造产品创新路径？；模型能力同质化背景下，真正的差异化究竟来自何处？ 以及未来6至12个月最可能突破的技术方向。通过对姚舜禹亲身参与的Cloud 3.7、4.5、Min 3等关键模型研发过程的细节还原，结合其对Anthropic、Google DeepMind、OpenAI等头部机构内部运作机制的观察，本报告揭示了一个被广泛忽视的真相：当前AI进步的核心驱动力并非单一算法突破，而是由算力、数据、基础设施与组织协同构成的“系统性工程能力”的集体进化。

报告特别强调，尽管外界普遍将AI进展归功于“天才研究员”或“明星模型”，但姚舜禹明确指出，真正决定成败的是“靠谱”这一特质——即对任务负责、对结果负责、对系统性风险有清醒认知的工程师文化。他通过自身从理论物理转向AI的生涯轨迹，揭示了该领域对“系统性思维”与“可验证实验设计”的极端依赖，这与传统科研中“纯理论推演”存在根本差异。同时，报告深入剖析了“冲浪者”（surfer）与“浪潮”（wave）的隐喻，指出AI本身是不可逆的宏观趋势，个体能做的只是选择何时上岸、如何驾驭。在此框架下，报告进一步探讨了多模态生成、长上下文推理（long horizon）、自主研究（AI-as-researcher）等前沿方向的潜在范式变革，并对中美AI竞争格局、C端与B端叙事分化、以及“超级应用”（super app）的终极形态提出批判性思考。最终，本报告不仅是一份关于技术演进的深度研判，更是一份关于组织智慧、人性弱点与系统责任的现代科技哲学宣言。

核心观点一：AI的本质是系统性工程，而非“黑盒”或“智能涌现”

姚舜禹在访谈中首次明确提出一个颠覆性的论断：“AI的本质是简单的预训练，也是一种强化学习”（> “AI的本质是简单的预训练，也是一种强化学习。”）。这一陈述并非对复杂性的简化，而是一种深刻的系统性认知重构。他指出，所谓“智能涌现”本质上是一种主观感受，而非客观现象，其背后的真实机制是“我们通过研究发现了该怎么去做这种大规模的训练，然后能够水平的提升所有能力”。这意味着，当前语言模型的能力飞跃，并非源于某个神秘的“意识觉醒”，而是源于一套可重复、可验证、可工程化的训练范式——即大规模预训练与后训练（尤其是强化学习）的组合。这一范式自GPT系列以来已趋于成熟，其核心在于“水平提升所有能力”（> “我觉得这个是一个更更本质的事儿。至于智能涌现这个事儿，其实我觉得嗯每个人可能心理定义都不太一样。”），即通过增加模型规模与数据量，使模型在未显式训练的任务上也能表现出泛化能力。

这一观点的深层逻辑在于，它彻底否定了“黑盒”概念的绝对性。姚舜禹认为，“世界上所有东西都是黑盒”，包括物理学中的量子纠缠与热力学定律。他指出，即便在最基础的科学领域，我们也无法理解“最微观的地方是怎样的”，但依然可以建立经验规律（如Sklaw）。因此，语言模型的“黑盒”状态，与其说是技术缺陷，不如说是科学发展的必然阶段。正如热力学定律最初也是经验规律，后来才被微观机制解释，今天的Sklaw（Scaling Law）同样是一种经验规律，但它已经足够强大，足以指导整个产业的工程实践。姚舜禹强调，“screen law不算是理解的一个小部分的话，那是不是我们也说我们其实对这个世界完全不理解，这个世界也是一个完全黑。” 这种坦然面对“不完全理解”的态度，正是系统性工程思维的基石——不追求完美解释，而追求有效预测与可控迭代。

支撑这一观点的案例极为丰富。首先，从技术实现层面看，姚舜禹亲身参与的Cloud 3.7模型的成功，其核心并非某项革命性算法，而是“大尺度的强化学习”（> “方法是大尺度的强化学习。”）。该过程涉及海量环境构建、数据清洗、基础设施开发与算法调优，是一个典型的系统工程。其次，从组织行为看，Anthropic之所以能在短时间内实现从“小作坊”到“千人规模”的跃迁，其关键在于“top down”的决策机制，即技术领导者同时也是公司决策者，使得战略意图能迅速转化为行动。相比之下，OpenAI早期虽有“strawberry”项目，但因组织架构问题，未能形成统一的后训练范式。姚舜禹指出，“实行top down其实有一个很难的点，就是你做技术的决策人必须也得是公司本身的决策人。” 这一机制确保了资源的集中与目标的聚焦，是系统性工程得以落地的前提。

此外，姚舜禹还揭示了“简单”背后的巨大复杂性。他以“AI自己做实验”为例，指出目前AI尚不能完成从“提出假设→设计代码→运行实验→分析结果→修正假设”的完整闭环，但这一链条正在逐步形成。他预测“未来的6到1012呃，sorry, 他他目前还做不到的事情是什么？是说他能不能呃从头到尾的把一件AI研究的事儿做完。” 这表明，AI正从“工具”向“研究伙伴”演进，其本质仍是系统性工程的延伸。因此，判断一个AI项目是否成功，不应仅看其“惊艳”的表现，而应审视其背后是否有清晰的系统性设计。例如，当一个模型在“coding”任务上表现优异时，其优势源于两个可量化、可复制的要素：一是反馈信号（reward signal）极其清晰（如代码正确与否可自动验证），二是数据基础天然优质（如GitHub上汇聚了数十年高质量程序员的代码）。这两个特性共同构成了一个理想的“抽象场景”，使其成为验证系统性工程能力的绝佳试验场。

核心观点二：个人英雄主义时代终结，集体主义与“靠谱”成为唯一生存法则

姚舜禹在访谈中反复强调：“不要迷信老登A个人英雄主义的时代已经过去了，AI从业者最重要的特质是靠谱等等等。” 这一论断不仅是对行业现状的描述，更是对未来人才标准的重新定义。他指出，当技术进入“大尺度强化学习”阶段后，任何单个研究员的贡献都变得微不足道。他坦言：“我对任何一个模型的贡献，我的我的陈述都是我觉得我自己对那个事儿没那么重要。” 这并非谦虚，而是一种基于事实的清醒认知。在他看来，“AI这个方向本质上是简单，就是没有哪我觉得没有哪个除了可能跳变了一下嗯，那个idea可能是得有一些很深刻的动静。嗯，在之后的那个过程中，很多想法其实是非常tri就, 是非常愚愚蠢的。就是谁都能想，谁都能干啊，只是你运气好壮着这个机会去干了而已啊。” 这意味着，一旦技术范式确立，后续的推进更多是“集体主义”的协作，而非“个人英雄”的奇思妙想。

这一转变的根源在于，AI系统的复杂度已远超个体认知极限。姚舜禹以“算法设计其实并不鼓励独立于算法，它是强非常强的依赖于你的基础设施”为例，说明一个看似精巧的算法，若在不同公司的基础设施（如训练机器间的异步通信差异）上运行，其效果可能天差地别。因此，真正的挑战不是“想出一个好算法”，而是“了解这个方这个系统的方方面面才能有一个全局的认识”。这要求研究人员具备极强的系统性思维，能够识别并管理各种隐藏的变量。他举例称，一个研究员可能在“春泥”（Spring）测试中表现优异，但在“春节加三分”（Spring + 3）测试中却表现不佳，若只关注前者，则会严重误导对模型真实性能的认知。这种“系统性”的考量，正是“靠谱”特质的核心体现。

“靠谱”具体表现为三个维度：第一，对任务负责。姚舜禹强调，一个靠谱的研究员不会仅仅满足于让指标看起来好看，而是会追问“如果效果好的话，是不是真的？比如说在大的手镯上效果好，是不是我中间漏的那些因素。” 这种对因果关系的严谨追索，是防止“指标作弊”（metric hacking）的关键。第二，对结果负责。他提到，即使在Anthropic这样执行力极强的公司，也曾出现“内部叫有一个3.6，这个是啊不是内部叫就是外外外界的cloud 3.5其实有两个版本，嗯，一个可能是六月的版本，另外一个十月版本。” 这种产品命名混乱的现象，恰恰暴露了在快速迭代中，对“结果一致性”的漠视。第三，对系统负责。他指出，一个优秀的研究员必须能“为这个公司负责”，而非仅仅为自己的论文或项目负责。这种心态的转变，是学术界与工业界的根本分水岭。

为了衡量“靠谱”，姚舜禹设计了一套极具洞察力的面试题：在24小时内，从零开始完成一个强化学习项目。此题的精妙之处在于，它巧妙地规避了传统面试中“代码能力”的考察，转而检验候选人能否有效利用AI工具。若候选人全盘交由AI完成，却无法在1小时讨论中解释其原理与设计选择，则必露马脚。这直接考验了候选人是否真正形成了“协作”而非“甩锅”的关系。同时，24小时的时限本身就是一个筛选器，它考察的是候选人对机会的重视程度与抗压能力。因此，“靠谱”并非抽象美德，而是一套可操作、可评估的行为准则，是系统性工程得以持续运转的基石。

核心观点三：组织机制决定创新路径，自上而下与自下而上的根本差异

姚舜禹对不同AI公司组织文化的对比分析，是本报告最具价值的部分之一。他指出，“大公司和和star it它打法本来就不一样，因为starup重要的是make that，就是我得我得赌一件事儿，是我觉得大家现在就是是每个人都是冲浪的人，本质上是一个浪，而不是你那个冲浪的人。” 这一比喻精准地揭示了初创公司与成熟大厂的根本差异。对于初创公司而言，其生存依赖于“赌一件事儿”的勇气与速度，其组织机制必须是“top down”的，即技术领袖同时拥有决策权，能迅速将战略意图转化为行动。Anthropic正是这一模式的典范，其创始人兼技术领袖（如Sam Altman）既是思想引领者，也是资源调配者，从而实现了“执行力非常强”的高效运转。

然而，这种模式在大公司中难以复制。姚舜禹明确指出：“对其他模型公司很难吗？很难，比如说open I就干不了。” 其原因在于，大公司通常采用“bottom up”的组织方式，即员工在相对自由的框架内探索，公司提供支持而非指令。Google DeepMind便是典型代表，其组织结构更像一个“比较确定性的事，比如像预训练已经是一个比较确定性的范式了，那可能谷就会更像把它做成一个工程项目”。在这种模式下，每个研究团队都有明确的目标与评估体系，但整体方向由高层设定。这种模式的优势在于稳定性与可持续性，劣势在于反应速度慢。姚舜禹以Google对“pre-training”的管理为例，指出其“现在变得非常非常清楚，就是谁负责什么事情，然后每一个店，每一个这个节点上谁是负责人，这些事情都很清楚”，这正是工程化管理的体现。

两种模式的差异在实际产品创新中表现得淋漓尽致。以“code”（编程）为例，姚舜禹指出，“coding这个场景有两个最大的优势。第一个优势就是他的它的呃reward signal，就是它的那个回馈的信号是很好定义的。” 因此，无论是Anthropic还是Google，都优先将“coding”作为突破口。但其路径截然不同：Anthropic凭借“top down”机制，迅速将“coding”能力作为核心竞争力进行打造；而Google则通过“bottom up”方式，让多个团队在各自框架内探索，最终整合成更强大的能力。这种差异导致了不同的市场结果：Anthropic的“Cloud”系列迅速崛起，而Google的“Codey”则在长期积累后才展现威力。

姚舜禹进一步指出，“ 这一结论深刻揭示了组织文化对人才吸引力的影响。他本人从Anthropic跳槽至Google，正是出于对“探索的自由”与“更广泛的人类学习”的渴望。他认为，“如果你想要的是你有研究的自由，有探索的自由，然后想去能从更广泛的人类学习，我觉得这个世界上可能找不到第二个比米更强的地方。” 这表明，顶尖人才的选择不再单纯取决于薪酬或平台，而是取决于组织能否为其提供“系统性成长”的土壤。因此，一个组织能否激发智能，其关键不在于其口号，而在于其能否平衡“自上而下”的效率与“自下而上”的活力，而这又高度依赖于技术领袖的个人特质——“他自己有救火的能力”与“他得能够能够理解别人”。

核心观点四：模型能力同质化，真正的差异化来自“长上下文”与“自主研究”

随着主流模型在公开基准测试（如MMLU、HumanEval）上的分数趋近80%甚至90%，姚舜禹敏锐地指出：“纸面上大家其实都比较相近，然后你去看那个纸面上的消息，比如看Ben你会发现哎好像好的会比不好的可能高一个百分点或者两个百分点。但其实大家都在80%附近那个附近。数字高一点低一点，其实呃是主要是是noise，就主要是是噪声而不是信号。” 这标志着AI发展进入了“同质化”阶段，模型间的能力差距已不再是“好坏”之分，而是“分化”之别。真正的差异化，已从“模型能力”转移到“使用体验”与“应用场景”之上。

姚舜禹将未来最有潜力的方向定义为两大“T字形”扩展：横向的“多模态”与纵向的“长上下文”。其中，“长上下文”（long horizon）被视为最核心的突破点。他提出，“train with finite context use as incontext” 的愿景，即用有限的上下文长度进行训练，却能在使用时处理近乎无限的上下文。这一构想的现实意义在于，它模拟了人类的认知模式——人脑的“上下文”极短，但能通过“选择性遗忘”与“主动检索”来处理复杂任务。姚舜禹指出：“人本质上context很短，但他能够选择性的遗忘，然后让他选择性的对去retrieve，就是去把这些重要的跟当前场景相关的信息再抓回来。” 实现这一目标的技术路径包括“稀疏注意力”（sparse attention）与“上下文管理”（context management），后者已在Cursor等产品中初见成效。

另一条重要路径是“自主研究”（AI-as-researcher），即让AI能够独立完成从“提出假设→设计实验→执行→分析→修正”的完整研究流程。姚舜禹认为，这将是下一个“范式级变化”的候选。他指出：“我觉得未来6到1012呃，sorry, 他他目前还做不到的事情是什么？是说他能不能呃从头到尾的把一件AI研究的事儿做完。” 这一方向的挑战在于，它需要AI具备超越工具使用的“元认知”能力，即对自身认知过程的反思与优化。目前，虽然已有研究尝试让AI在数学证明、文献综述等领域发挥作用，但尚未形成完整的闭环。姚舜禹相信，一旦这一链条被打通，将彻底改变科学研究的范式。

值得注意的是，姚舜禹对“多模态生成”持谨慎乐观态度。他认为，该领域仍处于“科学问题”阶段，缺乏统一范式。他推测，字节跳动（ByteDance）在多模态生成上的领先，可能源于其在“数据”上的积累，而非算法的突破。他直言：“我要让我猜我会猜数据，但是就我我也没在自己干过，所以也是我硬猜的。” 这种基于“数据”而非“算法”的竞争，恰恰印证了当前AI发展的核心逻辑：在范式已定的今天，数据与工程能力才是护城河。

次要观点与细节：从物理学到AI的跨学科启示

姚舜禹的学术背景——从清华的“非厄米系统”到斯坦福的“高能物理”——为他提供了独特的认知框架。他将物理研究中的“系统性思维”与“可验证实验”直接应用于AI领域。例如，他在研究“非厄米系统”时，发现理论计算与数值模拟结果不符，最终通过建立新的“开放边界描述方法”解决了问题。这一经历让他深刻体会到：“得出了这个结论，因为当时那个事儿发现的主要原因还是因为能做数值。” 这种“从理论出发，用数值验证”的思维方式，正是他后来在AI领域取得成功的根基。

他对“量子纠缠”的解释，也体现了其将复杂概念通俗化的能力。他指出，纠缠态并非仅存在于微观世界，而是“当你足够看得足够足够细，足够足够微观的时候，绝大多数的例子可能都处于纠缠态”。他以“薛定谔的猫”为例，说明其状态是“叠加了这个某一个放射源，放呃发出粒子和猫死了，这是一个状态。另外一状态是放射源没有发出粒子包或着这两个东西的叠加状态”。这种解释方式，既准确又易于理解，展现了其卓越的沟通能力。

在个人成长方面，姚舜禹的经历充满戏剧性。他并非传统意义上的“学霸”，而是凭借“爱干一些自己不太会的事儿”的个性，从上海一所普通中学“光脚的不怕穿鞋的”心态，逆袭进入清华。他回忆道：“我当时觉得就算能上，我也应该去一个on dog地方赌一把。” 这种敢于“赌一把”的精神，贯穿其职业生涯，从放弃高能物理的“无意义”研究，到投身AI的“系统性工程”，都体现了其对“挑战自我”的执着。

总结与启示：在浪潮中寻找定位，以系统思维应对不确定性

本报告通过对姚舜禹访谈的深度解析，揭示了当代AI发展的三大核心规律：第一，技术进步的本质是系统性工程，而非天才的灵光乍现；第二，组织机制决定了创新路径，自上而下的效率与自下而上的活力需动态平衡；第三，真正的竞争已从“模型能力”转向“系统能力”与“用户体验”。在“个人英雄主义时代已过去”的今天，唯有“靠谱”这一特质，才能在瞬息万变的浪潮中立于不败之地。

对于从业者而言，首要任务是摒弃对“明星效应”的迷信，转而培养系统性思维与责任感。对于组织而言，应警惕“过度崇拜个体”的陷阱，建立以“可验证、可复现、可问责”为核心的工程文化。对于投资者与政策制定者而言，应认识到“AI安全”的困境——试图通过一家公司制定法律来阻止AI发展，是“非常幼稚的”想法。真正的解决方案或许是“mulparty party control”式的制衡机制。

最后，姚舜禹的个人故事提醒我们：人生的价值不在于是否成为“英雄”，而在于是否愿意为一个值得“折磨自己”的目标而奋斗。在这个AI浪潮席卷一切的时代，我们或许无法决定浪潮的方向，但我们可以选择成为那个勇敢的“冲浪者”，在系统性的洪流中，找到属于自己的位置。