228 min 2026-05

姚顺宇：让我疯一下！在Anthropic和Gemini训模型，英雄主义时代已过

张小珺播客 · 姚顺宇

查看原始内容 →

概要

姚顺宇从清华非厄米物理（发表十几篇文章、被认为范式级贡献）转行AI，经Stanford高能理论博士、Berkeley博后（仅待2周）进入Anthropic大规模RL团队Horizon（约10人），参与Claude 3.5new到3.7的后训练RL突破，后因约40%源于Dario反华政策态度等原因离职，2025年9月底加入Google DeepMind，参与Gemini 3、3.1 Pro、Deep Think等项目。
模型能力已高度趋同——SWE-bench各家打到80多，RKGI从Gemini 3的30多到Claude 4.6的60多再到Gemini 3 Deep Think的80多——但用户体验差异依然显著，光靠benchmark争第一已没太大意义。下一个有价值的方向是ML coding（AI训练AI）和long horizon（有限context训练、无限context使用）。
Anthropic的自上而下执行文化（联合创始人从未离开、Jared Kaplan和Sam McCandlish兼具技术权威与联创身份）与Google DeepMind的工程化可控预训练（Sergey Brin最终拍板、组织职责极清晰）代表了两种截然不同但各自有效的AI组织范式，OpenAI则"踏实做事的人"不够多。
AI本质上不难——"本科生就能干的活"——最重要的特质是靠谱、做事细、对公司负责任。个人英雄主义时代已过，每个人都是浪上的冲浪者，AI这个浪才是主角，"没有我都会发生，效果也不会变差"。
贯穿全场的核心线索是"客观评价标准"——从博士期间选择转行的原因（"做有客观评价标准的事"），到对AI行业的判断（"这个领域足够客观"），到讨厌"老登"的核心原因（"不良好定义"的模糊言论），到面试设计的底层逻辑（24小时可验证的项目），姚顺宇的每一个人生决策都回到同一个标准：能否被客观检验。

核心洞察

姚顺宇从清华非厄米物理（发表十几篇文章、被认为范式级贡献）转行AI，经Stanford高能理论博士、Berkeley博后（仅待2周）进入Anthropic大规模RL团队Horizon（约10人），参与Claude 3.5new到3.7的后训练RL突破，后因约40%源于Dario反华政策态度等原因离职，2025年9月底加入Google DeepMind，参与Gemini 3、3.1 Pro、Deep Think等项目。
模型能力已高度趋同——SWE-bench各家打到80多，RKGI从Gemini 3的30多到Claude 4.6的60多再到Gemini 3 Deep Think的80多——但用户体验差异依然显著，光靠benchmark争第一已没太大意义。下一个有价值的方向是ML coding（AI训练AI）和long horizon（有限context训练、无限context使用）。
Anthropic的自上而下执行文化（联合创始人从未离开、Jared Kaplan和Sam McCandlish兼具技术权威与联创身份）与Google DeepMind的工程化可控预训练（Sergey Brin最终拍板、组织职责极清晰）代表了两种截然不同但各自有效的AI组织范式，OpenAI则"踏实做事的人"不够多。
AI本质上不难——"本科生就能干的活"——最重要的特质是靠谱、做事细、对公司负责任。个人英雄主义时代已过，每个人都是浪上的冲浪者，AI这个浪才是主角，"没有我都会发生，效果也不会变差"。
贯穿全场的核心线索是"客观评价标准"——从博士期间选择转行的原因（"做有客观评价标准的事"），到对AI行业的判断（"这个领域足够客观"），到讨厌"老登"的核心原因（"不良好定义"的模糊言论），到面试设计的底层逻辑（24小时可验证的项目），姚顺宇的每一个人生决策都回到同一个标准：能否被客观检验。

从非厄米物理到AI前线：一个物理学家的跨界路径

核心要点：姚顺宇在物理领域做到了"范式级"，然后主动离开——核心判断是"做有客观评价标准的事"和"对世界的影响"。

本科在清华做非厄米物理（non-Hermitian physics），发了十几篇文章，被认为是该领域的范式级贡献。但他意识到这个方向"离诺贝尔奖还有很远的距离"，它更多是一种数学上的美感而非物理实验可验证的突破。
Stanford高能理论博士期间，年轻导师Douglas Stanford给他极深印象——"他就比我聪明太多了，有他了还要我干嘛呢"。这是他认为物理领域确实存在"天才"的依据，而AI领域不存在。
Berkeley博士后只待了2周就决定去Anthropic。触发点是博士期间形成的两个原则：第一，要做有客观评价标准的事（物理理论太难验证）；第二，要做对世界有更大影响的事。
加入Anthropic的路径是物理圈人脉——几位从物理转行AI的朋友引荐，直接进入大规模RL团队Horizon，团队约10人。

"我觉得做物理时候还是存在着一些真的比我聪明太多的人……有他了还要我干嘛呢。" —— 姚顺宇

"AI这个事本来也不太需要脑子。" —— 姚顺宇

Anthropic的自上而下文化：技术一号位如何驱动模型进化

核心要点：Anthropic的核心优势是联合创始人团队从未离开，技术leader同时拥有联创权威，能在关键时刻"make bets"。

Anthropic的联合创始人团队（约7人）从公司成立到现在从未有人离开——这在AI公司中极为罕见。与之对比，OpenAI的联合创始人几乎走光了。
技术决策的核心是Jared Kaplan和Sam McCandlish。两人同时拥有两种权威：一是技术上的判断力（"他知道怎么做这件事"），二是联合创始人的组织权威（"他说的话有分量"）。这种双重权威让他们能在关键时刻拍板做出反共识的赌注。
Anthropic的执行效率非常高：leader决定方向后，整个团队能迅速对齐并执行。自上而下的文化在startup阶段被证明有效——"你不需要每个人都创新，你需要一个人创新然后所有人执行"。
Claude 3.5new到3.7的核心突破是后训练RL（强化学习）实现了agentic coding能力。这是一个从"不知道怎么做大尺度强化学习"到"做出来了"的范式级跳跃，是后来所有公司跟进的起点。

"在一个创业公司能够存在这样一个技术的一号位，他不仅是在技术上真正make bets，而且他的bets被验证是对的——这是Anthropic最核心的财富。" —— 姚顺宇

离开Anthropic：文化变化、反华态度与个人追求

核心要点：离职原因是多因素叠加，其中约40%来自Dario的反华政策态度，但根本驱动力是想"学新东西"。

离开Anthropic有三个层面的原因：第一，Dario在国会证词中的反华言论让作为中国人的他感到不适（约占40%）；第二，公司快速扩张后文化开始变化，从"所有人都认识所有人"变成更官僚的状态；第三，个人层面想要学习新东西——在Anthropic已经把语言模型这条线了解得"很透"了。
选择Google DeepMind而非OpenAI的核心原因是文化："用粗话来说，就是感觉踏实做事的人没有Google多，也更没有Anthropic多。"xAI也是选项之一，但"一直都挺动荡"。
在Google学到的东西与Anthropic互补：Anthropic是纵向深度（一条线的方方面面），Google是横向广度（"很多不同的方面、不一样的人、不一样的视角"）。
坦言"应该不会"在Google很久——想继续挑战自己，可能不会再去另一个大公司，但需要找到"值得折磨自己的事"。

Google DeepMind的组织变革：从混沌到可控

核心要点：Google的技术储备一直够、人一直强，转折在于组织变得清晰——预训练已进入Google的"舒适区"（工程项目化管理），最终拍板人是Sergey Brin。

Gemini崛起是两件事的叠加：Nano Banana（爆款应用）打开用户量 + Gemini 3紧接着发布把用户留住。单独一个都不够——"当你市占率连10%都不到的时候，你这个模型好一点坏一点，传播出去太慢了"。Gemini市占率目前约20%。
Google内部最大的变化是组织清晰化：预训练现在"非常非常清楚——谁负责什么事情，每一个节点上谁是负责人"。以前（根据同事描述）很混乱。预训练对Google来说已经是"一个比较确定性的范式"，像一个工程项目那样管理。
最终很多大决定的拍板人是Sergey Brin。在一线出现更多的是Koray Kavukcuoglu（DeepMind CTO兼Google SVP）。Demis Hassabis更多管偏science的方向（如Isomorphic Labs药物设计）。
后训练仍然更bottom-up——"大家可以更广泛地试"——对应预训练的确定性与后训练的探索性这一分工。

"OpenAI是救了Google一命——它先把chatbot做了，让Google意识到很重要，但又没做到极致，完全没有把搜索干掉，结果让Google自己把聊天机器人追上来了。那现在难受就是它了。" —— 姚顺宇

模型趋同与Benchmark饱和：下一步在哪

核心要点：公众关注的Benchmark已经打满，各家发布速度加快恰恰说明"这道题对所有人来说都变简单了"，真正有价值的方向是ML coding和long horizon。

SWE-bench各家都打到80多——"幸亏没人超过83，谁超过谁尴尬"（因为83以上的题目定义不良好）。OpenAI最近发了个post说超过83。
RKGI这个Benchmark：Gemini 3之前最高约十级，Gemini 3打到30多，Claude 4.6打到60多，Gemini 3 Deep Think直接到80多。也在快速饱和。
模型体验差异仍然存在：各家模型在底层能力接近的情况下，用户觉得谁好谁差可能更多取决于产品层面（RLHF调教、界面设计、响应策略）而非模型本身。
ML coding是姚顺宇在Google的核心工作方向之一：让AI来做AI研究的编码工作。对Google特别有价值，因为Google是"AI research最全栈的"——从硬件设计到模型训练的整套流程如果被加速，对公司价值巨大。
Long horizon是另一个方向：训练时context有限，但使用时context要无限。这与continue learning本质没有区别——"context里那些词自己的KV不也是一种权重吗？"

AI编程为什么跑得最快：奖励信号 + 数据 + 自我加速

核心要点：编程是AI能力中进步最快的领域——奖励信号清晰（代码对不对可以跑）+ GitHub海量数据 + 模型可以用自己写的代码训练自己，形成正反馈飞轮。

为什么编程比其他能力发展快？第一，奖励信号非常清晰——代码要么跑通要么不跑通，不像"写一篇好文章"这种需要人类主观判断。第二，GitHub上有海量高质量代码数据。这两个条件同时满足的领域几乎只有编程。
姚顺宇自己日常90%以上的代码由模型生成。研究效率提升了20-50倍——"如果不用AI的话要两周的事，可能两个小时就做了。"但工作时长反而增加了，因为"能做的事变多了"。
Cursor与Anthropic的关系是典型的竞合：Cursor使用Claude模型，但Claude Code直接做了Cursor的事。这是一个"intimate partner turned rival"的关系。姚顺宇认为最终做出好产品的是一线工程师——Claude Code的创造者Boris Cherny是一个前端工程师，不是研究员。

"观察模型想做什么——Claude有一天自己用bash去查歌——这是一个比任何roadmap都重要的信号。" —— 姚顺宇

蒸馏的两种路径与字节的独特地位

核心要点：蒸馏分"硬蒸馏"（直接用别人token训练，"intellectually lazy"）和"聪明蒸馏"（用别的模型做evaluator/assistant，技术上有趣的multi-agent）。字节是中国公司中蒸馏最少的，豆包语音生成"可能是世界第一"。

"硬蒸馏"就是直接拿别人模型的输出当训练数据——技术上很简单，但姚顺宇认为是"intellectually lazy"的做法。"聪明蒸馏"是把别的模型当作evaluator或assistant来使用，形成multi-agent协作，这在技术上更有趣也更可持续。
字节在中国公司中蒸馏最少——大部分能力是自研的。豆包的语音生成"可能是世界第一"。Seedance（视频生成）的优势更多来自数据而非范式突破。
字节被严重低估——从市值角度来说，"大家很明确"。在消费者市场这一端，"没有哪个美国公司能和字节竞争"。美国公司做C端产品的能力"比中国差远了"。
机器人领域的现状：Seedance等视频生成有进展，但机器人"没有到GPT-1的时刻"——还没有找到那个让一切开始加速的范式突破。

预训练也是RL的子集：数据分布才是本质区别

核心要点：预训练/SFT本质上是强化学习的子集（都是朝expert分布靠拢），真正的区别在数据分布——预训练要分布广但质量不需要极高，后训练要分布窄但质量极高。

从技术角度看，预训练和SFT没有本质区别——"你无非就是把拿到的数据当成你的ground truth，当成你的expert，然后朝专家输出的分布靠"。强化学习是更广的级别——输出是自己产生的，有好有坏，好的上靠、坏的远离。
但在现阶段，两者的最大区别在数据：预训练数据要"分布够好、够广"但质量不需要极高；后训练数据要质量极高但分布可以窄。这是"在数据分布上的区别，而不是算法或训练范式上的区别"。
各lab的组织架构：Anthropic和Google类似，预训练和后训练各一个组。OpenAI则分三组——预训练、Strawberry（RL）、post-training（偏产品）。OpenAI的post-training团队某种程度上"自己又是产品，又能训模型"。
Gemini的长文本能力好——预训练中有"让我很惊讶的技巧"。长文本做得好"一定是两边都有的"（预训练和后训练），但OpenAI在长文本上做得不如Gemini。

英雄主义时代已过：AI需要靠谱而非聪明

核心要点：AI不需要天才，需要的是做事细、靠谱、对组织负责任的人。个人英雄主义是集体主义的敌人——为个人英雄主义做事"很有可能破坏整体性"。

姚顺宇的核心判断：AI是"本科生就能干的活"，不太需要脑子，最重要的特质是靠谱和做事细。与物理不同，物理有"真的比我聪明太多的人"，AI没有。
"冲浪理论"：每个人都是冲浪者，AI是浪。"不管你冲不冲这个浪，它都会拍到岸上"。他参与过的任何项目——不管Anthropic还是Google——"没有我都会发生，效果也不会变差"。
系统性做事的重要性：每个评价框架都容易被hack——"你总可以做一些事让指标看起来好看"。一个好的研究员必须为全局负责，考虑training + sampling联合效果，而不是只展示对自己有利的指标。这"违背人性"但对组织至关重要。
技术leader需要两个特质：第一，有"救火能力"——不只嘴上说，遇到困难能自己下场解决；第二，能理解别人——"哪怕一件事是他不做的事，但能理解为什么别人做那事重要。"

"我参与过的任何一个项目，不管是在Google还是在Anthropic，没有我都会发生，效果也不会变差。每个人都是冲浪的人，本质上是一个浪，而不是你那个冲浪的人。" —— 姚顺宇

招聘与职业选择：24小时RL面试与"末班车已发"

核心要点：他设计了一道24小时RL项目面试题——同时考察三件事：能否有效利用AI、是否真正理解AI做了什么、对机会的渴望程度。语言模型领域的"末班车已经发车了"。

面试题设计：要求候选人在24小时内从0到1完成一个完整的RL项目（选模型、选数据、选算法、训练出模型），然后进行1小时讨论。在AI时代这不难——AI能帮你全套做——但"陷阱"是如果全盘交给AI却不理解AI做了什么，在讨论中会暴露。
设计成24小时还有一个"阴暗巧思"：看候选人对机会的渴望程度——"如果他足够渴望，他就能撑住这24个小时"。
对年轻人的建议：纯做语言模型"已经不是蓝海了，末班车已经发车"。但AI方向很大——多模态生成、机器人、用AI解决科学问题（如量子调控）——"做现在没有人做到的事，可能更多的是一个好的选择"。
AI研究员的天价薪资"有点过分"——市场确实稀缺（"你得有那个机会去接触这件事"），但"对人的炒作有点过分了"。

中美AI路径分化：C端产品力 vs 效率软件

核心要点：中国强在C端产品的复杂变现设计（"一开始不挣钱，但一旦挣钱你就拦不住"），美国强在B端效率软件的直接变现（"做了什么就拿这个卖钱"）。美国做C端产品的能力"比中国差远了"。

中美AI最大差异不是技术而是商业路径：美国企业效率软件市场巨大且利润高——"我让你写code，成本150卖你200挣50"——极其直接。中国C端路径极其间接——免费看视频但偷偷加广告、做直播、做电商，"你离不开它，你感觉不到它在挣你的钱，但它实际上挣了你的钱"。
字节跳动在硅谷被认为是"被严重低估"的公司（从市值角度），但美国公司并没有真正看懂字节——Meta在主动挖字节的人，但"Meta没字节强"，"美国做C端产品的人不行，比中国差远了"。
国内2026年会非常看重谁成为AI super app——但这在硅谷几乎没人讲。姚顺宇对chatbot是否是终极形态持怀疑态度："这个模型明明有那么多能力，但居然用的方法是chatbot，不太make sense。"
Google在产品上传统上比较慢，但擅长"找到一个极为简单的产品形态，大家都长一个样，然后疯狂卷技术"——搜索就是典型。

TPU vs GPU、Neo Lab与"老登"批判

核心要点：TPU和GPU在大规模商用下各有长处——TPU的3D Torus拓扑在大集群下可获得更大存储空间和更少通信瓶颈，GPU则有更好的开源生态和通用性。Neo Lab绝大多数会死。

TPU设计理念：抛弃卡间两两互联，用3D Torus拓扑连成大集群——一张卡只连三个方向最近邻，但整个集群是一个大Torus。如果compiler和sharding逻辑写得好，等效获得更大存储空间和更少通信bound。GPU（如H系列Hopper）则是pod内8卡NVLink高速互联，pod间通信带宽不足。
Neo Lab判断：绝大多数会死。Thinking Machine在deliver新东西，但有些neo lab"完全不知道他们到底要干嘛，这俩人其实已经远离这个专业好久了"（要求把名字哔掉）。
"老登"批判的核心逻辑：姚顺宇讨厌的不是年纪大的人，而是言论"不良好定义"的人——用Pauli的话说是"not even wrong"。如果换一个范式他也能跳出来说"我当年说过"，这就是"模糊"的问题。"人老了不一定会变成老登——有人德高望重少指手画脚，花力气培养年轻人；有人自己不懂还爱指手画脚。"
影响AI进程的论文：sequence to sequence（语言模型在feature engineering时代的高峰）和Jared Kaplan的Scaling Law（第一篇把体系化研究方式引入AI的论文，虽然后来的具体做法"并不是正确的"）。

"别相信老登。" —— 姚顺宇

附录：关键人/机构/产品/数据

项目	详情
姚顺宇	Google DeepMind研究员，前Anthropic Horizon团队（大规模RL），清华物理→Stanford高能理论博士→Berkeley博后(2周)
Douglas Stanford	姚顺宇Stanford博士期间的年轻导师，"比我聪明太多"
Jared Kaplan	Anthropic联合创始人+技术leader，Scaling Law论文作者
Sam McCandlish	Anthropic联合创始人+技术leader，与Jared共同拥有技术+联创双重权威
Boris Cherny	Claude Code创造者，前端工程师出身
Sergey Brin	Google联合创始人，Gemini方向的最终拍板人
Koray Kavukcuoglu	DeepMind CTO兼Google SVP，一线出现最多的管理者
Demis Hassabis	DeepMind CEO，更多管偏science方向（Isomorphic Labs等）
Horizon	Anthropic大规模RL团队名称，约10人
Nano Banana	Gemini爆款应用，打开用户量
Thinking Machine	Neo Lab中被认为在deliver新东西的
Gemini市占率	约20%（姚顺宇估计）
SWE-bench	各家打到80多，83以上题目定义不良好
RKGI	Gemini 3→30多, Claude 4.6→60多, Gemini 3 Deep Think→80多
代码AI化率	姚顺宇自己90%+代码由模型生成
研究加速	20-50倍（"两周的事两小时做了"）
24小时RL面试	从0到1完成RL项目+1小时讨论
汤川秀树《旅人》	姚顺宇推荐的书，关于成功科学家年轻时的挣扎感
《来自新世界》	姚顺宇喜欢的日本小说