← 返回
228 min 2026-05

姚顺宇:让我疯一下!在Anthropic和Gemini训模型,英雄主义时代已过

概要

  • 姚顺宇从清华非厄米物理(发表十几篇文章、被认为范式级贡献)转行AI,经Stanford高能理论博士、Berkeley博后(仅待2周)进入Anthropic大规模RL团队Horizon(约10人),参与Claude 3.5new到3.7的后训练RL突破,后因约40%源于Dario反华政策态度等原因离职,2025年9月底加入Google DeepMind,参与Gemini 3、3.1 Pro、Deep Think等项目。
  • 模型能力已高度趋同——SWE-bench各家打到80多,RKGI从Gemini 3的30多到Claude 4.6的60多再到Gemini 3 Deep Think的80多——但用户体验差异依然显著,光靠benchmark争第一已没太大意义。下一个有价值的方向是ML coding(AI训练AI)和long horizon(有限context训练、无限context使用)。
  • Anthropic的自上而下执行文化(联合创始人从未离开、Jared Kaplan和Sam McCandlish兼具技术权威与联创身份)与Google DeepMind的工程化可控预训练(Sergey Brin最终拍板、组织职责极清晰)代表了两种截然不同但各自有效的AI组织范式,OpenAI则"踏实做事的人"不够多。
  • AI本质上不难——"本科生就能干的活"——最重要的特质是靠谱、做事细、对公司负责任。个人英雄主义时代已过,每个人都是浪上的冲浪者,AI这个浪才是主角,"没有我都会发生,效果也不会变差"。
  • 贯穿全场的核心线索是"客观评价标准"——从博士期间选择转行的原因("做有客观评价标准的事"),到对AI行业的判断("这个领域足够客观"),到讨厌"老登"的核心原因("不良好定义"的模糊言论),到面试设计的底层逻辑(24小时可验证的项目),姚顺宇的每一个人生决策都回到同一个标准:能否被客观检验。

核心洞察

  • 姚顺宇从清华非厄米物理(发表十几篇文章、被认为范式级贡献)转行AI,经Stanford高能理论博士、Berkeley博后(仅待2周)进入Anthropic大规模RL团队Horizon(约10人),参与Claude 3.5new到3.7的后训练RL突破,后因约40%源于Dario反华政策态度等原因离职,2025年9月底加入Google DeepMind,参与Gemini 3、3.1 Pro、Deep Think等项目。
  • 模型能力已高度趋同——SWE-bench各家打到80多,RKGI从Gemini 3的30多到Claude 4.6的60多再到Gemini 3 Deep Think的80多——但用户体验差异依然显著,光靠benchmark争第一已没太大意义。下一个有价值的方向是ML coding(AI训练AI)和long horizon(有限context训练、无限context使用)。
  • Anthropic的自上而下执行文化(联合创始人从未离开、Jared Kaplan和Sam McCandlish兼具技术权威与联创身份)与Google DeepMind的工程化可控预训练(Sergey Brin最终拍板、组织职责极清晰)代表了两种截然不同但各自有效的AI组织范式,OpenAI则"踏实做事的人"不够多。
  • AI本质上不难——"本科生就能干的活"——最重要的特质是靠谱、做事细、对公司负责任。个人英雄主义时代已过,每个人都是浪上的冲浪者,AI这个浪才是主角,"没有我都会发生,效果也不会变差"。
  • 贯穿全场的核心线索是"客观评价标准"——从博士期间选择转行的原因("做有客观评价标准的事"),到对AI行业的判断("这个领域足够客观"),到讨厌"老登"的核心原因("不良好定义"的模糊言论),到面试设计的底层逻辑(24小时可验证的项目),姚顺宇的每一个人生决策都回到同一个标准:能否被客观检验。

从非厄米物理到AI前线:一个物理学家的跨界路径

核心要点:姚顺宇在物理领域做到了"范式级",然后主动离开——核心判断是"做有客观评价标准的事"和"对世界的影响"。

  • 本科在清华做非厄米物理(non-Hermitian physics),发了十几篇文章,被认为是该领域的范式级贡献。但他意识到这个方向"离诺贝尔奖还有很远的距离",它更多是一种数学上的美感而非物理实验可验证的突破。
  • Stanford高能理论博士期间,年轻导师Douglas Stanford给他极深印象——"他就比我聪明太多了,有他了还要我干嘛呢"。这是他认为物理领域确实存在"天才"的依据,而AI领域不存在。
  • Berkeley博士后只待了2周就决定去Anthropic。触发点是博士期间形成的两个原则:第一,要做有客观评价标准的事(物理理论太难验证);第二,要做对世界有更大影响的事。
  • 加入Anthropic的路径是物理圈人脉——几位从物理转行AI的朋友引荐,直接进入大规模RL团队Horizon,团队约10人。
"我觉得做物理时候还是存在着一些真的比我聪明太多的人……有他了还要我干嘛呢。" —— 姚顺宇
"AI这个事本来也不太需要脑子。" —— 姚顺宇

Anthropic的自上而下文化:技术一号位如何驱动模型进化

核心要点:Anthropic的核心优势是联合创始人团队从未离开,技术leader同时拥有联创权威,能在关键时刻"make bets"。

  • Anthropic的联合创始人团队(约7人)从公司成立到现在从未有人离开——这在AI公司中极为罕见。与之对比,OpenAI的联合创始人几乎走光了。
  • 技术决策的核心是Jared Kaplan和Sam McCandlish。两人同时拥有两种权威:一是技术上的判断力("他知道怎么做这件事"),二是联合创始人的组织权威("他说的话有分量")。这种双重权威让他们能在关键时刻拍板做出反共识的赌注。
  • Anthropic的执行效率非常高:leader决定方向后,整个团队能迅速对齐并执行。自上而下的文化在startup阶段被证明有效——"你不需要每个人都创新,你需要一个人创新然后所有人执行"。
  • Claude 3.5new到3.7的核心突破是后训练RL(强化学习)实现了agentic coding能力。这是一个从"不知道怎么做大尺度强化学习"到"做出来了"的范式级跳跃,是后来所有公司跟进的起点。
"在一个创业公司能够存在这样一个技术的一号位,他不仅是在技术上真正make bets,而且他的bets被验证是对的——这是Anthropic最核心的财富。" —— 姚顺宇

离开Anthropic:文化变化、反华态度与个人追求

核心要点:离职原因是多因素叠加,其中约40%来自Dario的反华政策态度,但根本驱动力是想"学新东西"。

  • 离开Anthropic有三个层面的原因:第一,Dario在国会证词中的反华言论让作为中国人的他感到不适(约占40%);第二,公司快速扩张后文化开始变化,从"所有人都认识所有人"变成更官僚的状态;第三,个人层面想要学习新东西——在Anthropic已经把语言模型这条线了解得"很透"了。
  • 选择Google DeepMind而非OpenAI的核心原因是文化:"用粗话来说,就是感觉踏实做事的人没有Google多,也更没有Anthropic多。"xAI也是选项之一,但"一直都挺动荡"。
  • 在Google学到的东西与Anthropic互补:Anthropic是纵向深度(一条线的方方面面),Google是横向广度("很多不同的方面、不一样的人、不一样的视角")。
  • 坦言"应该不会"在Google很久——想继续挑战自己,可能不会再去另一个大公司,但需要找到"值得折磨自己的事"。

Google DeepMind的组织变革:从混沌到可控

核心要点:Google的技术储备一直够、人一直强,转折在于组织变得清晰——预训练已进入Google的"舒适区"(工程项目化管理),最终拍板人是Sergey Brin。

  • Gemini崛起是两件事的叠加:Nano Banana(爆款应用)打开用户量 + Gemini 3紧接着发布把用户留住。单独一个都不够——"当你市占率连10%都不到的时候,你这个模型好一点坏一点,传播出去太慢了"。Gemini市占率目前约20%。
  • Google内部最大的变化是组织清晰化:预训练现在"非常非常清楚——谁负责什么事情,每一个节点上谁是负责人"。以前(根据同事描述)很混乱。预训练对Google来说已经是"一个比较确定性的范式",像一个工程项目那样管理。
  • 最终很多大决定的拍板人是Sergey Brin。在一线出现更多的是Koray Kavukcuoglu(DeepMind CTO兼Google SVP)。Demis Hassabis更多管偏science的方向(如Isomorphic Labs药物设计)。
  • 后训练仍然更bottom-up——"大家可以更广泛地试"——对应预训练的确定性与后训练的探索性这一分工。
"OpenAI是救了Google一命——它先把chatbot做了,让Google意识到很重要,但又没做到极致,完全没有把搜索干掉,结果让Google自己把聊天机器人追上来了。那现在难受就是它了。" —— 姚顺宇

模型趋同与Benchmark饱和:下一步在哪

核心要点:公众关注的Benchmark已经打满,各家发布速度加快恰恰说明"这道题对所有人来说都变简单了",真正有价值的方向是ML coding和long horizon。

  • SWE-bench各家都打到80多——"幸亏没人超过83,谁超过谁尴尬"(因为83以上的题目定义不良好)。OpenAI最近发了个post说超过83。
  • RKGI这个Benchmark:Gemini 3之前最高约十级,Gemini 3打到30多,Claude 4.6打到60多,Gemini 3 Deep Think直接到80多。也在快速饱和。
  • 模型体验差异仍然存在:各家模型在底层能力接近的情况下,用户觉得谁好谁差可能更多取决于产品层面(RLHF调教、界面设计、响应策略)而非模型本身。
  • ML coding是姚顺宇在Google的核心工作方向之一:让AI来做AI研究的编码工作。对Google特别有价值,因为Google是"AI research最全栈的"——从硬件设计到模型训练的整套流程如果被加速,对公司价值巨大。
  • Long horizon是另一个方向:训练时context有限,但使用时context要无限。这与continue learning本质没有区别——"context里那些词自己的KV不也是一种权重吗?"

AI编程为什么跑得最快:奖励信号 + 数据 + 自我加速

核心要点:编程是AI能力中进步最快的领域——奖励信号清晰(代码对不对可以跑)+ GitHub海量数据 + 模型可以用自己写的代码训练自己,形成正反馈飞轮。

  • 为什么编程比其他能力发展快?第一,奖励信号非常清晰——代码要么跑通要么不跑通,不像"写一篇好文章"这种需要人类主观判断。第二,GitHub上有海量高质量代码数据。这两个条件同时满足的领域几乎只有编程。
  • 姚顺宇自己日常90%以上的代码由模型生成。研究效率提升了20-50倍——"如果不用AI的话要两周的事,可能两个小时就做了。"但工作时长反而增加了,因为"能做的事变多了"。
  • Cursor与Anthropic的关系是典型的竞合:Cursor使用Claude模型,但Claude Code直接做了Cursor的事。这是一个"intimate partner turned rival"的关系。姚顺宇认为最终做出好产品的是一线工程师——Claude Code的创造者Boris Cherny是一个前端工程师,不是研究员。
"观察模型想做什么——Claude有一天自己用bash去查歌——这是一个比任何roadmap都重要的信号。" —— 姚顺宇

蒸馏的两种路径与字节的独特地位

核心要点:蒸馏分"硬蒸馏"(直接用别人token训练,"intellectually lazy")和"聪明蒸馏"(用别的模型做evaluator/assistant,技术上有趣的multi-agent)。字节是中国公司中蒸馏最少的,豆包语音生成"可能是世界第一"。

  • "硬蒸馏"就是直接拿别人模型的输出当训练数据——技术上很简单,但姚顺宇认为是"intellectually lazy"的做法。"聪明蒸馏"是把别的模型当作evaluator或assistant来使用,形成multi-agent协作,这在技术上更有趣也更可持续。
  • 字节在中国公司中蒸馏最少——大部分能力是自研的。豆包的语音生成"可能是世界第一"。Seedance(视频生成)的优势更多来自数据而非范式突破。
  • 字节被严重低估——从市值角度来说,"大家很明确"。在消费者市场这一端,"没有哪个美国公司能和字节竞争"。美国公司做C端产品的能力"比中国差远了"。
  • 机器人领域的现状:Seedance等视频生成有进展,但机器人"没有到GPT-1的时刻"——还没有找到那个让一切开始加速的范式突破。

预训练也是RL的子集:数据分布才是本质区别

核心要点:预训练/SFT本质上是强化学习的子集(都是朝expert分布靠拢),真正的区别在数据分布——预训练要分布广但质量不需要极高,后训练要分布窄但质量极高。

  • 从技术角度看,预训练和SFT没有本质区别——"你无非就是把拿到的数据当成你的ground truth,当成你的expert,然后朝专家输出的分布靠"。强化学习是更广的级别——输出是自己产生的,有好有坏,好的上靠、坏的远离。
  • 但在现阶段,两者的最大区别在数据:预训练数据要"分布够好、够广"但质量不需要极高;后训练数据要质量极高但分布可以窄。这是"在数据分布上的区别,而不是算法或训练范式上的区别"。
  • 各lab的组织架构:Anthropic和Google类似,预训练和后训练各一个组。OpenAI则分三组——预训练、Strawberry(RL)、post-training(偏产品)。OpenAI的post-training团队某种程度上"自己又是产品,又能训模型"。
  • Gemini的长文本能力好——预训练中有"让我很惊讶的技巧"。长文本做得好"一定是两边都有的"(预训练和后训练),但OpenAI在长文本上做得不如Gemini。

英雄主义时代已过:AI需要靠谱而非聪明

核心要点:AI不需要天才,需要的是做事细、靠谱、对组织负责任的人。个人英雄主义是集体主义的敌人——为个人英雄主义做事"很有可能破坏整体性"。

  • 姚顺宇的核心判断:AI是"本科生就能干的活",不太需要脑子,最重要的特质是靠谱和做事细。与物理不同,物理有"真的比我聪明太多的人",AI没有。
  • "冲浪理论":每个人都是冲浪者,AI是浪。"不管你冲不冲这个浪,它都会拍到岸上"。他参与过的任何项目——不管Anthropic还是Google——"没有我都会发生,效果也不会变差"。
  • 系统性做事的重要性:每个评价框架都容易被hack——"你总可以做一些事让指标看起来好看"。一个好的研究员必须为全局负责,考虑training + sampling联合效果,而不是只展示对自己有利的指标。这"违背人性"但对组织至关重要。
  • 技术leader需要两个特质:第一,有"救火能力"——不只嘴上说,遇到困难能自己下场解决;第二,能理解别人——"哪怕一件事是他不做的事,但能理解为什么别人做那事重要。"
"我参与过的任何一个项目,不管是在Google还是在Anthropic,没有我都会发生,效果也不会变差。每个人都是冲浪的人,本质上是一个浪,而不是你那个冲浪的人。" —— 姚顺宇

招聘与职业选择:24小时RL面试与"末班车已发"

核心要点:他设计了一道24小时RL项目面试题——同时考察三件事:能否有效利用AI、是否真正理解AI做了什么、对机会的渴望程度。语言模型领域的"末班车已经发车了"。

  • 面试题设计:要求候选人在24小时内从0到1完成一个完整的RL项目(选模型、选数据、选算法、训练出模型),然后进行1小时讨论。在AI时代这不难——AI能帮你全套做——但"陷阱"是如果全盘交给AI却不理解AI做了什么,在讨论中会暴露。
  • 设计成24小时还有一个"阴暗巧思":看候选人对机会的渴望程度——"如果他足够渴望,他就能撑住这24个小时"。
  • 对年轻人的建议:纯做语言模型"已经不是蓝海了,末班车已经发车"。但AI方向很大——多模态生成、机器人、用AI解决科学问题(如量子调控)——"做现在没有人做到的事,可能更多的是一个好的选择"。
  • AI研究员的天价薪资"有点过分"——市场确实稀缺("你得有那个机会去接触这件事"),但"对人的炒作有点过分了"。

中美AI路径分化:C端产品力 vs 效率软件

核心要点:中国强在C端产品的复杂变现设计("一开始不挣钱,但一旦挣钱你就拦不住"),美国强在B端效率软件的直接变现("做了什么就拿这个卖钱")。美国做C端产品的能力"比中国差远了"。

  • 中美AI最大差异不是技术而是商业路径:美国企业效率软件市场巨大且利润高——"我让你写code,成本150卖你200挣50"——极其直接。中国C端路径极其间接——免费看视频但偷偷加广告、做直播、做电商,"你离不开它,你感觉不到它在挣你的钱,但它实际上挣了你的钱"。
  • 字节跳动在硅谷被认为是"被严重低估"的公司(从市值角度),但美国公司并没有真正看懂字节——Meta在主动挖字节的人,但"Meta没字节强","美国做C端产品的人不行,比中国差远了"。
  • 国内2026年会非常看重谁成为AI super app——但这在硅谷几乎没人讲。姚顺宇对chatbot是否是终极形态持怀疑态度:"这个模型明明有那么多能力,但居然用的方法是chatbot,不太make sense。"
  • Google在产品上传统上比较慢,但擅长"找到一个极为简单的产品形态,大家都长一个样,然后疯狂卷技术"——搜索就是典型。

TPU vs GPU、Neo Lab与"老登"批判

核心要点:TPU和GPU在大规模商用下各有长处——TPU的3D Torus拓扑在大集群下可获得更大存储空间和更少通信瓶颈,GPU则有更好的开源生态和通用性。Neo Lab绝大多数会死。

  • TPU设计理念:抛弃卡间两两互联,用3D Torus拓扑连成大集群——一张卡只连三个方向最近邻,但整个集群是一个大Torus。如果compiler和sharding逻辑写得好,等效获得更大存储空间和更少通信bound。GPU(如H系列Hopper)则是pod内8卡NVLink高速互联,pod间通信带宽不足。
  • Neo Lab判断:绝大多数会死。Thinking Machine在deliver新东西,但有些neo lab"完全不知道他们到底要干嘛,这俩人其实已经远离这个专业好久了"(要求把名字哔掉)。
  • "老登"批判的核心逻辑:姚顺宇讨厌的不是年纪大的人,而是言论"不良好定义"的人——用Pauli的话说是"not even wrong"。如果换一个范式他也能跳出来说"我当年说过",这就是"模糊"的问题。"人老了不一定会变成老登——有人德高望重少指手画脚,花力气培养年轻人;有人自己不懂还爱指手画脚。"
  • 影响AI进程的论文:sequence to sequence(语言模型在feature engineering时代的高峰)和Jared Kaplan的Scaling Law(第一篇把体系化研究方式引入AI的论文,虽然后来的具体做法"并不是正确的")。
"别相信老登。" —— 姚顺宇

附录:关键人/机构/产品/数据

项目详情
姚顺宇Google DeepMind研究员,前Anthropic Horizon团队(大规模RL),清华物理→Stanford高能理论博士→Berkeley博后(2周)
Douglas Stanford姚顺宇Stanford博士期间的年轻导师,"比我聪明太多"
Jared KaplanAnthropic联合创始人+技术leader,Scaling Law论文作者
Sam McCandlishAnthropic联合创始人+技术leader,与Jared共同拥有技术+联创双重权威
Boris ChernyClaude Code创造者,前端工程师出身
Sergey BrinGoogle联合创始人,Gemini方向的最终拍板人
Koray KavukcuogluDeepMind CTO兼Google SVP,一线出现最多的管理者
Demis HassabisDeepMind CEO,更多管偏science方向(Isomorphic Labs等)
HorizonAnthropic大规模RL团队名称,约10人
Nano BananaGemini爆款应用,打开用户量
Thinking MachineNeo Lab中被认为在deliver新东西的
Gemini市占率约20%(姚顺宇估计)
SWE-bench各家打到80多,83以上题目定义不良好
RKGIGemini 3→30多, Claude 4.6→60多, Gemini 3 Deep Think→80多
代码AI化率姚顺宇自己90%+代码由模型生成
研究加速20-50倍("两周的事两小时做了")
24小时RL面试从0到1完成RL项目+1小时讨论
汤川秀树《旅人》姚顺宇推荐的书,关于成功科学家年轻时的挣扎感
《来自新世界》姚顺宇喜欢的日本小说