姚顺宇:让我疯一下!在Anthropic和Gemini训模型,英雄主义时代已过
概要
- 姚顺宇从清华非厄米物理(发表十几篇文章、被认为范式级贡献)转行AI,经Stanford高能理论博士、Berkeley博后(仅待2周)进入Anthropic大规模RL团队Horizon(约10人),参与Claude 3.5new到3.7的后训练RL突破,后因约40%源于Dario反华政策态度等原因离职,2025年9月底加入Google DeepMind,参与Gemini 3、3.1 Pro、Deep Think等项目。
- 模型能力已高度趋同——SWE-bench各家打到80多,RKGI从Gemini 3的30多到Claude 4.6的60多再到Gemini 3 Deep Think的80多——但用户体验差异依然显著,光靠benchmark争第一已没太大意义。下一个有价值的方向是ML coding(AI训练AI)和long horizon(有限context训练、无限context使用)。
- Anthropic的自上而下执行文化(联合创始人从未离开、Jared Kaplan和Sam McCandlish兼具技术权威与联创身份)与Google DeepMind的工程化可控预训练(Sergey Brin最终拍板、组织职责极清晰)代表了两种截然不同但各自有效的AI组织范式,OpenAI则"踏实做事的人"不够多。
- AI本质上不难——"本科生就能干的活"——最重要的特质是靠谱、做事细、对公司负责任。个人英雄主义时代已过,每个人都是浪上的冲浪者,AI这个浪才是主角,"没有我都会发生,效果也不会变差"。
- 贯穿全场的核心线索是"客观评价标准"——从博士期间选择转行的原因("做有客观评价标准的事"),到对AI行业的判断("这个领域足够客观"),到讨厌"老登"的核心原因("不良好定义"的模糊言论),到面试设计的底层逻辑(24小时可验证的项目),姚顺宇的每一个人生决策都回到同一个标准:能否被客观检验。
核心洞察
- 姚顺宇从清华非厄米物理(发表十几篇文章、被认为范式级贡献)转行AI,经Stanford高能理论博士、Berkeley博后(仅待2周)进入Anthropic大规模RL团队Horizon(约10人),参与Claude 3.5new到3.7的后训练RL突破,后因约40%源于Dario反华政策态度等原因离职,2025年9月底加入Google DeepMind,参与Gemini 3、3.1 Pro、Deep Think等项目。
- 模型能力已高度趋同——SWE-bench各家打到80多,RKGI从Gemini 3的30多到Claude 4.6的60多再到Gemini 3 Deep Think的80多——但用户体验差异依然显著,光靠benchmark争第一已没太大意义。下一个有价值的方向是ML coding(AI训练AI)和long horizon(有限context训练、无限context使用)。
- Anthropic的自上而下执行文化(联合创始人从未离开、Jared Kaplan和Sam McCandlish兼具技术权威与联创身份)与Google DeepMind的工程化可控预训练(Sergey Brin最终拍板、组织职责极清晰)代表了两种截然不同但各自有效的AI组织范式,OpenAI则"踏实做事的人"不够多。
- AI本质上不难——"本科生就能干的活"——最重要的特质是靠谱、做事细、对公司负责任。个人英雄主义时代已过,每个人都是浪上的冲浪者,AI这个浪才是主角,"没有我都会发生,效果也不会变差"。
- 贯穿全场的核心线索是"客观评价标准"——从博士期间选择转行的原因("做有客观评价标准的事"),到对AI行业的判断("这个领域足够客观"),到讨厌"老登"的核心原因("不良好定义"的模糊言论),到面试设计的底层逻辑(24小时可验证的项目),姚顺宇的每一个人生决策都回到同一个标准:能否被客观检验。
从非厄米物理到AI前线:一个物理学家的跨界路径
核心要点:姚顺宇在物理领域做到了"范式级",然后主动离开——核心判断是"做有客观评价标准的事"和"对世界的影响"。
- 本科在清华做非厄米物理(non-Hermitian physics),发了十几篇文章,被认为是该领域的范式级贡献。但他意识到这个方向"离诺贝尔奖还有很远的距离",它更多是一种数学上的美感而非物理实验可验证的突破。
- Stanford高能理论博士期间,年轻导师Douglas Stanford给他极深印象——"他就比我聪明太多了,有他了还要我干嘛呢"。这是他认为物理领域确实存在"天才"的依据,而AI领域不存在。
- Berkeley博士后只待了2周就决定去Anthropic。触发点是博士期间形成的两个原则:第一,要做有客观评价标准的事(物理理论太难验证);第二,要做对世界有更大影响的事。
- 加入Anthropic的路径是物理圈人脉——几位从物理转行AI的朋友引荐,直接进入大规模RL团队Horizon,团队约10人。
"我觉得做物理时候还是存在着一些真的比我聪明太多的人……有他了还要我干嘛呢。" —— 姚顺宇
"AI这个事本来也不太需要脑子。" —— 姚顺宇
Anthropic的自上而下文化:技术一号位如何驱动模型进化
核心要点:Anthropic的核心优势是联合创始人团队从未离开,技术leader同时拥有联创权威,能在关键时刻"make bets"。
- Anthropic的联合创始人团队(约7人)从公司成立到现在从未有人离开——这在AI公司中极为罕见。与之对比,OpenAI的联合创始人几乎走光了。
- 技术决策的核心是Jared Kaplan和Sam McCandlish。两人同时拥有两种权威:一是技术上的判断力("他知道怎么做这件事"),二是联合创始人的组织权威("他说的话有分量")。这种双重权威让他们能在关键时刻拍板做出反共识的赌注。
- Anthropic的执行效率非常高:leader决定方向后,整个团队能迅速对齐并执行。自上而下的文化在startup阶段被证明有效——"你不需要每个人都创新,你需要一个人创新然后所有人执行"。
- Claude 3.5new到3.7的核心突破是后训练RL(强化学习)实现了agentic coding能力。这是一个从"不知道怎么做大尺度强化学习"到"做出来了"的范式级跳跃,是后来所有公司跟进的起点。
"在一个创业公司能够存在这样一个技术的一号位,他不仅是在技术上真正make bets,而且他的bets被验证是对的——这是Anthropic最核心的财富。" —— 姚顺宇
离开Anthropic:文化变化、反华态度与个人追求
核心要点:离职原因是多因素叠加,其中约40%来自Dario的反华政策态度,但根本驱动力是想"学新东西"。
- 离开Anthropic有三个层面的原因:第一,Dario在国会证词中的反华言论让作为中国人的他感到不适(约占40%);第二,公司快速扩张后文化开始变化,从"所有人都认识所有人"变成更官僚的状态;第三,个人层面想要学习新东西——在Anthropic已经把语言模型这条线了解得"很透"了。
- 选择Google DeepMind而非OpenAI的核心原因是文化:"用粗话来说,就是感觉踏实做事的人没有Google多,也更没有Anthropic多。"xAI也是选项之一,但"一直都挺动荡"。
- 在Google学到的东西与Anthropic互补:Anthropic是纵向深度(一条线的方方面面),Google是横向广度("很多不同的方面、不一样的人、不一样的视角")。
- 坦言"应该不会"在Google很久——想继续挑战自己,可能不会再去另一个大公司,但需要找到"值得折磨自己的事"。
Google DeepMind的组织变革:从混沌到可控
核心要点:Google的技术储备一直够、人一直强,转折在于组织变得清晰——预训练已进入Google的"舒适区"(工程项目化管理),最终拍板人是Sergey Brin。
- Gemini崛起是两件事的叠加:Nano Banana(爆款应用)打开用户量 + Gemini 3紧接着发布把用户留住。单独一个都不够——"当你市占率连10%都不到的时候,你这个模型好一点坏一点,传播出去太慢了"。Gemini市占率目前约20%。
- Google内部最大的变化是组织清晰化:预训练现在"非常非常清楚——谁负责什么事情,每一个节点上谁是负责人"。以前(根据同事描述)很混乱。预训练对Google来说已经是"一个比较确定性的范式",像一个工程项目那样管理。
- 最终很多大决定的拍板人是Sergey Brin。在一线出现更多的是Koray Kavukcuoglu(DeepMind CTO兼Google SVP)。Demis Hassabis更多管偏science的方向(如Isomorphic Labs药物设计)。
- 后训练仍然更bottom-up——"大家可以更广泛地试"——对应预训练的确定性与后训练的探索性这一分工。
"OpenAI是救了Google一命——它先把chatbot做了,让Google意识到很重要,但又没做到极致,完全没有把搜索干掉,结果让Google自己把聊天机器人追上来了。那现在难受就是它了。" —— 姚顺宇
模型趋同与Benchmark饱和:下一步在哪
核心要点:公众关注的Benchmark已经打满,各家发布速度加快恰恰说明"这道题对所有人来说都变简单了",真正有价值的方向是ML coding和long horizon。
- SWE-bench各家都打到80多——"幸亏没人超过83,谁超过谁尴尬"(因为83以上的题目定义不良好)。OpenAI最近发了个post说超过83。
- RKGI这个Benchmark:Gemini 3之前最高约十级,Gemini 3打到30多,Claude 4.6打到60多,Gemini 3 Deep Think直接到80多。也在快速饱和。
- 模型体验差异仍然存在:各家模型在底层能力接近的情况下,用户觉得谁好谁差可能更多取决于产品层面(RLHF调教、界面设计、响应策略)而非模型本身。
- ML coding是姚顺宇在Google的核心工作方向之一:让AI来做AI研究的编码工作。对Google特别有价值,因为Google是"AI research最全栈的"——从硬件设计到模型训练的整套流程如果被加速,对公司价值巨大。
- Long horizon是另一个方向:训练时context有限,但使用时context要无限。这与continue learning本质没有区别——"context里那些词自己的KV不也是一种权重吗?"
AI编程为什么跑得最快:奖励信号 + 数据 + 自我加速
核心要点:编程是AI能力中进步最快的领域——奖励信号清晰(代码对不对可以跑)+ GitHub海量数据 + 模型可以用自己写的代码训练自己,形成正反馈飞轮。
- 为什么编程比其他能力发展快?第一,奖励信号非常清晰——代码要么跑通要么不跑通,不像"写一篇好文章"这种需要人类主观判断。第二,GitHub上有海量高质量代码数据。这两个条件同时满足的领域几乎只有编程。
- 姚顺宇自己日常90%以上的代码由模型生成。研究效率提升了20-50倍——"如果不用AI的话要两周的事,可能两个小时就做了。"但工作时长反而增加了,因为"能做的事变多了"。
- Cursor与Anthropic的关系是典型的竞合:Cursor使用Claude模型,但Claude Code直接做了Cursor的事。这是一个"intimate partner turned rival"的关系。姚顺宇认为最终做出好产品的是一线工程师——Claude Code的创造者Boris Cherny是一个前端工程师,不是研究员。
"观察模型想做什么——Claude有一天自己用bash去查歌——这是一个比任何roadmap都重要的信号。" —— 姚顺宇
蒸馏的两种路径与字节的独特地位
核心要点:蒸馏分"硬蒸馏"(直接用别人token训练,"intellectually lazy")和"聪明蒸馏"(用别的模型做evaluator/assistant,技术上有趣的multi-agent)。字节是中国公司中蒸馏最少的,豆包语音生成"可能是世界第一"。
- "硬蒸馏"就是直接拿别人模型的输出当训练数据——技术上很简单,但姚顺宇认为是"intellectually lazy"的做法。"聪明蒸馏"是把别的模型当作evaluator或assistant来使用,形成multi-agent协作,这在技术上更有趣也更可持续。
- 字节在中国公司中蒸馏最少——大部分能力是自研的。豆包的语音生成"可能是世界第一"。Seedance(视频生成)的优势更多来自数据而非范式突破。
- 字节被严重低估——从市值角度来说,"大家很明确"。在消费者市场这一端,"没有哪个美国公司能和字节竞争"。美国公司做C端产品的能力"比中国差远了"。
- 机器人领域的现状:Seedance等视频生成有进展,但机器人"没有到GPT-1的时刻"——还没有找到那个让一切开始加速的范式突破。
预训练也是RL的子集:数据分布才是本质区别
核心要点:预训练/SFT本质上是强化学习的子集(都是朝expert分布靠拢),真正的区别在数据分布——预训练要分布广但质量不需要极高,后训练要分布窄但质量极高。
- 从技术角度看,预训练和SFT没有本质区别——"你无非就是把拿到的数据当成你的ground truth,当成你的expert,然后朝专家输出的分布靠"。强化学习是更广的级别——输出是自己产生的,有好有坏,好的上靠、坏的远离。
- 但在现阶段,两者的最大区别在数据:预训练数据要"分布够好、够广"但质量不需要极高;后训练数据要质量极高但分布可以窄。这是"在数据分布上的区别,而不是算法或训练范式上的区别"。
- 各lab的组织架构:Anthropic和Google类似,预训练和后训练各一个组。OpenAI则分三组——预训练、Strawberry(RL)、post-training(偏产品)。OpenAI的post-training团队某种程度上"自己又是产品,又能训模型"。
- Gemini的长文本能力好——预训练中有"让我很惊讶的技巧"。长文本做得好"一定是两边都有的"(预训练和后训练),但OpenAI在长文本上做得不如Gemini。
英雄主义时代已过:AI需要靠谱而非聪明
核心要点:AI不需要天才,需要的是做事细、靠谱、对组织负责任的人。个人英雄主义是集体主义的敌人——为个人英雄主义做事"很有可能破坏整体性"。
- 姚顺宇的核心判断:AI是"本科生就能干的活",不太需要脑子,最重要的特质是靠谱和做事细。与物理不同,物理有"真的比我聪明太多的人",AI没有。
- "冲浪理论":每个人都是冲浪者,AI是浪。"不管你冲不冲这个浪,它都会拍到岸上"。他参与过的任何项目——不管Anthropic还是Google——"没有我都会发生,效果也不会变差"。
- 系统性做事的重要性:每个评价框架都容易被hack——"你总可以做一些事让指标看起来好看"。一个好的研究员必须为全局负责,考虑training + sampling联合效果,而不是只展示对自己有利的指标。这"违背人性"但对组织至关重要。
- 技术leader需要两个特质:第一,有"救火能力"——不只嘴上说,遇到困难能自己下场解决;第二,能理解别人——"哪怕一件事是他不做的事,但能理解为什么别人做那事重要。"
"我参与过的任何一个项目,不管是在Google还是在Anthropic,没有我都会发生,效果也不会变差。每个人都是冲浪的人,本质上是一个浪,而不是你那个冲浪的人。" —— 姚顺宇
招聘与职业选择:24小时RL面试与"末班车已发"
核心要点:他设计了一道24小时RL项目面试题——同时考察三件事:能否有效利用AI、是否真正理解AI做了什么、对机会的渴望程度。语言模型领域的"末班车已经发车了"。
- 面试题设计:要求候选人在24小时内从0到1完成一个完整的RL项目(选模型、选数据、选算法、训练出模型),然后进行1小时讨论。在AI时代这不难——AI能帮你全套做——但"陷阱"是如果全盘交给AI却不理解AI做了什么,在讨论中会暴露。
- 设计成24小时还有一个"阴暗巧思":看候选人对机会的渴望程度——"如果他足够渴望,他就能撑住这24个小时"。
- 对年轻人的建议:纯做语言模型"已经不是蓝海了,末班车已经发车"。但AI方向很大——多模态生成、机器人、用AI解决科学问题(如量子调控)——"做现在没有人做到的事,可能更多的是一个好的选择"。
- AI研究员的天价薪资"有点过分"——市场确实稀缺("你得有那个机会去接触这件事"),但"对人的炒作有点过分了"。
中美AI路径分化:C端产品力 vs 效率软件
核心要点:中国强在C端产品的复杂变现设计("一开始不挣钱,但一旦挣钱你就拦不住"),美国强在B端效率软件的直接变现("做了什么就拿这个卖钱")。美国做C端产品的能力"比中国差远了"。
- 中美AI最大差异不是技术而是商业路径:美国企业效率软件市场巨大且利润高——"我让你写code,成本150卖你200挣50"——极其直接。中国C端路径极其间接——免费看视频但偷偷加广告、做直播、做电商,"你离不开它,你感觉不到它在挣你的钱,但它实际上挣了你的钱"。
- 字节跳动在硅谷被认为是"被严重低估"的公司(从市值角度),但美国公司并没有真正看懂字节——Meta在主动挖字节的人,但"Meta没字节强","美国做C端产品的人不行,比中国差远了"。
- 国内2026年会非常看重谁成为AI super app——但这在硅谷几乎没人讲。姚顺宇对chatbot是否是终极形态持怀疑态度:"这个模型明明有那么多能力,但居然用的方法是chatbot,不太make sense。"
- Google在产品上传统上比较慢,但擅长"找到一个极为简单的产品形态,大家都长一个样,然后疯狂卷技术"——搜索就是典型。
TPU vs GPU、Neo Lab与"老登"批判
核心要点:TPU和GPU在大规模商用下各有长处——TPU的3D Torus拓扑在大集群下可获得更大存储空间和更少通信瓶颈,GPU则有更好的开源生态和通用性。Neo Lab绝大多数会死。
- TPU设计理念:抛弃卡间两两互联,用3D Torus拓扑连成大集群——一张卡只连三个方向最近邻,但整个集群是一个大Torus。如果compiler和sharding逻辑写得好,等效获得更大存储空间和更少通信bound。GPU(如H系列Hopper)则是pod内8卡NVLink高速互联,pod间通信带宽不足。
- Neo Lab判断:绝大多数会死。Thinking Machine在deliver新东西,但有些neo lab"完全不知道他们到底要干嘛,这俩人其实已经远离这个专业好久了"(要求把名字哔掉)。
- "老登"批判的核心逻辑:姚顺宇讨厌的不是年纪大的人,而是言论"不良好定义"的人——用Pauli的话说是"not even wrong"。如果换一个范式他也能跳出来说"我当年说过",这就是"模糊"的问题。"人老了不一定会变成老登——有人德高望重少指手画脚,花力气培养年轻人;有人自己不懂还爱指手画脚。"
- 影响AI进程的论文:sequence to sequence(语言模型在feature engineering时代的高峰)和Jared Kaplan的Scaling Law(第一篇把体系化研究方式引入AI的论文,虽然后来的具体做法"并不是正确的")。
"别相信老登。" —— 姚顺宇
附录:关键人/机构/产品/数据
| 项目 | 详情 |
|---|---|
| 姚顺宇 | Google DeepMind研究员,前Anthropic Horizon团队(大规模RL),清华物理→Stanford高能理论博士→Berkeley博后(2周) |
| Douglas Stanford | 姚顺宇Stanford博士期间的年轻导师,"比我聪明太多" |
| Jared Kaplan | Anthropic联合创始人+技术leader,Scaling Law论文作者 |
| Sam McCandlish | Anthropic联合创始人+技术leader,与Jared共同拥有技术+联创双重权威 |
| Boris Cherny | Claude Code创造者,前端工程师出身 |
| Sergey Brin | Google联合创始人,Gemini方向的最终拍板人 |
| Koray Kavukcuoglu | DeepMind CTO兼Google SVP,一线出现最多的管理者 |
| Demis Hassabis | DeepMind CEO,更多管偏science方向(Isomorphic Labs等) |
| Horizon | Anthropic大规模RL团队名称,约10人 |
| Nano Banana | Gemini爆款应用,打开用户量 |
| Thinking Machine | Neo Lab中被认为在deliver新东西的 |
| Gemini市占率 | 约20%(姚顺宇估计) |
| SWE-bench | 各家打到80多,83以上题目定义不良好 |
| RKGI | Gemini 3→30多, Claude 4.6→60多, Gemini 3 Deep Think→80多 |
| 代码AI化率 | 姚顺宇自己90%+代码由模型生成 |
| 研究加速 | 20-50倍("两周的事两小时做了") |
| 24小时RL面试 | 从0到1完成RL项目+1小时讨论 |
| 汤川秀树《旅人》 | 姚顺宇推荐的书,关于成功科学家年轻时的挣扎感 |
| 《来自新世界》 | 姚顺宇喜欢的日本小说 |
张小珺: Hello 大家好,我是小珺,今天我们的嘉宾是Google DeepMind研究员姚顺宇。硅谷有两个很有名的姚顺宇/雨,一个之前在OpenAI跳槽去了腾讯出任腾讯的首席AI科学家,他之前也来过我们节目。那今天我邀请的是另一位姚顺宇,他此前在Anthropic,现在在Google DeepMind。我们从近期一系列的模型巨变开始聊起,那接下来就是我对顺宇的访谈。
张小珺: 硅谷不是有两个姚顺宇/雨吗,你要不要先给大家介绍一下你自己,然后给大家科普一下两个姚顺宇/雨的区别?
姚顺宇: 啊,可以,对。就是我叫姚顺宇,然后显然也有一个跟我几乎同名的朋友(姚顺雨,腾讯首席AI科学家,前OpenAI研究员),我们俩主要履历也有一些overlap(重叠),所以说可能看起来非常的难以区分。对,然后我是以前做学物理的,然后我本科时候在清华,那时候做凝态理论,然后后来去斯坦福做理论高能物理,然后和量子信息啊,黑洞相关的一些方面。然后离开斯坦福之后去伯克利,短暂的待了两个星期的postdoc博后,然后就离职了,去了Anthropic,然后在Anthropic待了一年,去年9月底10月初的时候加入了Gemini。
如果大家非要区分的话,我觉得最大的区分就是那个顺雨,他一开始就是一直都是做CS,就是计算机相关的。然后我其实从某种意义上来说是个半道出家,对,就是我之前是做理论物理为主的。
张小珺: 你们是不是好朋友?你们好像大学就认识,而且是一级的对吧?他是一个什么样的人,你是一个什么样的人,评价一下他,你也评价一下自己。
姚顺宇: 对对对,我们本科就认识,因为我们本科是一级的,然后在清华。但他,当然他一开始就是学计算机的嘛,所以他在那个姚班,就是计算机科学实验班,然后我是学物理,所以我在机科班。对,然后后来他去了普林,我去斯坦福。这可能也是另一个有点令人费解的点,就是好像这个普世世界里觉得斯坦福应该是学计算机的人该去的地方,然后觉得普林斯顿是学物理人该去的地方,但我俩正好反过来。哈哈,所以说也可能产生了一些费解的事情。
然后我俩其实也还真的挺不一样,我觉得他是一个比我有趣的多的人,我觉得我从他身上也是,在过去也是,能学习到了一些和我很不一样的点。比如说他可能花了很多时间去思考,比如在AI方面,他花了很多时间去思考就是人和AI的交互呀,然后包括一些产品上的事情,然后我觉得其实对我来说是一个很不一样的朋友,然后我也从他那学到了很多东西。
张小珺: 你们之前在硅谷的时候,多久见一次面啊,你们现在是不是还频繁打电话,多频繁?
姚顺宇: 我们在硅谷的时候见面确实挺频繁的,可能每几个星期吧,但是好像见面主要是为了凑一块玩。就是真的就是纯玩,就是可能出去散散步,然后扯扯有的没的,然后可能有时候吃个饭,打个牌啊之类的。然后他回去之后,其实我们也是,也还是经常会打电话,好像就是前一两个星期,会过几个月然后就catch up一下,大家聊最近的近况吧。
张小珺: 他是不是多次想把你拉过去?
姚顺宇: 嗯,可能有这个意思吧,但是,我觉得不关键。
张小珺: 你为什么不去啊?
姚顺宇: 我觉得对我自己来说,没想清楚吧。嗯,我觉得多半是我自己的原因,然后我也没有去任何中国的地方。然后我觉得主要原因是因为在去年的九月或者八九月这个时候,那时候我离开Anthropic,离开之后决定要去哪的时候,最大的动机是我想学一些不一样的东西。嗯,对我来说,我可能就没有去考虑,更着重的去考虑说能够去领导一个项目,或者领导一个project之类的,我更多的是,那个时候,更多的是优先去学习一些东西,所以那时候我选择去了Gemini。
张小珺: 我发现你们两个老被放在一起比较和讨论,对你来说是困扰更多还是享受更多?
姚顺宇: 我没什么感觉,然后因为我这个人也不太关注社交媒体,所以我其实真的没什么感觉。
张小珺: 因为那个顺雨,他之前在去年的时候说AI进入了the second half,进入了下半场,这个成为了一个非常有名的观点。你觉得今天的AI,在一个什么样的时期,你能给它一个定义吗?
姚顺宇: 对,我觉得对我来说,我可能看得没有那么清楚什么叫做上半场、什么叫做下半场,或者说这个定义,一直以来对我并不是特别清楚。对我来说,确实现在AI进入到了一个阶段,就是我觉得大家都已经开始不那么担心一件事——AI是不是能够做得到,而是担心这件事是不是被良好定义。对我觉得这是一个很大的区别。
比如说我觉得一年之前,就是可能去年年初的时候,那时候我在Anthropic,然后大家可能担心的事情还是说,哎,OpenAI这个reasoning(推理)做的这么强,我们有没有机会能够追上,然后有多大的机会能够超越它,大家还很担心这个事儿。我觉得现在就是,至少在Gemini、OpenAI和Anthropic这三家当中,我觉得没有哪一家会真的担心自己追不上。然后我觉得可能现在对大家更难的事情是,是想明白要去做什么,这个是一个我觉得很需要人的insight(洞察)的事情。
张小珺: 那这也意味着模型的能力被拉平了,对不对,它变得同质化、变得商品化,所以模型没有很大的区别,就是在好坏上没有很大的区别?
姚顺宇: 我觉得从用户的实际体验上来说,这三家的模型是能够感受到区别的。但是难的一点是,过去这个区别在纸面上也能看出来——纸面上就是比如说像公开的有很多种Benchmark(评估基准),比如大家以前能够去看SWE-bench,然后可能数学大家那时候会比像简单一点的AIME,然后难一点的像IMO,那个时候感觉你从纸面上就能看出来,哎,这个模型好像reasoning强一点,那个模型好像coding强一点。
现在就是纸面上大家其实都比较相近,然后你去看那个纸面上的消息,比如看SWE-bench,你会发现,哎,好像好的会比不好的可能高一个百分点或者两个百分点,但其实大家都在80%附近,那个附近数字高一点低一点其实主要是noise(噪音),而不是信号。但是从另一方面来说,大家使用上确实还是能体验出区别的。
就我个人了解到的信息而言,Claude目前仍然是比较通用的这种工具使用类的Agent表现最好的,然后在纯粹coding的方面,可能最近Codex稍微追上了一点,把这个中间的gap变小了一点。然后Gemini,可能在纯的reasoning然后和一些比较日常的使用环境下,可能目前还是比较好的,然后在coding和Agent上还处于一个比较接近的状态。
张小珺: 嗯,这些能力,他们是有意选择我优先发展哪个方向,还是说它就是好和坏的区别?就是它是能力问题还是意愿问题?
姚顺宇: 我觉得呢,其实是有意愿的成分在的,尤其在过去的情况下,主要是意愿。就是当大家能从纸面上就看出区别的时候,那时候意愿肯定是占大多数的,因为可能像Claude就一直更看重这种使用工具的能力,嗯,然后包括coding。那可能OpenAI还有一段时间非常看重reasoning,对当然它现在也开始看重coding了。那那个时候肯定是意愿会占大多数,因为你花你更有意愿的话,就意味着你能花更多的精力,去构建合适的基础设施,构建合适的数据,然后尤其数据,它是一个从某种意义上来说很花时间很花精力的事情。
所以说那个时候肯定是意愿占主导。但是到现在这个时候呢,我觉得两方面其实都有,因为,其实因为纸面上大家都看起来差不多,然后其实甚至你就做一些更内部的测试来说,这个数字也都变得差别没有那么大了。然后这时候更难的事情就是,你该怎么去定义你的问题,定义你想要的行为。然后在这个事情没有定义的那么清楚的时候,模型的很多差异其实来自于一些想象不到的事。
就是比如说,比如说退回往回退,可能一年两年甚至三年的时候,那时候如果你去网上取这些预训练的数据的话,你看训练模型就会发现模型在写代码,那时候当然没有这种Agentic的写代码,它都是写一段代码。那时候你会发现模型写代码会写得很好,但是可能那时候大家不知道为什么,但是这个里面意外的原因可能就是,你从网上随便的去,如果不做任何的数据的筛选的话,自然的这个code data的质量就会比别的高一点,因为你去看网页,你会发现GitHub的质量是显著比别的正常网页要高的。
张小珺: 在进入我们今天主题之前,我想先聊聊我们最近模型的一系列的近闻。就是你看,最近大家都在讨论OpenClaw,嗯,你作为一线的研究员,你对这个新的产品形态是怎么看的,你周围有哪些讨论?
姚顺宇: 我觉得有趣的是,我感觉这个事情在业外的讨论,好像比业内的讨论更激烈。业内有人讨论,但是我觉得对业内人来说,它并不是一个特别令人惊讶的事。就是可能在公司内部,也有人已经做了类似的这种实验,或者这种demo,只是可能并没有作为一个产品去很认真的宣发,然后把它打磨然后发出去。
当然事实情况就是,你去看这个OpenClaw最早版本的GitHub的那个code,其实那个code也就从某种意义上说写的也不是特别的干净,但是我觉得它很重要的事是,它给大家展示了这种可能性。那可能展示这种可能性之后,OpenClaw的作者自己也加入OpenAI,然后那可能就是这些模型的实验室,或者说一些大一点创业公司会很快跟上,然后把这个东西打磨成一个真正可用的产品。嗯,所以我理解,其实在OpenClaw发布之前,Google就已经有人在做这个事情了,只是还没有发布,因为大公司的流程比较长。
张小珺: 所以这种类OpenClaw的这种产品形态背后,本身说明了什么,在今年初的这个时间点上?
姚顺宇: 我觉得其实技术上来说,其实并不能说明什么。就是说OpenClaw这个产品,当然它依赖于模型能做的很多事情,但是那些事情的能力,其实并不是到今年年初才准备充足的。我觉得可能在去年,就是像Opus发布4.5(Claude系列),然后当然那时候Opus其实比OpenAI和Gemini 3在tool use(工具使用)的能力上都要强一些,所以我觉得在那个时间点,其实你做这个事,这个事就已经是可以展示出来的。
它更多的是,我觉得它可能一个对于大家的惊喜,是以前可能大家都没有意识到——它让大家意识到了这件事可以做,就意识到了你可以控制很多不一样的模型,然后做很多不一样的事情,然后把这个事情汇总之后,做一个很长很长very long horizon(长程任务)的这种工作,我觉得可能以前大家并没有广泛的对这个事产生共识,这个事情给大家展示了这样一种可能性。
张小珺: 你看从去年初火的是Manus,今年初火的是OpenClaw,就是从Manus到OpenClaw,变化是什么,是模型能力的变化,还是产品的变化?
姚顺宇: Manus和OpenClaw之间的质的区别是什么,是一个我其实自己没太看明白的事情,说实话。就是,或者换句话说,就是可能OpenClaw这个事儿火了,但是如果你要回头问我说,为什么Manus做不了这个事儿,我不明白Manus为什么做不了,可能只是它没做对。
张小珺: 但是你看,不管是Manus还是OpenClaw,它们都选择了——Manus卖给了Meta(注:该收购目前已被撤销,我们节目录制于撤销之前),OpenClaw卖给了OpenAI,这个现象说明什么呢,为什么它们都卖了?
姚顺宇: 我觉得,如果要长久的生存,还是需要考虑一些壁垒的,壁垒是模型。我觉得至少目前来说,很多壁垒都是在模型侧,但是未来会不会产生产品侧的壁垒,我觉得是说不定的。目前来说,我觉得没有哪一个场景真正的形成了数据飞轮,甚至AI纯粹原生的应用场景,我觉得目前除了Agentic coding就写代码之外,没有哪个场景是AI真正原生的场景变得非常成功。
因为从某种意义上来说,Chatbot其实是搜索的一个延伸,它是因为大家其实和Chatbot最多的交互是——我有一个问题啊,就问这个Chatbot,然后这个其实是搜索本来干的事儿。但是它带来的比搜索要远强的一个事情是,它变得非常interactive(交互的),你可以追问,然后它甚至可以帮你总结出一些通过它获取的一些信息,帮你把它压缩成浓缩成回答你的问题的那个信息,这个是以前搜索给不了你的。
Manus和OpenClaw,我觉得都是现在最有名的壳,但是壳最后都卖给了模型,那是不是说明壳,还是难以逃脱模型的掌心,这个逃逸速度不够快是不是?
我觉得壳在目前这个情况下活下来,有两种我大概能想象的方式。一种想象的方式就是逃得足够快,就是我增长速度足够快,以至于在模型公司反应过来的时候,我其实已经占领了大量的用户心智,然后在模型公司追你产品形态的时候,我又自己演化出了自己的模型,我觉得Cursor就是试图在走这条路。那Cursor其实在这种AI原生场景下,几乎是我能想到的创业公司里增长的最快的,就算这样的公司,它现在也很有危机感。
反正我的感觉是对Cursor来说,现在和Anthropic已经进入了一个非常微妙的关系。就是曾经他们是亲密无间的合作伙伴,Anthropic提供模型,Cursor提供产品,后来Anthropic自己有了Claude Code,Claude Code现在变得非常成功,然后Cursor现在又自己试图做自己的模型,所以Cursor在努力的训它的Composer。所以说,我觉得都不用说未来,其实现在就是,它们已经处于一种比较竞争的关系了。那如果在竞争中输掉的话,我觉得是比较麻烦的,因为代码这个事情,其实它本质上是一种服务于专业用户的专业需求,是一种效率工具,效率工具很容易出现的一个场景就是赢家通吃。
另一种方式就是这市场足够的小,小到模型公司根本懒得去管,我觉得Midjourney就是这个例子,这个市场小到可能,虽然你说Gemini努力一把,能不能做Midjourney,那个事可能花一些精力、花一些钱、花一些data是能做到的,但是足够小,以至于可能Gemini就不是很会在那上面花时间了。
张小珺: 看不上。那如果在竞争中输掉的话,有谁成功逃逸了吗?
姚顺宇: 我觉得大的就我目前还没看到,小的可能Midjourney是个例子。当然肯定有别的例子,只是我还没看到。
张小珺: Lovart算吗?
姚顺宇: 我觉得他们有机会,反正就不能做那种通用的场景,我觉得这是founder要自己要决定的一件事,就是你要不要抱着1/10000的生存几率去赌一票大的,还是抱着1%的生存几率去先吃定一个小的事情。如果是我,我内心肯定是想吃一票大的,但是我真诚的想是,我觉得第一步是不能一步登天的,所以如果是我,我会选择去先吃一个小的,但是我会选择一个有想象空间的小的。
张小珺: 你说OpenAI为什么要收OpenClaw,Meta为什么要收Manus(注:Meta收购Manus已被撤销),Google为什么谁也不收?
姚顺宇: 啊Google也收了,Google买了Windsurf的人。我不理解,说实话,我觉得Meta买Manus这个事儿,我觉得对他们来说最大的用处就是,如果抛掉花了多少钱之外,最大的用处是获得了一批很好的在亚洲的产品团队。中国的AI人才储备还是很丰富的,不管是从纯技术上还是从产品上,产品上我觉得可能中国本质上人才是比美国要更好。所以对它来说,我觉得Manus成为了它在新加坡的一个锚点,就它可以从那里吸引一些从中国的、或者是新加坡或者东亚的人才。然后我其实没有特别看明白这个产品本身对Meta来说有多重要,或者换句话说,就是为什么Meta不能自己干这个产品。
张小珺: 但是不管是Manus还是OpenClaw,它事实上就是诞生于外面的团队,为什么不是硅谷的这一帮研究员做出来的呢,你有没有反思过这个问题?
姚顺宇: 对我觉得,我觉得一个公司一旦变大了之后,它的负担也变大了。就说我可能作为一个研究员,然后我们可以做一些很看起来很有趣、很有特点的产品,但是我一旦把这个产品去公开给公众,那要负责的事情是非常多的。第一你这个产品不可能说一上线,然后告诉所有用户,你得再去买一台电脑干这个事,否则它就有可能会获得你电脑上所有的权限,然后把你系统搞崩。
这就作为一个大公司来说,你比如Google,Google是不可能提供这样的产品出去的。所以你产品要花很多时间打磨,然后你要确认法律上它没有一些风险,然后用户上又不会损坏自己的品牌,然后你如果把它送出去了,你可能还要给它比较固定的一些资源去serve这个模型。所以对大公司来说,我觉得还是有挺多负担的。但是对于个人来说,无所谓啊,就是我反正是一个开源的项目,我代码垃圾又如何,你帮我来一起写吧。
张小珺: 我觉得不管是Manus还是OpenClaw,它其实指了一个方向,就是这也是2026年的某种叙事的可能性,你对2026年是什么,怎么样思考和预期的?
姚顺宇: 我觉得其实有太多的可能性。从模型能力上来说,我觉得模型——就是我有时候特别爱说这个口号——我觉得模型做到train with finite context use as infinite context(训练是有限的,但用起来像无限的),就是换句话说,你用有限的这个context length(上下文长度)去训练它,但是可以在使用的时候用非常非常长、甚至接近于无限的context length。我觉得这件事儿,今年是有机会能够实现的。然后这件事情实现之后,我觉得会解锁很多新的应用,就是你有可能可以让这个模型跟你持续的交互,然后持续的获得你的信息,然后它在运行的过程中,会持续的根据当前的场景和你的会话,可能把那些它觉得不重要的信息扔掉,然后就成了就是大家梦想中的个人助手。
对我觉得这个从技术上来说,我觉得这件事是会,今年是无论如何是会实现,但是大家没有达成共识的是技术上怎么去实现这个事,显然是有很多技术路线,但是现在我觉得更多是属于在尝试哪条路线能够跑通,可能有好几条路线都能跑通,那我们到时候就要去实验上去测,在用户常用的使用场景下,哪条路线的效率是最高的。
张小珺: 站在这个2026年的Q1作为一个一线的研究员,你觉得模型的进步速度在放缓吗?
姚顺宇: 我觉得完全没有。
张小珺: 完全没有!它的速度曲线对比25年、24年的变化是什么?
姚顺宇: 嗯,这个很难量化的说,因为你得给一个标准,我才能量化的告诉你。如果你给的标准是,我就看在某一个Benchmark上,比如说随便SWE-bench上,它每一个月涨多少个点儿,那这个事儿是肯定会变慢的,因为根据定义,这个Benchmark最高就到100%,所以你越接近,那肯定是越跑越慢。但是这可能并不代表用户体验这个模型的能力增长变慢了,因为可能从50%到60%,它可能感觉哎好了一点,但很有可能比如说从70%到75%,它发现好的比50%到60%那个还多,这是完全有可能的。
我个人得到的感受是,这个模型学东西的能力越来越强了。以前可能让模型学会干一件事情需要动很多脑筋,但现在可能不需要动那么多脑筋了,最重要的是你是要把这问题定义清楚,然后想清楚怎么去构建合适的数据,剩下的事情,好像很多时候是顺其自然的了。
张小珺: 学习能力变强是为什么呀,模型的学习能力变强了?
姚顺宇: 我觉得可能一方面,原因可能有很多方面,但我觉得可能一方面是因为预训练,其实在过去的几个月里,我觉得还是越来越强了的。这个可能是一个从某种意义上来说比较有争议的事儿,因为几个月以前,很多人已经在讨论预训练的这个Scaling Law(缩放定律)是不是已经到头了,我的体验是没有,而且我的感觉是在未来的4个月,也没有看到到头的迹象。
张小珺: 觉得到头是为什么呢?
姚顺宇: 我觉得我显然不知道大家觉得到头的原因是什么,因为我自己没觉得到头,但是我觉得我的猜测是,一个人觉得一个规律到头了,无非以下两种情况——一个情况是他觉得这个规律的适用范围到头了,比如从根本上讲,Scaling Law就是没有办法无穷延展下去的,which有可能是对的啊,但是这是一种猜测。另一种可能是,这个人觉得这个规律其中有一个条件不能满足了,比如说他觉得数据就已经撞上墙了,那我完全没有把它延展下去嘛。
另外还有第三种可能性,就是其实他这个工作哪里有一个bug,他自己没发现,所以他觉得到头了。我觉得从我的观感上来说,可能绝大多数撞到墙的人是因为第三种,是因为有bug。bug是有很多种可能性的,比如说一种可能性是,你Scaling Law做的时候,一些科学的假设没有做对,比如说你选什么样的token horizon,就是每一个大小模型选什么样的期待的训练的数据量,然后这个数据是从哪里选,有可能这些比较科学的选择没有选清楚,是一种可能性。但我觉得还有一种可能性就是,纯粹就有个bug,这个其实在业界我觉得也不惊奇,很多时候修好一个bug,带来的进展是远大于一些很神奇的技巧的。
张小珺: 那你们的bug怎么办,你们怎么解决bug问题的?
姚顺宇: 我觉得对,我感觉这更像是一个信念的问题,因为当你遇到一个bug,你觉得它不能解除,你就会说这个到头了;当你遇到个bug,我觉得哦,这个肯定可以解决,那你就觉得这还没有到头。因为肯定每个人都要遇到bug。
这可能就像你说的,就是其中有一些比较信念性的东西,但对我来说,更重要的一件事是做事系统,就是当你一个事情和你预测的不一样的时候,你能不能系统性的排除各种可能性,这个我觉得是一个很重要的事。这个是我觉得Gemini和Anthropic做的比较好的事,就是尤其在预训练上,就是说当某一个尺度上的行为可能和你想象中不一样的时候,大家能够去去设计合理的我们所谓的ablation实验(消融实验),合理的这种实验,能够看出来测你的一些想象中的可能的因素是不是真的因素。我觉得这个做问题的系统性才是关键。
张小珺: 你觉得模型能力还能提高,那它的驱动力,数据、算力、算法,你觉得它的驱动力主要来源于哪个?
姚顺宇: 我觉得其实都有。但是从某种意义上来说,数据和算力两个事,其实是很强关联的一件事,因为你算力上去了,自然就会吸到更多的数据,数据上去了,你就自然需要更多的算力。
算法上来说,我觉得算法作用往往是有一个相变的。就是算法有一个阶段,是你完全没有搞清楚该怎么做,那个阶段就算法会非常非常关键,因为你没有完全搞清楚怎么做的时候,你可能就完全没有办法scale up,然后可能就卡在那了。但是在某一个点,你可能发现了算法当中最重要的一件事,那它可能一下就变成了从完全不能做变成了能做,然后之后算法的提升,更多的是一种比较平滑的提升,就是它可能从某种上提高了你计算效率,或者使用数据的效率。
就比如说从语言模型的预训练来说,那可能这个算法上的跳的过程就是发展出Transformer这个事情,但Transformer发现之后,更多的都是慢慢就是平滑的让它的效率,或者你使用data或者使用算力的效率变得越来越高了。
所以现在的驱动力,在现在比较清晰的框架里面,主要的驱动力是算力和数据,清晰的框架是指比如说预训练和后训练,不管是基于强化学习的后训练,还是基于supervised learning就是监督学习的后训练,确实算力和数据是主要的驱动力。
但是不可否认,可能有别的方向,比如说多模态生成,那个我觉得可能就是一个算法上来说没有太想清楚的事,所以那个还是个科学问题还没有解决。但是语言已经不是科学问题了,自然语言的生成,我觉得目前这条技术方案撞到头之前,在科学上是比较清楚的,但是工程上也还有很多很多很多要做的事。
张小珺: 你觉得预训练还能提高多少,通过预训练提升模型能力,还有多长的路可以走?
姚顺宇: 人就是这样,就是当你没有撞到头的时候,其实不知道这个路有多长。我能看到的就是现在还没撞到头,但我也不知道哪天会撞到头。如果真的让我去估计一个时间线的话,就像刚才说,我觉得4个月,接下来4个月是还是会继续有进展。但是AI这个方向,没有人能预测4个月之后的事。
张小珺: 嗯,所以过去几个月,你在看预训练和模型能力的时候,你还是很兴奋的,这是你周围的普遍的心态和状态吗?
姚顺宇: 我觉得是的。我觉得在AI这个领域,没有谁是在躺着的,除非就是你已经完全对技术没有兴趣了,对自己没有追求了,那你躺着其实也没有人管你,但是我觉得大家还是比较self-driven(自驱)的,就是还是自己想干。
张小珺: 你觉得其他的领域,会出现更多的这样的Claude Code的时刻吗?coding之后会在哪里爆发?
姚顺宇: 你问了一个好问题,我要是看清楚了,我可能已经出去创业了。但是确实就是除了coding之外,我们已经能看到,对很多别的方向已经产生大的影响,但只说那些方向,可能并不是一个好的这种市场上的方向。
比如说,好多现在的做基础科学的研究,比如做数学啊,做理论物理,好多人其实已经就大量的开始用AI工具,因为过去你可能想到一个想法,你想跑一个数值,学物理的人又不是很会写code,光学明白怎么打开这个编译器,把code跑起来,可能半天已经过去了。现在就没有这个烦恼了,就是你现在想试,5分钟之后code写完了,你就可以开始试了。然后甚至像Gemini Deep Think发布之后,有很多这个基础科学的研究人员,就把这种比如说数学推导啊、数学证明啊,然后甚至就是去看这些不同的这种文章,然后归纳,这些事全都交给模型了。
当然就是那些基础研究,你可能很难变成一个万众瞩目的事情,除非你就真的发现了一个以前人都没发现的很妙的理论,比如AI产生了爱因斯坦理论这样级别的东西,那可能会变成万众瞩目,但那个时刻可能还没到来,但是影响是已经在产生了。
张小珺: 哇,AI好神奇啊,它为什么首先上来做的都是人类觉得最难的那部分工作?
姚顺宇: 我觉得这是一个特别好的问题。就是我觉得过去在我人生的阶段里,大家往往会觉得最智力上有挑战的工作,反而是那些比较理性的事情、比较客观的事情,比如说数学、比如说写代码、比如说做AI研究,还有科学研究,越是这些事,其实AI越容易做好,因为你一旦想清楚这个事怎么去评价,你就知道怎么训练。
未来其实会发生了一个改变,就是那些AI其实没有那么容易做、但是反而是人可能做比较好的,比如说做产品经理,我说实话觉得,做一个好的产品经理是一个我现在想不明白该怎么训练AI去做的事,因为没有标准,什么叫做一个好的产品,没有一个很客观标准,你一定是做出来了之后给人用了,你才知道它好,那大家才会说它好。那个就是一个回馈信号很不明确的事,那个我就不知道该怎么去训练AI做。
张小珺: 程序员什么时候会被彻底取代,会有会有这一天吗?
姚顺宇: 嗯,我觉得这一天会来,但是它不会是一瞬间的来,就不会是程序员都还在,过了一个晚上,第二天程序员全被开除了,不会是这样的,一定会是一个渐变的过程。但是大家现在已经看到这个渐变的过程了,因为有一些公司已经开始裁员了。
对我觉得,从某种意义上来说,AI是一个很centralized的technology(中心化技术),它会让少部分人变得更强,但会让大部分人失去他们的独特价值。对于传统的软件工程来说,最后变成结果可能就是,现在1/1000的人,干了过去所有人的工作,拿着现在100倍的工资。
张小珺: 那你对程序员有什么建议?
姚顺宇: 我觉得可能接受新事物吧,就是我觉得很重要。未来程序员可能很重要的一件事是,怎么和AI去有效的协作,做比如说有很多事情是AI可能做的不是那么好的事儿,比如说怎么去合理的设计一个事情的实现方案,然后怎么样设计让它可能跟这个公司未来的发展比较契合,那这些东西,可能你很难去告诉一个模型让它理解这些事儿,那这些事儿可能还需要人去做。
未来好的程序员,首先他肯定是从技术上来说非常强,因为如果你技术上弱,那没有什么道理AI不能取代你。另一个事情我觉得会很重要的就是,你得能够理解你的这部分工作,在一个大的组织或者一个大的公司里该去怎么适配进去这件事情。然后当然还有可能别的很多事情,比如说这个人的规划能力是不是足够强,他规划能力强的话,他肯定可以同时把这个大的一个很复杂的事情,拆解成很多相对较小的事情,然后交给不同的AI去做。
但是现在看这三种能力是重要的,可能AI还不能完全做,不代表6个月之后不能,可能6个月之后你过来问我,我发现最后一个事AI已经能干了,那就只剩下两个事,再过6个月,可能剩下两个也能干了。所以说没有人能预计6个月之后发生什么。
张小珺: 刚过去的那个春节,很多人关注另外一件事情是Seedance,Seedance会让Google焦虑吗?
姚顺宇: 我觉得其实有可能有,但是这个焦虑的情绪,目前还没有传导到我这儿。可能让Google DeepMind负责多模态生成的团队会有一些压力,但是如果你要问我的话,我觉得,我可能不觉得他们有什么可焦虑的,就是我觉得并没有体现出什么范式上的改变,更多的是我觉得字节在不管是这个产品的效果,还是可能在数据上啊之类的这些细节会做的非常非常好,我觉得确实是,字节过去在多模态生成一直以来都有比较强的优势,但是我觉得至少我个人,没有体会到它是一个范式上的变化,那可能就不足以说让大家非常的焦虑吧。
张小珺: Seedance它的产品能力来自于模型能力,还是产品能力啊?
姚顺宇: 我没在字节干过,所以我也不知道具体的细节,但是你要让我猜,我觉得可能模型还是占大头的,模型能力的好来自于数据,因为算法可能没有本质创新。多模态生成属于科学问题,范式还没有那么固定,可能每家用的技术都会有一些大的或者小的区别。你如果要让我猜,我会猜数据,但就我也没在字节干过,所以也是我硬猜的。
张小珺: 你怎么看从Google去字节的吴永辉(字节跳动大模型团队Seed负责人)啊?
姚顺宇: 我何德何能评价永辉,我当然过去没有和永辉一起工作过,所以我其实真的不是很能给什么很好的评价,很客观的评价吧。就说但是我觉得我去了Gemini之后,看到的更多的是永辉好的一面,就是我觉得他是我通过去看他,偷偷去看他以前交过的代码,以及他带过的项目,我的感觉是他是我见到的少数层级非常高、然后人也很senior,但是还有很强的技术能力,我觉得是非常非常少见。所以我觉得,我可能是还没到能够评价永辉的这个水平呢,但是要让问我说的话,我觉得永辉是非常非常强的。
张小珺: 你说站在2026年的这个Q1拍一张快照,你觉得中美的模型能力差距是在放大,还是缩小?差多远?
姚顺宇: 我觉得,如果现在拍一张快照去看过去一年的发展趋势,或者过去一年半的发展趋势吧,显然这个中美之间的gap是越变越小了。但是最后这个gap会不会完全弥合,甚至中国超过去,那我觉得是一个不清楚的问题。
一个很真实的事儿就是,中国确实在实际的算力资源上来说,是占很大劣势的。但是这个很大的劣势,可能反而逼出了一些有趣的事儿,比如说中国的模型公司,其实对distillation(蒸馏)别人很在行。最近Dario(Anthropic联合创始人兼CEO)不是点名了3家公司蒸馏它,我觉得其实可能是一个蒸馏这个事存在,是一个心照不宣的事实,但是我觉得蒸馏它也有不同的方式,就是也有硬蒸和聪明的蒸两种不一样的选择。
张小珺: 什么叫硬蒸?
姚顺宇: 硬蒸就是最举个最简单的例子,就是我从Claude里面取出一堆它生成的Token,然后强行在上面做训练。这个如果干这样的事,我就觉得首先商业上也不是很道德,然后智力上来说也比较愚蠢,因为干这个事儿的公司,其实本质上来说,它体现出来的一件事儿就是,它其实都不知道自己想干嘛,它能干的唯一一件事儿就是抄别人,然后让自己的模型数据上能看的好看一点,对但本质上就说明它自己都不知道该干嘛。
但是其实蒸馏也有一些很有趣的科学问题,就是比如说我是不是有一种可能,就随便举个例子,就是有没有可能是,我生成我自己生成数据的这个链条当中,用到了别的模型作为辅助,或者说我自己模型生成的答案,用别的模型作为它的评价者。这个其实是一个我觉得商业上来说比较灰色的地带,但是从技术上来说其实很有意思,因为你想,其实从某种意义上来说,可能中国的实验室成为了做Multi Agent(多智能体)训练的先驱,而且是真正的Multi Agent。因为它如果从不同家的模型里,用这种比较聪明的方案,把他们融汇到一个训练系统里的话,每家模型它可能是分布很不一样的,它的语言的分布是很不一样的,这个是真正的Multi Agent,它可能比起比如说我用了好几个Gemini一块做,是一个技术上更有趣的事。
所以说我觉得对我来说聪明的蒸,我不知道这个商业上最后会不会变成一个很明确错或者很明确对的事儿,但技术上其实很有意思。
张小珺: 你这两种蒸分别说的是谁?能不能后期把名字哔掉?
姚顺宇: 我首先没有在中国的lab(实验室)干过,所以我不知道确切的是谁,但是我的感觉就是XXX应该是硬蒸了啊,然后XXX可能曾经硬蒸过,但是后来可能慢慢也在努力向软蒸的方向转化。我觉得比较明显,可能蒸馏的比较少的是字节,我觉得字节是我感觉到这个模型还是比较有特点的。
张小珺: 特点体现在哪里啊?
姚顺宇: 比如说这个模型,你说它有多聪明呢,我觉得豆包是肯定没有Gemini和Claude聪明的,但是豆包首先比如说豆包的语音生成非常非常强。在技术上,确实豆包是做的最好的。
张小珺: 这很难吗?为什么其他模型不优化这个产品功能呢?
姚顺宇: 我觉得还是跟它的用户群体有关系,在美国,我觉得大家的这个想法更专注于怎么能够提高工作效率。我个人,确实是一个生活上比较无聊的人,所以我生活中没有很多有趣的困惑,可以去问豆包,我生活中更多的困惑,都是技术上的困惑,问Gemini这种聪明的模型就是最好的。
我其实只用过豆包一两次,是因为有人给我展示豆包手机。我觉得豆包手机是一个很好的想法,我个人觉得效果上来说,其实做的也不错,当然我不知道的是,技术上来说它的优化做的有多好。我觉得它实现一些任务的实施,从效果上来说是没什么问题,但我不知道它会有多大的消耗,如果这个消耗非常非常大,那可能是一个技术上需要解决的问题,因为你并不希望让你的模型去给你订了一张高铁票,结果花的钱比高铁票还贵。
然后我觉得产品上来说,对大家来说还是一个挺让大家觉得挺兴奋的事吧,可能苹果以前也想干这样的事,只是苹果可能自家的模型一直不太行。苹果一定是在意AI战略的,因为曾经Siri手机助手是苹果发布会里一个非常非常重要的闪光点,但是自己的模型没赶上趟,现在可能要通过和Gemini合作来试图做这样事。你要让我猜我肯定觉得是重视,但如果你要让我解释它为什么从外界来看没那么重视,我的唯一猜测就是,如果你外界来看就显得很重视,还做不成,那就显得很蠢。
张小珺: 那我们说一下豆包的模型啊,你刚才说豆包模型比较有特色,你能具体一点?
姚顺宇: 一个是它的语音做得很好,这是第一点,我觉得语音做的很好,是我能感觉到最有特色的事。就是我觉得语音这个效果可能是,客气地说可能是全世界最好的之一,不客气地说,我觉得就是全世界最好的。
它一定会是模型的事,它有可能也包含一些产品的部分,但一定是一个模型的事。然后另一方面,我自己感受就不多了,因为我其实用的机会没那么多,那可能就是更多的是来自于亲朋好友的反馈,哎,这个豆包这个模型就是fun to talk,就是聊起来很有趣。
然后我觉得它的生成的很快也是一个很重要的,因为很多模型它都在给你展示思维链,但是我就说你们生活上的琐事,我不想看它的思维链。这个事我觉得技术上并不难,只是可能大家目前还没有花更多时间在这个上面。事实情况是,如果你去尝试Gemini 3.1和Gemini 3的话,你会发现Gemini 3.1在完成同样一个问题的时候,已经会比以前快很多,然后废话少很多了,所以说我觉得这个不是一个在我看来技术上的难点。
现在美国的这几家还都处于在努力把智能的上限往前不断推进,而字节呢,当然它也肯定是在推进上限的,但是我觉得它可能就是在用户的优化上,也做的很不错。
张小珺: 最近还有一个话题,就是中国的机器人很火,在春晚上,我不知道你对这个有没有什么观察?
姚顺宇: 看过一些表演,也在亚马逊上搜过一些价格,确实很惊讶它居然这么便宜。我以前脑海里觉得这种人形机器人,当然就是软件层面其实没什么,但主要是硬件,我觉得硬件上做的这么成熟,可能怎么也得是个大几百万美金啊这样的,但是好像我去看了一下,价格比这要便宜很多。我觉得这还是体现出中国在硬件这个产业链上,还是很有优势的。
但是机器人的模型,也是一个目前非共识比较大的事情。我觉得机器人的模型可能更多的处于feature engineering(特征工程)的时代,就是你有一个给定的环境、给定的场景,你去优化这个场景,大家是知道怎么做的,但是它没有很强的泛化性。
有没有泛化性,其实是很多AI方向它的一个分水岭,就是一个确定的场景、一个很单一的场景能不能做好这个事,不是最近这几年才解决的,十几年前就能干。就是像语言,在基于Transformer这种类似架构之前的时代里,并不是说完全做不了,对吧,那时候你也可以训练很强的模型去做翻译,可以训练一个很强的模型去做语义分析,但是你不能做的事儿是,我可以水平的提高所有的能力。
这个我觉得是一个分水岭,然后我觉得language model(语言模型)在Transformer和GPT之后,跨入了那样一个阶段,就是可以水平的提高所有能力,然后你可能在一个点上的训练,它会把这样能力抽象的泛化到所有相关的事情上。但是机器人我觉得没到那个阶段,更多的还是在那个阶段之前。
张小珺: 你直观感觉,机器人进展相当于大语言模型的哪一年?
姚顺宇: 还没有到GPT-1的时刻,对,一定没到。就是相当于大家还没有没有想明白怎么去scale up。我觉得对我来说,不管机器人还是多模态生成,都没到这个点。
张小珺: 那接下来进入今天的主题,我们还是对你非常的感兴趣,然后聊一聊你是怎么从一个学物理的人进入AI的世界的。你从小在哪儿长大,你是怎么长大的?
姚顺宇: 我出生在宁夏,然后一个很小很小的城市,叫大武口,看就是你这困惑的表情,已经说明了这个城市有多小。这个城市过去的存在是因为一个煤矿,也是因为石炭井,一个煤矿,然后有了这样一个城市。对所以我在那出生,但是我小学的时候跟我父母一块去了上海,然后所以我小学的后半段和初中高中是在上海,然后我上本科就去了北京。
张小珺: 你从小就成绩很好是吗,你是物理竞赛保送,然后在清华和斯坦福读的是理论物理?
姚顺宇: 对,我不是物理竞赛保送的,我觉得我小时候挺菜的。首先我读的初中和小学都是无名之辈。我觉得我当时读的初中好像就是竞赛不是一个你该考虑的事儿,就处于这样一种初中里,那个叫上南中学东校,又是一个大家听了很困惑一头雾水的学校。
然后就是那个初中,一个班里面一个小的环境,还是有一些想要好好干事的同学的,但是总体来说,那个初中我觉得是比较躺平的状态。我觉得就是可能学习还可以,当时的状态就是,上海高中有所谓的四校,有什么上海中学,然后华二,交大和复旦的附属中学,然后当时的状态就是能上这四个学校,但上不了这个四个学校里最好的班。
但是我当时特别想搞竞赛,因为以前都没搞过竞赛,没搞过竞赛所以想搞。我这个人的个性就是,总是爱干一些自己不太会的事。当时没搞过竞赛,但是知道有这么回事,所以觉得上大学之前得干一把。所以但是那个成绩也没好到那个份上,所以去四校就是最好那四个学校,是进不了搞竞赛那个班的。
我当时就发现有一个稍微差点的学校,那个学校就是格致中学,稍微差一点的学校,但是那个学校有一个竞赛班,然后我感觉这个竞赛班本来按照现在的话说就是underdog,用当时的话说就是光脚的不怕穿鞋的,我觉得可以一搞,所以就去了。当时上海还有这个所谓的退休生的制度,就是你可以在考中考之前,就去和某个学校签约,然后你就提前向预定那个学校的名额,然后就直接去他们那,然后就很自然去了,然后去搞了竞赛高中。
张小珺: 所以你其实是在上海四校的普通班里面,和这个格致中学的竞赛班里面,义无反顾的选了格致中学的竞赛班?
姚顺宇: 当然我也不能说我做选择的时候,这个上最好的四个高中,是那么板上钉钉的事,虽然后来的分确实够了,那时候还没中考呢。但是当时就觉得就算能上,我也应该去一个underdog的地方赌一把,因为想干这个事啊。
张小珺: 你想干竞赛的目的是什么?
姚顺宇: 我觉得当时最主要的事是想体验,我觉得没干过,一定要找机会干一下。第一就是觉得确实难吧,就有一种对难的兴奋感,就是确实至少当时,没搞的时候,大家给我的印象就是感觉这个事比你不搞竞赛学的那些东西要有挑战性的多,感觉干这个事的人确实强,不干你也就只是这个平庸石头里最光滑的那一个,所以我当时觉得要干,所以就去干了。
当然干了之后也实际上带来一些好处,就我后来回想起来,如果当时没去搞竞赛,可能就进不了清华了。当时其实那个竞赛的保送生制度已经比较锐减了,就只有进国家集训队才能保送。我那高中,我当时没进国家集训队这个水平的。但是呢,就是我在考高三竞赛之前,阴差阳错的去清华参加了一个夏令营,然后阴差阳错的在夏令营的最后一天,听说了他们在搞自主招生,但是主要是面向北京的学生,我就疯狂给招生办的老师发短信,说我要跟他们一块儿考。
他就答应了,然后就答应了我们去考——我和我们这高中一块去的那几个人去考,就上海去那个夏令营的那几个高中同学去考。
张小珺: 哦,你有什么理由说服他,给他发短信?
姚顺宇: 我已经忘了这个短信具体怎么说了,但这个短信大概说的意思就是,你给北京的同学考,为什么不给上海的考。就觉得人家有这个机会,凭什么不给我们,大家都在一条线上竞争嘛。然后还人家就真让我们去考了,然后就一起考试了,然后就签了。
从那件事得到的人生最重要的道理就是——胆子要大,你不争取是永远得不到的,争取了也有可能得不到,但不争取就绝对得不到。
张小珺: 你当时发那短信的时候忐忑吗,你当时还高中哎,你当时觉得自己这是个很大胆的事儿吗?
姚顺宇: 没有,我当时满脑子想的都是,现在就得争取,再不争取明天就争取不到了,就是我在听说的那天就赶紧去疯狂发短信,发给清华招生办的老师,他很快就say yes了。
然后你那一波上海同学进了两个,自主招生是降到一本线。后来高考果然没考到清华的分,但是就是除了清北之外的学校都能上。所以为什么网上都写你是保送的,我觉得就是大家没在那几年上过学的人很难理解清楚那几年到底发生了什么,因为在我的两届之前,还是拿了省一等奖就能保送的,我们那时候就是拿了省一等奖,进了省队,然后再代表省队去考国家的比赛,然后进了国家集训队才能保送,我是进了省队去考了国家比赛,但我没考进国家集训队。
张小珺: 你搞竞赛搞得好吗?
姚顺宇: 我觉得挺菜的,就是难道不是没有干到最好就是很菜吗,然后我显然没有干到最好,所以就是很菜。
张小珺: 你家里人对你搞竞赛这个事情,是什么态度啊?
姚顺宇: 我觉得我爸妈最好的一点就是,他们不太管我,他们可能曾经也试图管过我,后来发现管不住,就是我也不听他们的。我觉得可能大多数中国家庭都是孩子和父母商量已经算是很好的了,我一般都是通知——哦,我去自主招生了,然后包括中高考填志愿也是,我爸妈甚至可能都没见过我志愿单。我觉得他们就是,当你没有办法理解别人在干什么的时候,别指手画脚就是最好的,我觉得我爸妈这个道理懂的很好。
张小珺: 那你比较叛逆是吗?
姚顺宇: 我觉得我是,比较,我个性是,我很care我想做的事,如果这件事是我自己想明白了要去做,你就别拦我,然后我也一定会尽最大努力做到最好,但如果这个事我不想干,逼我干也没用,我也不会干。
张小珺: 你的胜负欲强吗?
姚顺宇: 挺强的,对但我觉得我更多的是在跟自己较劲吧,不太愿意和别人较劲。当然就是,如果正好是我觉得这事儿很重要,你也觉得这事儿很重要,那我肯定是要干得比你好。
张小珺: 好那你到了清华就更神了,去学的量子物理,为啥呀?
姚顺宇: 对,我当时做那个凝聚态理论,为什么选这个专业——阴差阳错。现在回过头来说,当然能编造出一些听起来很合理的理由,但是摸着良心回到当初,我觉得就是阴差阳错。
就是当时我们在机科班,然后机科班有一个非常好的传统,就是首先机科班它虽然在物理系,但不限制学生干什么,机科班实际上2/3的学生都不会做物理。对于然后它另外一个好的传统是,它鼓励学生在实践中学习,所以它鼓励学生尽早的去进到科研的实验室里去,然后在科研中学习。
然后我当时想很想做理论,是因为觉得这个难吗?感觉就是你对难有一种着迷,可能也是一种病,我之后可以再讲讲这个病带来的不良后果是什么。
然后老师就推荐说哎,高等研究院是个很好的地方,清华高等研究院,就是杨振宁先生创立的那个研究院,是个很好的地方,然后我就去那找老师,然后正好有一个那时候还很年轻的老师叫汪忠,是我本科的老师,那时候他也没几个学生,然后我俩就聊,我当然啥也不懂,但他还挺耐心,还给了我一些这个paper让我去读,然后读了我就跟他讨论。
后来又发现凝态理论,尤其当时做的那个方案,就是跟拓扑绝缘体然后这些比较相关的方向,其实是一个很适合本科生上手的方向,就是它需要的背景知识不太多,只需要你可能懂最最基本的就是量子力学、统计力学、固体物理,也就是非常非常容易学的基础知识,但是它可能很考验你对这些知识理解的深度。所以对于本科生来说,其实是一个特别好的方向,就是你能够很快的上手,去做一些实际的项目。
然后我们就一块做了一些工作,其中有可能在开放量子体系里面的那个工作,现在看来还是一个挺重要的工作。从某种意义上来说,我觉得现在回头来看,做那个工作,做那段时间的科研,其实和现在做AI特别特别像,就它更多的是你有一个想法,你有一个理解,然后你可以在那个阶段做一个数值的实验,去验证你这个想法和理解是不是对的。AI也是这样,AI也是你有一个想法,你有一个理解,你去设计一些实验,验证你的理解是不是对的,然后你设计一些模型上的训练的这个pipeline(流水线)来把你的想法实施出来。
张小珺: 能不能讲讲你这个非厄米系统的研究?
姚顺宇: 啊可以讲,我尽量说人话,但是也有可能实际上说了鬼话,所以要是不想听的人可以跳过。
非厄米系统是这样——量子力学一个最基本的假设是,一个孤立系统,它的演化被幺正演化所描述。幺正演化的意思就是,它是一个线性的过程,然后这个线性过程它可以被一个算子,叫做哈密顿量来描述,哈密顿量从某种意义上来说,有点像这个体系的能量,但不完全是,就是有点类似于这样,它决定了这个体系随着时间的演化。然后如果是一个孤立系统的话,这个哈密顿量会是一个厄米的矩阵——厄米的矩阵就是你转置一下然后做一下共轭,它和原来是一样的。
但是呢,真实的系统绝大多数都不是孤立系统,比如说你,我作为人,肯定要和外界有信息交互,有物质的交互,材料也是一样,就是你一块材料放在那,除非你抽特别特别真空的,你总得和衬底有交互,你得和外界环境有交换。所以真实体系绝大多数时候都不是孤立系统,然后孤立系统它就不会被一个幺正的过程去描述,然后它所对应的哈密顿量也不会是一个厄米的哈密顿量,就是这个非厄米这个词的来源,它本质上是为了研究开放量子系统,就和外界有交换的量子系统它的行为。
然后当时发现一个很困惑的事,我们一开始是试图研究这个开放量子系统里的一些拓扑现象,然后就发现手算出来的这个理论的结果,和数值死活也对不上啊。更确切地说,就是手算这个结果是假设了这个体系是一个周期的边界条件,比如它在一个环上,或者在一个轮胎的表面上,然后数值的话就会,因为和实际的情况比较类似嘛,它就会算一个开放边界的,比如说一个方块这个材料上的行为,就发现这两个结果死活也对不上。
然后就试图理解这个事,后来就发现,大家过去用来描述厄米系统的一个基本的范式,就是所谓的这个布洛赫波,就假设物体的本征态都是一些波的线性组合,这个正弦余弦波这种波的线性组合,这个假设其实在非厄米系统里面会break down就是会变成错的。事实情况就是,后来我们就发现,在非厄米系统里,其实它的能量的本征态都会有可能聚集到这个体系的一边去。对然后我们就系统地建立了这套描述的方法,然后就是建立一套体系,去描述一个开放边界的非厄米系统,它的本征态该怎么去描述,进而描述它的一些随时间演化和一些动力学。
这个是当时这份这个工作,然后后来就有很多,因为它其实是一个范式上的更新嘛,所以后来就有很多follow up的工作。但是后来其实我换方向了,所以就没有太在这个方向继续做了。
张小珺: 你为什么不沿着它做?很难抓住一次范式的变化是不是?
姚顺宇: 很难抓住一次范式的变化,是的,这就是人性的弱点。就是我感觉,我总爱挑战一些自己不会的事。我不知道我当时的感觉是,在那个方向可能那个工作从再过几年回头来看,就会是这个方向最重要的工作,后面你再去做一些工作,可能确实会让你更有名,获得更多的引用,写更多好的期刊的文章,找到一个好的教职,但是感觉作为一个科学生涯来说,就没那么令人激动了,所以我当时就想换个东西做,换一个自己不太会的东西做。
然后所以就读博士的时候就换了一个方向,去做高能理论。
张小珺: 高能理论物理,对。所以你本科和博士也是不一样的,还不是从物理跳到AI,其实你本科和博士看起来都是物理,其实方向也已经发生了很大变化?
姚顺宇: 对,是两个几乎没有任何联系的方向。这是你的什么人性?我觉得就是,说难听了就是爱折磨自己,说好听了是挑战自己。嗯,被折磨开心吗?我觉得如果为了被折磨而被折磨,那这个人就是有心理疾病。但是如果一个人是为了学习更多的东西,丰富自己的经历和能力而被折磨,我觉得是值得的。
张小珺: 你本科那个老师,汪忠老师也是个underdog是吧?
姚顺宇: 不算哈哈哈,人家做的挺好的。他很年轻,但是他,我对他的印象一直都是他是一个很sharp的人,就是很能看问题,试图理解问题,理解很清楚的人。确实可能不像很多老师那样是很有名气,在社会上或者很光彩夺目,至少那时候不是,现在已经很有名气了。但是我觉得从能力上来说,我觉得他是很强的。
张小珺: 他对于你博士换方向说过什么吗?
姚顺宇: 没说过什么,我觉得他是一个不爱干涉别人的人,我不知道他内心是怎么想的,但是我觉得他是一个不爱干涉别人的人。
张小珺: 诶,量子物理整个是一个什么样的世界观啊?
姚顺宇: 我觉得最大的区别就是,和经典物理有很多很多不一样的地方,但是我觉得它们两个是一个对应的概念,经典物理和量子物理他俩是一个在不同能量和时间或者空间尺度下的理论。就说本质上我们这个世界都是量子的,当然就我们现在,也不知道比更小的尺度上会是什么,比如说弦论是一个想法,然后量子引力也是个想法之类的,对但那些都没有办法验证。被验证的小尺度上的有效理论就是量子物理,当然这里面包括量子力学和量子场论,然后经典物理是,当你所看的这个空间尺度比较较大的时候,这个量子物理会慢慢慢慢退化成经典物理,其实它更多的是在不同尺度下的有不同的有效理论。
张小珺: 讲到量子物理,有几个词好像是相关的,比如说蝴蝶效应、比如说量子纠缠,你能不能讲讲这些?
姚顺宇: 量子纠缠确实是一个大家比较耳熟能详的量子物理比较独特的事情。很简单——我有两个粒子,比如它属于一个纠缠态,然后我可能它们实际上相隔很远,但实际上我可能对其中一个做一些测量或者微扰,它也会影响到另外一个的状态,这个是真实存在的。
什么样的会有量子纠缠?其实有很多,实际上当你足够看得足够微观的时候,绝大多数的粒子可能都处于纠缠态。你可以,比如说制造一个自旋和另外一个自旋,你先把它俩靠在一块儿,然后把它俩坍缩到一个纠缠态上,然后你可以把其中一个拉得很远,后来就成了一个纠缠,就是一个距离很远的纠缠态。
然后一般来说就是通过一些测量和演化算符的作用,能够把它制备到这个状态上,但是这里面难的其实是实验上怎么实现这个过程,因为每一个体系它其实都不是孤立的,你可能这两个自旋,你觉得哎,我这样子制备一下,不就到纠缠态了吗,但是实际的问题是,这两个粒子其实活在我们这个世界里,会不断有别的粒子撞它一下,或者外面的热量还扰动它一下,它一下就状态就没了,所以难的是怎么具体实验上去实施这个过程。
然后蝴蝶效应是一个另外的事,蝴蝶效应就是耳熟能详的部分,其实反而是经典物理。大家经典物理听到的蝴蝶效应就是那个著名例子,就是什么可能南美洲一个蝴蝶扑棱一下翅膀,半个月之后,什么北美洲刮了个台风。但是它从更数学的表述来说,它就是说在时间起始的时候,你如果做一个很少的很小的扰动,然后你去测量这个扰动产生的影响在未来有多大,你会发现这个扰动的变化是指数级变大的,这是它数学上对经典蝴蝶效应的一个描述。
但是之前大家比较费解的一件事就是,这个事情在量子体系里怎么可能存在,因为量子体系就孤立量子体系是一个幺正演化,它是一个很线性的过程,所以说从某种意义上来说,就是你如果一个状态就是一个矢量和另外一个矢量,开始的时候夹角不太大,那经过一些演化之后,这个夹角应该不会变。但是刚刚又说了,其实我们的世界是在微观是量子,然后在宏观就变成经典了,但它俩是一脉相承的,怎么可能这有那没有啊,这是大家试图理解的事。
后来大家就有一些更好的理解,就是说其实你讨论这个量子里面的混沌效应的时候,不应该讨论两个态之间的变化,而是应该讨论一些所谓的local observable(局域可观测量),就是局域的观测量的变化,那个其实是对应了经典物理里的你看到的那些变化。
张小珺: 那你读了4年的量子物理以后,你当时在想什么,你觉得物理对你的帮助是什么,在你大四要毕业的时候?
姚顺宇: 我觉得本科期间读物理最大的帮助就是第一,想问题要想清楚,就是读书不在于读的多,而在于读的深,你读的多不代表你能够发现新的东西,但如果你对一件事有和别人不一样的见解,那个才是对这个社会来说更有价值的事。
然后另外一件事就是,别太相信纯理论,因为得出了这个结论,因为当时那个事发现的主要原因,还是因为能做数值,就一开始是因为数值和理论对不上,才仔细的研究那个问题,然后发现了这个事。
张小珺: 那你博士为什么去读了高能物理,也是一个理论啊?
姚顺宇: 这也就回到了刚才这个话题,就是总爱挑战很难的事,有时候也是会带来一些不好的结果的。比如我就感觉,我觉得我这个博士就是对我自己来说学到很多东西,成长很大,但是于这个世界来说,没有产生什么贡献。就高能理论这个方向,就是足够难,非常非常难,然后但它不好的事情在于,它其实不是特别可以验证,没有什么客观的评价标准,因为高能理论已经发展到了就是实验完全追不上的这个阶段了。
张小珺: 它是怎么进步的呀,它的进步依赖于什么呀,如果不是实验?
姚顺宇: 一个进步的来源,是来自于数学上的自洽性。就比如说你提出一个框架来描述这些事情,那你能和现有的已经被验证的更低能标下的理论相自洽,比如说,你研究弦论,那可能自然大家问题就是,弦论能不能在低能情况下回到量子场论,进而回到经典物理,那这个自洽性是一个判定方法,我觉得这个是很合理的,就是很科学的一件事。
当然也有一些不科学的因素,就是当这个领域完全没有实验、没有客观标准的时候,肯定不会只有一个框架出现,肯定不会只有一个自洽的框架出现,这个时候谁做的好、谁做的不好,其实就依赖于领域内一些老登的主观判断。
张小珺: 你是被谁伤害了是吗?
姚顺宇: 我也没有被谁伤害,只是我在那个领域待时间越长,就越觉得这件事蠢,就是人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上。所以感觉是花了5年学了很多知识,买了一个大教训。这个大教训就是要做有比较客观评价标准的事,或者从另一个角度来说,就是要做对这个世界能够产生影响的事。
张小珺: 所以其实你本科还是比较顺利的对吧,在量子物理这个研究领域,很快,你很快就有了非常好的学术成果,而且是范式级的变化。但是你很快觉得没有吸引力了,所以你想在博士去挑战一个更难的事情,然后在博士期间其实是比较落寞的,至少从结果来说是这样的。外界看不出来,外界看都是非常光鲜的履历——博士在Stanford?
姚顺宇: 对,我觉得从实际的科研产出来说,我觉得没有人会说我博士期间的文章不好,但是摸着良心说,对这个世界有多大的影响,我觉得几乎没有,几乎为零。所以对我自己来说,我自己很不满意的啊。但是我觉得确实也没有不满意到说,我会担心有人说我在混日子,确实也没在混日子,就是你还是能达到所有的外界标准的。
达到外界的标准,或者达到一个小的圈子的评价标准,是像训练模型一样,就是一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的,就是其实你哪怕不认可这个标准,你是可以达到的。但是你还是知道你是不认可的,因为有时候你哪怕不认可,你达到了,我也可以蒙蔽自己就继续往前走,但我后来就发现我蒙蔽不了自己,骗不了自己。
张小珺: 是哪一年发现的?
姚顺宇: 我觉得可能从博士最后的两年吧,就会有这样的感觉。但是那时候确实也没有想好,没有想清楚如果不做这个该去做什么,那可能就花一些时间去了解一些不一样的方向,比如说一开始我可能更多的是去了解是量子计算或者量子信息这样的方向,然后拿了postdoc offer,就是博后的offer之后,感觉这个事更紧急了,因为在学校里的时候,你还可以一个学生的心态,离开学校之后就是自己的career(事业),你得给自己找一条路。
那当时就是觉得,可能量子计算和AI是两条我觉得给年轻人机会比较多的。
张小珺: 所以你博士后的方向是啥?
姚顺宇: 博后没有方向,博后其实就是理论物理这个方向,博后是一个很独立的职位,就是你自己想干啥干啥。它更多的是从某种意义上说有点像搞慈善,就是有一些可能不管是在意科研的国家组织还是个人组织,它会给学校捐一笔钱,或者给学校批一笔钱啊,学校用这笔钱来招一些博士后,在一个系里面就做研究,然后把自己的研究广泛的告诉系里的别的人,觉得它更多的是一种社会氛围的这种工作。
所以其实没什么限制,就是你其实想干什么就干什么。但是我其实也没做多长时间的博后,我实际可能到伯克利待了两三个月,但官方来说就只待了两个星期。官方来说是什么意思——就是我在入职之前已经去那了,因为我反正人就在湾区嘛,我在入职之前就去了,但是我入职之后,其实只待了两个星期就辞职了。
张小珺: 这两个星期发生了什么?
姚顺宇: 这两星期啥也没发生,我本来都不准备入职的。但是伯克利人就是太好,就是,没事,就是等事情定了再说,能来多久就得来多久。你告诉他们你其实在跟Anthropic谈?对,我告诉他们,其实我觉得我可能会去做AI了,我要不就别入职了,但是伯克利,我觉得就是湾区,这两个学校的老师都人很好,就他很照顾你,他就觉得你还没有完全谈定,那还是先把现在的工作先拿着。
张小珺: 你觉得物理对你后来做AI,有什么帮助吗?
姚顺宇: 我觉得硬实力上其实没什么帮助,就是纯工具性的技能上来说,其实从物理到AI的转化是非常非常少的。但是我觉得可能非要问的话,可能是性格吧,可能做物理人会更想刨根问底,更想理解一个事儿,然后更想做事很系统,因为我们习惯了这种很系统性的不管是做实验的方式还是做理论的方式,所以我觉得这个可能是一个比较好的地方。
但是我也不觉得这个事是做物理人独特的,就是我认识很多做计算机的人也有这个特性,那很多学化学的人也有这个特性,学生物也有这个特性,所以我也不觉得它是做物理独特的。对但事实上就是可能比较有趣,就是这个领域里面确实有很多,尤其就是语言模型这种比较large scale(大规模)的这种AI,确实有很多物理出身的人,然后做的很成功,对尤其Anthropic这个公司。
张小珺: 很多人在描述这一代AI的时候,都会说是黑盒,你能用科学的角度来理解一下这个黑盒吗?
姚顺宇: 我觉得,这世界上所有东西都是黑盒,就是哪怕像物理这种大家觉得很理解的东西,其实也并不是真的有一个从它微观的行为一路演化到了宏观体现的这种理解,像不管是量子力学,还是量子场论,其实都是描述那个能标下的行为,本质上这个系统还是一个黑盒,你还是不知道它最微观的地方是什么样的动力学。
AI也是一样,就是黑盒不黑盒其实都是一个相对的事。我们确实对语言模型没有理解到神经科学手术刀级别,就不是说我理解这个行为能理解到,说这个行为是由于哪一个neuron哪一个人工神经元的哪一个激发产生的这个行为,没有到这个层面理解,除非就是在一些很稀疏很小的这个网络里面,就是像Anthropic,有这个所谓的Interpretability可解释性团队,他们可能会做一些类似的工作。但是在实际能够使用的语言模型里,都没有达到这样的理解。
但是也不代表我完全没有理解,比如说Scaling Law,它就是一个描述了那个尺度下模型随着模型大小和数据是怎么在perplexity这个指标下变得越来越好。所以你说是完全没有理解吗,那如果说Scaling Law不算是理解的一个小部分的话,那是不是我们也说,我们其实对这个世界也完全不理解,这个世界也是一个完全黑盒。
经验规律和科学规律它之间的界限是很模糊的,比如说,我们回头去看这种热力学的各种不一样的定律,第一定律第二定律,什么克拉伯龙方程,乱七八糟这些东西,在当年被发现的时候,也都是经验规律,但是只是说后来随着时间的发展,我们慢慢知道了它的微观机制,那它可能变成了一个科学规律。
张小珺: 能不能用科学的表达来解释一下所谓的智能涌现?
姚顺宇: 首先这个话就不太科学,所以自然也没有办法用科学的话来表达一个不科学的事。智能涌现对我来说它更多的是一种主观的感觉,而不是一种客观现象。就是当很多人说智能涌现的时候,他脑子里想的可能是以前的语言模型只能做某一个方向的事儿,比如只能翻译,只能做分析,只能做什么,但现在模型好像可以做所有的事儿。但是这个事儿,对我来说,它更多的是一个技术上的涌现,而不是一个行为上的涌现,是说我们通过研究,发现了该怎么去做这种大规模的训练,然后能够水平的提升所有能力,我觉得这个是一个更本质的事儿。
至于智能涌现这个事儿,每个人可能心里的定义都不太一样,对我来说就是没定义。唯一质的区别就是,有没有发生一个技术上的改变,使得我们可以做scale up,可以水平的提升所有的能力,这个对我来说是一个良好定义的事。
张小珺: 你最后是在量子计算和AI之间选择了AI,这个是怎么发生的变化?
姚顺宇: 对我觉得还是花了一些时间去了解两个方向的瓶颈在哪,我觉得好处是他们都给年轻人机会。但是量子计算对你来说,好像是离你的主线更近一些?
哎这就是为什么要去了解一下细节,因为了解细节之后发现不是的,是反过来的。因为量子计算,我觉得它现在的主要瓶颈其实在实验上,并不是你怎么去设计那些算法或者设计那些算子,更多的是你怎么在实验上实现它,那个事反而是和我过去很多有兴趣的事,其实是比较不相关的。
然后反而跟我相关的事儿是更多,像AI,就刚才说的就是更多的是你有一个想法,然后你可以用一些数值去验证,这个数值在AI里面,可能就是训练一个模型或者怎么样。然后这个反而和做物理很像啊,它甚至是,就是为什么,我之前一直爱把这个和18世纪的这个物理学做比较,就是它更像那个时代的物理——就是那个时代理论和实验不分家,没有什么理论物理学家、实验物理学家,你就是搞物理,你自己可以做实验,然后也可以做理论推测,我觉得AI就有点像那个时代。
所以其实从理论物理跨越到实验物理的距离,比你直接跨到AI要远,而且从兴趣上来说也更远。
张小珺: 那你是怎么去面试Anthropic的,你这个Anthropic的历程是怎么展开的?
姚顺宇: 我觉得其实主要还是因为有前同事在Anthropic,就是Anthropic其实有很多做物理出身,尤其是做理论物理出身的人,因为Anthropic的创始团队里面,其实有当时有三四个比较比较技术的人,然后其中有两个,现在还很在技术一线领导的人,他们俩都是做物理出身的,然后他们可能招的一些人,也是做物理出身的,所以就这样一直延续下来。但其实到现在这个阶段,就在我之后,其实也几乎没怎么再招完全没有AI背景的人了。
我反正是当时我决定去做AI了,所以我就试图去联系一些地方,然后你只找了Anthropic吗?没有,我还找了OpenAI和GDM,就Google DeepMind,但Google DeepMind因为它那时候速度太慢了,所以最后没有出现在考虑的范围内。但是后来显然,Gemini这个事就获得了长足的提升,后来动手就非常快了。
然后OpenAI也联系了,但是OpenAI可能没有找到特别合适的事和人。然后Anthropic是因为我当时联系了,后来就是,我的第一任manager,他以前也是做这个理论物理的,然后他当时就说,我们在尝试做强化学习,尝试做这种大规模强化学习,有很多科学问题要去理解。那个时候24年八九月的时候,强化学习还没有像现在这么成熟,那时候大多数人其实都不太知道怎么做,因为o1其实还没发布呢,那时候大家都知道有,但是大家都还没看到结果。但Anthropic当时其实大体上知道,但是有很多细节需要仔细去研究。所以他就跟我说哎,有这么一个事,你要不要来面试一下,然后我觉得哎,可能是一个好的机会。
张小珺: 你当时怎么认知强化学习啊?
姚顺宇: 没认知哈哈哈。我大概知道pre-train、post-train这个流程,但我其实不太知道具体的这种工业级别的语言模型是怎么训练的,只能知道就是像学术界是怎么训练的。所以其实现在谈那时候的认知,在我现在看来就是没有认知。
张小珺: 怎么准备的?
姚顺宇: 我当时跟谁面,Anthropic后来我的一些同事当时面的,然后面试题也不太难,但是对我来说,我当时也不知道怎么准备,我就去把我能找到的那些课,自己能学的学了一遍,然后能做的作业做了一遍,然后自己手搓了一套,就是那个Andrej Karpathy,他有一个著名的那个项目叫nanoGPT,就是他有一个可以在一个Google Colab Notebook里面就能训练一个很小的GPT模型,然后我就手搓了一下那个,然后就去面了,然后很快拿到了offer。
张小珺: 然后你第一个方向就是大规模的强化学习?
姚顺宇: 也当时其实是有两个组来跟我聊,一个是做evaluation就是模型评测,然后另外一个是做强化学习,我是选择了强化学习。当时Anthropic也不像现在是一个大公司了,那时候公司其实也很小,我去的时候,我们的那个大的team才只有10个人左右,或者11个人。
张小珺: 大team叫什么?
姚顺宇: 叫Horizon。对然后那个时候那个大team也就是,这个大team的平行team有什么,那个大team其实后来几乎就是强化学习的方方面面都在这个team了。对但那时候,他的整个大组,就是一个强化学习整个大组,首先这个创业公司,你也很难说这个组的目标是什么,因为他可能曾经也有过很多不一样的目标,但只是那个阶段,可能主要的目标是做强化学习。对,然后当然底下也有做更数据的组,更做环境和infra和基础设施的组,也有更做这种research和算法的组,然后我去的那个组,是比较偏research和算法的组。
张小珺: 那时候Anthropic多少人?
姚顺宇: 啊,那个时候可能七八百的样子吧,总共七八百,对。
张小珺: 你一进去对这家公司印象是什么呢?
姚顺宇: 我觉得我对Anthropic的印象其实还是挺consistent(一致)的,就是我觉得进去之后,这家公司的印象就是执行力非常强,就是它其实是一个比较top down(自上而下)的公司。很多事情决定了之后,就会全力去做,然后公司其实员工之间的氛围也很好,就大家都不会藏着掖着,然后尤其刚去时候很小嘛,所以就是大家也都认识,所以就氛围很好。
然后我觉得,如果是做只是做语言模型相关的事的话,其实现在回头来看,那是一个非常非常好的学习机会,就是你能够接触到这个模型训练的方方面面,然后都能找到对应的人去问。
张小珺: 那个时候的Anthropic已经有了,现在我们都知道,他那个非常坚定的bet了吗?
姚顺宇: 有的,有的,这个bet来自于哪里,为什么会有这个bet?我不知道它完全的来源在哪,我自己能看到的一个显然的来源,就是前一代模型Claude 3放了之后,Twitter上有很多人在讨论说,那个Claude 3好像写code比GPT-4强啊,那个年代GPT-4还是一个和大家gap很大的模型,所以能有一件重要的事比GPT-4强,就很厉害了。是试出来的,我觉得至少是其中一个原因,就是很快的对这个市场做了反馈。这也是我觉得这公司很强的一点,就是它execution执行力非常非常强,一旦给它一个信号,让它觉得是很reasonable(合理的),这公司该做的事,那就会铺上去,它没有那些大组织那种冗余。
张小珺: Anthropic作为一个公司来说,它能够实行这种就是比较top down的机制,是一个很独特的事,可是这对于其他模型公司很难吗?
姚顺宇: 很难,比如说OpenAI就干不了。实行top down其实有有一个很难的点,就是你做技术的决策人,必须也得是公司本身的决策人。首先就是你技术上得能服众,那下面的研究员才会信服去做这个事,另一方面就是你得是公司的决策人,你得能为这个公司负这个责任。那Anthropic有这个条件,就是说它的技术上的leader的领导人,其实是公司的cofounder,是Jared Kaplan和Sam McCandlish啊,然后像他们俩就是公司cofounder,他们自己做这个决定,那是人家的公司,所以他有权利做这个top down的事。
张小珺: 那Dario作为CEO,他会say yes和no吗?
姚顺宇: 我不知道他们决策层的讨论里面,对我当时的工作来说,我接触的最多的就是Jared。
张小珺: 可是这对于其他模型公司很难吗?
姚顺宇: 很难,比如说OpenAI就干不了。Ilya在的时候难道不行吗?Ilya在的时候有可能可以,但是Ilya后来一方面,我也不知道因为什么原因,他好像就是失去了这个做决策的能力,然后他就走了。其他公司我觉得都比较难,就是Gemini也比较难,但是我觉得Gemini就是另外一套打法,不太一样。
就是我觉得就是大公司和startup,它打法本来就不一样,因为startup重要的是make bet,就是我得我得赌一件事,如果想要赌,就意味着有风险,所以就意味着我能够去很快的做一些决策,然后很强力的推进一些决策。那可能在这种情况下,top down我觉得是一个很有优势的事。
所以我觉得Anthropic从组织上来说,是比OpenAI更有优势。但是作为大公司来说,它可能就是另外一套想法,因为大公司的想法可能是,我不仅能尽量减少做赌的成分,而是我能在方方面面都有储备,然后任何一个事成了我都能跟上,然后如果有事我自己做成了,我可能还能领先,这可能大公司的心态。
所以说在Gemini,Google是一个很传统的就很bottom up的组织,就是公司层面可能有一些比较良好定义的框架来看你的工作是好是坏,来引导你做一些公司需要的事儿,但是本质上还是你自己来决定自己做什么。
张小珺: 所以你觉得Anthropic能make bets,是因为它的独特的文化、组织和文化,这个听起来其实应该是其他公司也能做的,但是却非常奇怪的发现,其他公司很难做,而Anthropic可以做到?
姚顺宇: 对,我觉得还是需要技术的,或者公司的leader有公信力吧,这个其实挺难的。你说的还不是CEO有公信力,是技术的1号位有公信力?对对,我觉得技术的1号位有公信力很重要,但是与此同时,CEO可能没有成为一个阻力,这个难吗?
啊这个我觉得就得看你这个cofounding的这个team,有没有足够的互相信任。我觉得Anthropic这点也是在startup里很强的,就是他cofounding team,没有一个人离开公司,他们,如果你看他们过去,那是一群真正一起打过仗的人,他们源自于,他们都是以前OpenAI的员工,然后他们甚至好多人都是在一系列关键的文章上的合著者,因为你像Scaling Law这个paper是Jared Kaplan,然后Sam,然后当然还有Dario,然后还有一些,可能Tom Brown也在吧,我不太记得Tom Brown在不在,然后GPT-3的paper就是Tom Brown在,然后Benjamin Mann在,然后Jared Kaplan和Sam也都在,Dario也都在,所以他们是一块趴过战壕的人,我觉得互相之间的信任还是很关键。
张小珺: 你加入Anthropic,公司正在做的最重要的项目是什么,你参与到那个大项目里面了吗?
姚顺宇: 对,就当时做就是为了做大尺度的强化学习,然后能够用它来提高coding的能力,这个就是当时最重要的事。然后我们当时做这个,这个组当时的研究重心就是这个事,这也是这个组为什么后来就慢慢变大,然后变得越来越重要的原因,然后最终带来的结果就是,就是大家一块train了这个Claude 3.7这个模型。
张小珺: 哎,你说内部叫有一个3.6,这个是?
姚顺宇: 不是内部叫,就是外界的。Claude 3.5其实有两个版本,一个可能是6月的版本,另外一个10月版本,然后你也可以看出啊,Anthropic这个公司,曾经也是没啥产品能力的,居然管两个模型叫一个名字。所以后来外面人为了区分,管那个3.5后面那个版本叫3.6,所以Anthropic跟随着外面的这个习惯,就叫3.6了,管这个再新的模型叫做了3.7啊,所以就是你去看实际的这个公司的产品时间线,其实是3.5、3.5new、3.7。那个时候的Anthropic可能真的是没有什么产品上的想法。
张小珺: 所以你第一个项目是3.5new还是3.7?
姚顺宇: 3.5new我其实没参与,几乎没参与。但是3.5new就已经看到了coding的迹象。就已经看出Anthropic的模型,在agentic coding会比别的模型强了,这个是为什么?不能说哈哈哈。
所以你进去的时候,刚刚好就是他们知道了这件事情,就是管理层也知道了这个迹象,对然后他们要make bets的时候,你这个运气很好啊我觉得。我觉得,我觉得我进去的时候是,大家肯定已经看到了这个事儿能做成且重要,但是不太清楚怎么去把它做成,然后我去的时候,是跟大家一起去研究怎么把它做成。
张小珺: 对,所以方法是大尺度的强化学习,这里面有什么knowhow啊?
姚顺宇: 有好多NDA(保密协议)的内容呢。原则上来说,员工是不能在在职期间和离职之后透露任何跟公司内部相关的信息的,当然实际上来说就是,大家可能心里都有一个度,就是说如果这个技术没有公开的话,肯定是不会公开去谈的。
但是我觉得,把简单的事儿做的比谁都干净,是最关键的。什么叫干净啊?就是说,我觉得有很多花里胡哨的技巧,比如说做强化学习,最简单的algorithm(算法)就是Policy Gradient(策略梯度),但是不代表这是唯一的algorithm,它还有别的算法,比如说各种复杂的这种搜索算法之类的东西。但是,是不是这些复杂性是必须的,然后这些复杂性可能给你带来了一些efficiency,也就是效率上的提升,但它可能给你带来一些,比如说基建infra上的困难,那你怎么去trade off(权衡)这些事,这些事其实做研究需要去理解的。很多的knowhow其实都是在这些细节,怎么去处理这方方面面细节。
张小珺: coding很重要,在当时,对于Anthropic来说,它认为是大语言模型的一个分支?
姚顺宇: 我觉得每个人可能想法不一样,对我来说,它重要的原因有二。
一个原因呢,是Anthropic一直在讲的事,就是说coding本身,也是做语言模型研究的一部分,如果你能够把coding做得很好,那可能会让你的研究效率有翻倍的提升,就是形成一个研究上的飞轮,这是一方面原因。
另一方面原因,是因为coding其实是模型使用工具和环境交互的一个很好的抽象。这个抽象的好处在哪,比如说这个回归信号清晰,然后数据充分,然后其实你是很难在别的场景下找到,能同时有这两个特质的使用工具场景。所以对我来说这是一个好抽象,在这里面做的一些研究,可能是对更通用的那些使用工具和环境交互的能力的,一些有用的lesson有用的课。
张小珺: 那时候Cursor是什么状态啊?
姚顺宇: 那时候Cursor还是一个纯产品公司,我觉得从某种意义上来说,好像在我去Anthropic这个之前的那段时间里,Claude和Cursor都属于比较underdog的状态,然后somehow在3.5new就是外界的3.6这一代的时候,首先是这个模型能力上去了,然后Cursor又发现,这个模型真的能够做这种Agentic coding的工具了,它就是一个壳,但是这个壳包着这个模型,一下子让那个软件工程那个圈子,体会到了——哎,这事好像是真的是效率工具了,所以后来就是这个一下就起来了。
张小珺: 那时候Anthropic就意识到Cursor是未来的竞争对手?
姚顺宇: 那就不知道了,该问Dario哈哈哈。
张小珺: 3.7是怎么做出来的?这个是一个分水岭,对于Anthropic来说,是一个分水岭式的模型?
姚顺宇: 我觉得对于Anthropic的后训练来说,是一个分水岭。就是在3.7之前,后训练都是处于一个比较小规模,然后可能就是修修补补模型的这种一个状态,大家不重视后训练是吗?也不是不重视,就是一开始大家其实很长时间,大家都没有搞明白后训练该怎么scale up。
但是在那个阶段,不管是OpenAI还是Anthropic,还是包括像中国的DeepSeek,他意识到了这个事该怎么去scale up——就是你得找到合适的环境,这个环境它的回馈信号足够的清晰,这个环境本身也是一个很强的数据源,然后在这个上面其实能让这个训练非常稳定,这事就能做成。
我记得那个时候,其实大家都不知道OpenAI的保密项目是什么,就知道它叫草莓,叫Strawberry,然后大家觉得会带来一个新的范式,新的范式就是后训练强化学习,但是更多的就不知道了。
其实我觉得我去Anthropic的时候,大家已经比较清楚这个事该大概该怎么做,就是大概的这个方向是怎么做。然后当然后来随着我对这个领域知道越来越多之后,我就发现,其实那个时刻,其实OpenAI做的方式和Anthropic其实还是差别挺大的,就具体这种算法和使用数据的方式,其实是不太一样的。虽然都叫后训练和强化学习,但是当然就是我觉得那些不是本质区别,就大的方向来说,它们是同一个,就是找一些这种很回归信号非常清楚、非常客观,然后数据本身又比较干净,然后对模型来说是可学习的,然后在上面做稳定的强化学习训练,大的方向来说都是这个方向,但具体实现其实是差别比较大。
然后那时候OpenAI的目标也不是coding,当时我了解到的叙事是说,预训练作为第一个范式,已经金矿快挖完了,所以我们现在开启第二个金矿,就是后训练和强化学习,然后来让Scaling Law继续。我觉得很长时间,OpenAI都是这个这个想法。
在3.7那个时代,我其实也曾经抱过这个预训练已经快party is over(狂欢结束了)的感觉,然后当时在做这种3.7相关的实验的时候,我当时也曾经抱过这个想法,但是后来随着了解越来越深入,我就发现,其实还有做的空间的啊,然后预训练Scaling Law这个事,它也不是告诉你要一直变大啊,它其实本质上是一个很系统的框架,能够告诉你做什么样的事是更有效的。
张小珺: 然后从3.7到4.5又发生什么呢?
姚顺宇: 这个预训练和后训练都有,然后当然就是一个scale up上做的更多了,然后不管是data还是训练的这个算力都更大的尺度了,但是我觉得从范式上来说就没有特别特别大的改变。
张小珺: 到你离开Anthropic时候,他已经多少人了?
姚顺宇: 接近2000人了吧,扩了一倍多。所以你在Anthropic时期,刚好是他就最剧烈转变的一个时期,我可能就是踩在了它还是个小公司的尾巴,其实我觉得进去之后过了可能三四个月这个公司就已经开始,人一下就变多了。
张小珺: 文化有变化吗?
姚顺宇: 还是经历一些比较混沌的阶段吧,然后尤其可能就是在我离开的那段,快离开那段时间,我觉得文化上还是经历了一些一些混沌,因为从外面啊来了一些人,可能跟本来的文化有些冲突。之前的文化是,我觉得之前就是比较简单,对,就很简单,就是它更像是一个小作坊,大家都是朋友,然后大家都知道对方在干嘛,然后也没有人特别特别会就是做过多的这种个人宣传,也没有人做没有用的事,大家都是有很多事要处理,然后公司那时候可能紧迫感也更强一些吧,然后后来可能就觉得人多了嘛,这样的文化肯定会受到一些冲击。
带来了什么风气啊?我觉得确实有一些人我个人不是很喜欢,当然不代表他们真的不好,就说我个人不是很喜欢,就是可能我不太喜欢在这个领域里面说很多话的人,就是那个我觉得idea is cheap,想法是便宜的,很多想法其实很显然所有人都知道,难的是怎么把实现,怎么把它变成一个一个小的可实现的步骤,把它做出来,我觉得我不太喜欢那些一天中很多时间花在Slack上在那讲一些大道理,我觉得就是没啥用。
张小珺: 你后来为什么突然离职了?你是完成了什么阶段性的工作吗当时,酝酿了多久?
姚顺宇: 当时我觉得可能酝酿了一两个月,一个多月吧。一个方面是,我其实不是太特别认同Dario反华这个事,啊,我觉得他作为一个公司的CEO来说,对他个人来说,他做什么样的观点我觉得都无所谓,但是作为一个公司的CEO来说,我觉得把这个观点推到这么极端的地步,是一个非常情绪化的体现。对然后这是一个比较小的原因。
但大的方面,有很多公司,就刚才说的,公司的文化上有些冲击啊,然后包括我自己,可能也想去学些不一样的东西,就说Anthropic它毕竟非常的专注,如果你很想做和语言模型相关的方方面面,然后做这种使用工具啊这种Agentic,然后coding这种事,那在Anthropic其实很好,能学到很多东西。但是Anthropic有很多不做的事,比如说Anthropic完全没有人做这种多模态生成,你想学没地儿学;然后Anthropic可能也没有花太多的精力在这种更底层的工程的基础设施上。所以可能想要学习更多的东西,也是我当时离开的一个动力。
张小珺: 反华占百分之多少比例?
姚顺宇: 因为Dario的个人原因,我在公开场合说40%,但是这个数字反正就是听听就好,这个数字就是告诉你,它不是主要原因,但它确实是一个很大的原因,就没有控股,不是个控股原因,但是是一个majority holder(多数持股人)的原因。
张小珺: 你这个选择也很神奇,因为大多数人在一个它还是一个underdog的时候加入会更有感情,会愿意陪公司走更长时间,但你反而跳去了Google,因为很多研究员一进Google,他会觉得Google给的scope(管理范围)不够,所以他会反而想跳去像xAI或者Anthropic这样的更小一点的组织,你这个行动好像也是反的?
姚顺宇: 对,我觉得其实取决于你自己想要的是什么,如果你很想要的是我有一个很明确的scope,然后这个事和我的最后产品的模型息息相关,我一定要把我其中的一个想法送到这个模型里去,那可能Google是一个很差的地方,因为毕竟有那么多的研究员,有那么多已经成熟的组织,做这件事情是有很复杂的这个过程。
但是我觉得Gemini,如果你想要的是你有研究的自由,有探索的自由,然后想去能从更广泛的人类学习,我觉得这个世界上,可能找不到第二个比Gemini更强的地方。本质上还是取决你要自己想要什么,我觉得很多人离职,不管从哪离职,换到另外一家之后,可能会觉得不开心的主要原因,是因为没想明白自己想要什么。
张小珺: 你不追求impact吗?你也个说这个,现在这个AI是一个非常大的系统,然后是一个很大量的人协作的一个东西,你在里面追求什么?
姚顺宇: 我觉得分阶段,就是我觉得在Anthropic,经历了太多这个和产品息息相关的事之后,我可能也想给自己换个脑子,去学习一些不一样的东西。但是你说有没有哪一天,我可能又换回这个脑子,又想去产生一些产品的影响力,也是有可能的。
产品影响力怎么量化?不好量化,就是我觉得因为发论文的时候还是有一作,这种作者主导作者,现在呢,其实没有办法量化,这也是为什么我觉得在这个时代,其实谈每一个人个体的影响,是一个很虚无缥缈的事情,觉得本质上还是这个组织做了这样一件事,或者这个世界需要这样,所以产生产品impact是个主观感受,在模型侧至少是这样的。
张小珺: 3.7上你能描述一下吗,你做的什么样的技术性的工作对模型是产生影响?
姚顺宇: 主要还是跟Agentic coding的环境有关的工作,然后也有一些算法上,算法上主要是怎么让这个训练变得更稳定。说实话就是,我觉得算法上肯定是有一些提升,但是也没有达到特别理想的效果,说实话啊,比之前的算法肯定是要好的,对,但那个我觉得也不是我个人的贡献,我觉得也是大家集体的贡献。
张小珺: 对,我每次问你,你都会说这是集体的贡献。
姚顺宇: 嗯,不是一个个人英雄主义的时代。对,我觉得个人英雄主义时代,对于language model来说,可能过去了。什么时候是啊?就是在Transformer的那个时刻,就是在那个技术还没到scale up那个点之前,那找到了那个技术的人,可能是一个英雄,或者找到那个技术的一个小团体,可能是个英雄。找到那个技术之后,可能很长一段时间,从模型侧来说都是我觉得更多的是集体主义,就是这个集体能不能一起工作,能不能为了一个目标,一起花自己的时间,花自己的精力,这个是最最重要的事,而不是每一个个人提供了什么样的东西。
张小珺: 说集体主义的原因,是因为其实能力是来自于AI是吗?
姚顺宇: 说集体主义的原因,是因为我觉得AI这个方向本质上是简单,就是我觉得没有哪个,除了可能跳变那一下,那个idea可能是得有一些很深刻的洞见,在之后的那个过程中,很多想法其实是非常trivial(微不足道的),就是非常愚蠢的,就是谁都能想,谁都能干,只是你运气好,撞着这个机会去干了而已。
包括你在描述Anthropic做coding,好像它也是某种随机性,但是你要抓住它?对对,但是就是我觉得做coding,可能还比做模型侧的这些技术上的东西,可能还更稍微有点公司英雄主义,就是说你能不能足够快的赌这件事。那确实还是一个Anthropic很强,但如果今天没有Anthropic做,可能别的公司也做了,所以它都是AI在涌现能力,只是看你能不能抓住那个能力,不管是公司还是个体。
张小珺: 基于你的各种原因,在你离开,决定离开Anthropic那一刻,你对这家公司未来的预期是什么呀?
姚顺宇: 我觉得我离开的时候,我对这公司其实挺悲观的,但后来显然是我过度悲观了。为什么悲观?我当时悲观的原因是因为,我觉得我当时离开Anthropic的时候,Anthropic其实主要的收入来源都是API,就是卖Token,然后这是个差生意,因为这个生意只有对一个公司是好生意,就是Google,因为这个生意最后就是得打价格战,就是eventually(最终)就是要打价格战,打价格战你没有完整的这个链条是没有什么太多优势的啊。
但是后来Anthropic显然在产品方面就是我觉得确实有是有很多巧思,做了很多好的事儿,不管像是Claude Code也变得越来越好用了,然后Claude Cowork,然后和各种各样的这种和工作和效率相关的事情,都慢慢汇聚起来了。所以感觉它现在反而变得,你要问我OpenAI和Anthropic哪个会先变得没那么重要,我当时会觉得哎,可能是Anthropic会先变得没那么重要,但是后来首先OpenAI被Google揍了一拳,然后Anthropic自己又上道了,所以现在看来好像Anthropic更占优势一些。
张小珺: 你后悔过没有?
姚顺宇: 嗯,不太后悔,我觉得对我个人来说,我个人的动机还是想要去换一个地方提高自己,我觉得对这件,对于想做的这件事儿来说,这个选择没有什么错误。
张小珺: 你也提到Anthropic的产品有很多巧思,特别是今年,像Cowork这些,这个来自于哪里啊?
姚顺宇: 我觉得我没看到Cowork的发展过程,所以我不知道。然后Claude Code,我觉得人、产品,还可能,还真的是有一些个人英雄主义的机会,是研究员还是产品经理?Boris Cherny,那个我觉得Claude Code的几乎,至少这个事的开端吧,是他自己想要做这个事,提高自己或者同事的工作效率,最后变成了一个对所有人都会很重要的事。
Boris是一个什么样的人?我跟他没有太多的个人接触,我更多的只是看到他的工作,在公司的时候。他是个researcher是吧?对但他主要是在产品那边,所以Anthropic是有专门的产品部门的,以前没有分的那么开,后来有单独的,对。
张小珺: 那说说你到了Google DeepMind以后的工作吧,工作重心发生变化没有?
姚顺宇: 嗯,还是发生了一些变化的。我反正我自己主要在做ML coding,然后和一些比较long horizon的事,就是这两事。其实刚才都大概提了一嘴,就是ML coding,其实它主要就是想要实现刚才说的这个完整的AI自己训练自己的这个历程,那当然这个过程当中有很多实际的问题,有很多实际的细节要去解决,就是我觉得大的方向上来说,大家其实是比较有共识是该怎么去做,但是还是回到细节,细节上有很多要处理,比如说怎么样去选取合适的data,怎么样去还选取合适的回馈信号,以及它又带来新的基础设施的挑战,现在就是要把这些事情要慢慢摸清楚。
然后像long horizon,就是刚才说的另外一件事,就是想要能够实现,还是那句口号,train with finite but use as infinite,我觉得想要把这个训练的长度一直一直一直变长,可能并不是单个这个训练的这个语段的长度一直变长,可能并不是一个很现实的方案。但是很现实的事儿是,你如何在有限的context下去做更长的工作,其实你其实去想,人其实就是这个样子,人的context其实很短很短,你现在问我昨天晚上吃什么,我是一点也想不起来了,因为它对我现在这个场景来说不关键,就是我现在知道昨天晚上吃什么,又能怎么样,所以我选择把它忘掉,所以人本质上context是很短,但他能够选择性的遗忘,然后让他选择性的去retrieve(检索),就是去把这些重要的跟当前场景相关的信息再抓回来。
张小珺: 这两件事其实是有点相关,有点互补的,为什么?
姚顺宇: 这两个事,其实都在模型使用工具和和环境,以及不同的模型、不同的人交互的这个大的范畴内。在这个范畴内,大家就过去完成的那个节点,就是Agentic coding,就是又是工具又和环境交互,环境就是这个虚拟机或者你自己的电脑里做交互,然后这个事儿,其实它横向就会长出不同的使用场景,那做AI research,其实就是横向这个场景里的另外一个场景啊,这个场景,它其实不仅横向上是一个新场景,它在纵向上,也让这个事情的尺度变得更长,因为你可能完成一个代码的补全之类,是一个很快的事,但你做一个完整的AI研究,或者做一个这种计算机科学的研究,那是一个很长的过程。所以说,它其实就是像一个T字形一样,就是横向有延展,纵向也有延展。
张小珺: long horizon还是个科学问题啊?
姚顺宇: 嗯,有科学问题,也有工程问题。我觉得它的科学问题更多的是,怎么把不同的方案尝试一下,以更科学的方式尝试之后,来找到一条最后我们要走的这个方案。这个有哪些方式?
从有一些方案是从pre-train的角度,从预训练角度来说,有一些方案就是类似于这种稀疏的attention,sparse attention(稀疏注意力机制),那这个比如DeepSeek也有一些工作,然后学界也有很多工作。然后从后训练的角度,也有后训练的方案,比如说像外界,比如说你每天用什么Cursor这些,他们就是很强的context management(上下文管理),管理这个context能力,比如说它可以让这个模型去选择,我把这个中间某一段觉得不重要,就扔掉了,然后那一段重要就存在某个文件里,到时再取回来。
这两种大的来说,都有人在研究,当然它具体实施细节,是不止我刚刚说的这些例子,当然就每个公司还有自己的小秘密,然后我个人是比较花很多更多时间在后训练的这部分的方案上,因为首先我自己本来就没有花正式的工作时间在预训练上,预训练对我来说更多是一个就是兴趣,我想学习的事。另一方面是,我觉得后训练的这个方案,其实更符合我自己对这个事的理解,就我对这个事的理解,就说能不能用短的context去训练,但是能做长context的事,预训练这些方案其实本质上还是需要你有长context,训练它需要数据里有,对,所以说它不太符合我对这个问题的哲学。
张小珺: Gemini的长文本做得很好,为什么呀?
姚顺宇: 有些技巧,有一些让我很惊讶的技巧。哦,这是预训练的事是吧?长文本做的很好,一定是两边都有的,但是我只是说对我来说,预训练那边那个技巧还是挺让我惊讶的。
张小珺: 你加入Gemini的时候,感觉大家对Gemini的预期不高?
姚顺宇: 没,我对Gemini当时预期已经挺高的了。那个是几月?我是去年的9月底,那个是Gemini放Gemini 3之前。那个时候业内的人,当时对Gemini都还是印象不错的吧,就是我觉得之前一直觉得Google很有危机,在OpenAI的冲击之下,我觉得大家的感知可能在Gemini 2.5这一代产生了变化,因为2.5是一个明显你能看出来Google开始上道了啊,2.5是真的真的一代,就是我觉得开始有人开始用的模型,反正我自己其实也用过2.5用的挺多的。
你是看到2.5去的Gemini?我去Gemini跟这没关系,主要还是我知道Gemini它大概是一个什么样的氛围,就是有很多人在做不一样的研究啊,然后我也知道一些人,其实做研究很有意思,然后很多Gemini工程师,我觉得技术是非常非常非常强的,我觉得我是从他们身上学到了非常非常多。
张小珺: 你又赶上了到Gemini 3的那个转折点是吗,Gemini 3应该对它来说是一个很大的转折的一个时期是吗?
姚顺宇: 我觉得从实际的效果来说,我觉得是两件事让Gemini产生了一个大的转折,就变成了一个市场里举足轻重的player(玩家)的,玩家是Nano Banana和Gemini 3两件事连着。就是我觉得如果只有Gemini 3,可能也不会有现在这么好的效果,因为当你的市占率连10%都不到的时候,你这个模型好一点坏一点,其实等它传播出去就是太慢了。但是Nano Banana做到的一件事是,首先市场上这件事很爆很爆款,然后大量的人去下载了Gemini的APP,然后Gemini 3又紧接着放,把这个部分留下来了。所以,现在它变成了一个举足轻重的玩家,觉得可能就是没有Gemini打这么一拳,那其实OpenAI的位置很爽。
真正普通人用模型的时候,对模型的这个能力的感知,其实是很弱很弱的,绝大多数人甚至都不用o系列模型,绝大多数人都用普通的那个ChatGPT的,所以说我觉得对于Gemini来说,这个一个Nano Banana把量打起来,然后Gemini 3又把人留回来,是一个很关键的事。
张小珺: 它有事实上抢走多少ChatGPT的用户?
姚顺宇: 嗯,我不知道现在具体的比例,但是我的感觉是Gemini可能市占会在20%左右吧,但是我确实没有仔细去检查过现在的数据。
张小珺: 这是从事后归因来看这两个因素,共同促成了Gemini今天对于OpenAI的冲击,那你从内部视角肯定能更前置的知道,为什么就发生了什么,Google会有这样的变化?
姚顺宇: 对,我觉得首先就是Google的这个技术储备一直是够的,人够,一直是够的。然后组织上来说,后来变得越来越清晰了,就是有一个更好的框架来让大家干一起干这个事了,所以说可能会慢慢慢慢有些进展。
然后我觉得从某种意义上来说,我作为一个局外人,我觉得OpenAI是救了Google一命——就是因为大家以前一直都担心说,这个聊天机器人会不会完全把搜索取代掉,如果这个事真的发生了,Google其实很难受,但是好在呢,就是OpenAI先把这个事做了,然后让Google意识到了这个事很重要,但是它又没有把这个事做到底,又完全没有完全把search搜索干掉,可能就吃掉了一些份额,结果让Google自己把聊天机器人也追上来了,那现在难受就是它了。
张小珺: 那chatbot没有吃掉搜索,是因为OpenAI干的不好,还是为什么呢?还是因为这个干不掉搜索?
姚顺宇: 我觉得两方面其实都有,就是说首先,目前的chatbot这种交互方式,其实不会完全吃掉搜索。因为它比搜索强的一点,是说它有很强交互性,你可以追问,然后它可以帮你把一些很复杂的信息去浓缩,这是它很强的地方,所以这部分使用场景,它确实会把搜索的人抢掉。
但搜索里还有一些非常愚蠢的场景,就是你有一个特别简单的事,你根本不想浪费这个时间在聊天机器人身上啊,比如说我就搜买大米,我就一搜就完了,我还非得去问ChatGPT哪个好,然后它还在那转圈圈,圈圈转半天,然后给你个链接,你再一点,再跑到网页再去买,对吧,没有那个必要。所以说从事实的使用上来说,它目前的形态,并不足以把搜索完全吃掉。
然后当然从另一个角度上来说,它可能在聊天机器人这个事情上,也没有做到登峰造极,就它还真的让Google把它给赶上了。
张小珺: 现在还不算赶上吧,在产品上?
姚顺宇: 我觉得在产品上不算赶上,但是在模型上已经是赶上了。但是要投资人投OpenAI,他们会说,他们下注的时候,是认清楚OpenAI其实是个产品公司的时候,它的护城河其实是产品和品牌,那从今天来看的话,似乎Google还没有在这件事情上能够赶上OpenAI吧。
我觉得,这其实反正都是我作为一个局外人观察者的视角来说——Google传统上在产品就是有点慢,是一直都比较慢啊,然后所以,你说OpenAI会不会在产品上有优势,我觉得是有可能的。
然后Google特别擅长的一件事是什么,是找到一个极为简单的产品形态,大家都长一个样,它就疯狂给你卷技术,你就卷不过它。就那个事是Google擅长的,因为搜索引擎就是这样的一个事儿,搜索就是一个典型的,就是大家都是一个框,一个键,但它就是比你搜的快,搜的比你准,你拿它一点办法也没有。
张小珺: 所以它技术好的原因是啥?
姚顺宇: 我觉得还是氛围吧,就说是一个特别特别重视,以前就是特别重视工程师,后来就是特别重视研究的,这样一个氛围。所以它很适合那种通过技术能力溢出的产品,能力的产品。
张小珺: 那你觉得OpenAI的位置是稳固的吗?现在?
姚顺宇: 我觉得现在谁的位置都不稳固,我觉得就是AI的形态,还有很长的路要走,没有到什么终局之战的感觉。
张小珺: 感觉国内已经有点儿这意思了,对我不理解,我很费解,就是那国内觉得我们在争夺一个super app,super app就是此消彼长的呀?
姚顺宇: 我觉得condition on聊天机器人这个事儿,就把聊天机器人作为条件来构建,那可能可以争夺一下,但是问题是,你这个形态是不是super app那个形态,会不会别人哪天出了一个完全不一样的形态,然后你的功能变成了那个东西一个子集,这是很有可能的,我觉得没有什么不可能。
张小珺: 为啥chatbot不是那个终极形态?
姚顺宇: 我觉得在这个事上我确实没有什么理性或者量化的标准来说明,更多的是你觉得这个事很蠢,就是这个模型明明有那么多的能力,但居然用的方法是chatbot(注:本次视频录制于2个多月前,此时Agent的形态还未明朗),就是不太make sense。
张小珺: 那应该用什么去跟AI沟通?
姚顺宇: 没想明白,要想明白我就干了哈哈。
张小珺: 哎你没有告诉我,Google内部到底发生了什么变化,然后有了外界看到的模型能力的突飞猛进?
姚顺宇: 对,就是刚才说就一个,我觉得组织上更清楚了,然后组织上一旦清楚的话,尤其像预训练,现在变得非常非常清楚,就是谁负责什么事情,然后每一个点,每一个节点上谁是负责人,这些事情都很清楚。以前是混沌的吗?以前最早的时候很乱,我没有最早时候在那待过,但是就是根据同事,或者我以前认识的人的描述,以前还是更混乱一些的。
然后现在就是,至少预训练也是变得非常非常清楚,然后加上这个Google一直有的这种就是比较强的技术背景,然后它做事也比较系统,所以觉得预训练在Google是一个非常非常可控的事,嗯,可预测的事,你就能够知道,下一代不会差,哦,可能你还会知道它会有多好。
张小珺: 通过Anthropic这种自上而下的管理,它也不错。那Google是这种自下而上的,它依然是自下而上的是吗?
姚顺宇: 它比以前肯定要更自上而下了,比起最早的时候。但是它比Anthropic来说,还是更自下而上了一些,就好像不同的文化都可以,是吗?对,就是对于模型的训练,我觉得大公司有大公司的打法,startup有startup的打法。
现在我觉得Google更多的说是,像这种比较确定性的事,比如像预训练,已经是一个比较确定性的范式了,那可能Google就会更像,把它做成一个工程项目,Google的工程管理能力又很强,所以说它就能慢慢把它做好。什么叫工程项目?工程项目的意思就是,你其实是非常非常非常top down(自上而下)的一个组织,然后很清楚我们下一阶段要做的是什么事情,然后去做这个事情,中间需要有哪几个节点被处理掉,然后哪怕是做研究也是说,就是有一个很清晰的框架告诉你怎么去验证你的结果是好是坏。
是Google很强的事情,在过去的任何的一个大的工程项目上,所以说预训练,其实我觉得就是现在进入到Google的舒适区里了啊。然后后训练当然就是有更多的不确定性,那可能后训练现在来说还是更bottom up(自下而上)一点,就大家可以更广泛的试。
张小珺: 你说pre-train也是一种RL,为什么这么说?
姚顺宇: 我觉得就是,你很难从纯技术的角度说,pre-train就是预训练,或者说这个监督学习SFT和RL的本质区别是什么。因为预训练和SFT,你无非就是把你拿到的那些数据当成你的ground truth,然后你就把那个当成你的expert,把那个当成你的专家输出,然后你朝那个专家输出的分布上靠,强化学习可能就是更宽广的一个级别,它就是说这个本来输出的东西,也不是一个给定的专家,而是我自己产生的一些东西,然后我里面也有好的结果,也有不好的结果,然后好的结果要往上靠,不好的结果要远离它,之类的这样东西。
所以说从某种意义上来说,pre-training和SFT是强化学习的一个子集。但是呢,这两件事确实在现在这个时代是有区别的,对我来说,它的最大区别在数据上,就是pre-training的数据,更多的还是要distribution够好,就是分布足够的广,或者足够符合你想要覆盖住的那些范围,但是数据的质量并不需要非常非常的高。但是后训练呢,是反过来,就是说它分布上来说可能要远窄,但是它在有的那些数据质量上,会要求非常高。
所以我觉得目前来说,对我来说,它俩最本质区别,还是在数据分布上的区别,而不是在算法或者训练范式上的区别。
张小珺: 那像不同的lab,它是怎么分这个组的呀,预训练和后训练有不同吗?
姚顺宇: Anthropic和Google比较类似,两个都是就是预训练是预训练一个组,然后后训练是后训练一个组。OpenAI可能比较混沌,最早的时候,我一开始的时候,它是分三个组,就是它有预训练,然后它还有强化学习,就是Strawberry草莓组,然后它还有一个post-training组。我没在那干过,但我的理解是,它的post-training其实就不是,它的那个RL组就Strawberry,和它的post-training,其实是别的公司的post-training和产品,哦,然后它可能是以这种不一样的方式给它切了,它把后续人当产品做,就是它的一部分后训练其实是和产品是在做产品。但是它好像就是,它的post-training从某种意义上说自己又是产品,但自己又能训模型。
张小珺: 你们最近发了几个模型,然后我看到你也都参与其中,Gemini 3 Deep Think、Gemini 3.1 Pro?
姚顺宇: 那我觉得可能只能说是有幸参与哈哈哈哈哈,again就是感觉都是集体工作。你为什么现在都变成了明星人物,每次都被拎出来单独写一下?我不明白,我觉得其实不太好,每次看到之后,我都感觉,明天该怎么去办公室见同事呢。
我是觉得我参与过的任何一个项目,不管是在Google还是在Anthropic,没有我都会发生,都一样会发生,效果也不会变差。我觉得大家现在就是,是每个人都是冲浪的人,本质上是一个浪,而不是你那个冲浪的人。浪是AI吗?对,就是AI,这个这个事情本身是是这个浪,它会往前走,不管你冲不冲这个浪,这个浪都会拍到岸上,只是说有人可能就冲了这个浪,有人就可能晚了一点,没赶上那个浪尖。
张小珺: 好,你有幸的参与了这两个工作的,什么?
姚顺宇: 主要可能就是一些算法上设计的小的细节,然后就会一块讨论呀,然后有一些数据上的东西,但是数据上的东西,我觉得可能对之后的工作会影响更大一些。
张小珺: 这几个模型有范式变化吗?
姚顺宇: 嗯,我觉得没有哪个变化大到了,从不知道怎么做大尺度的强化学习,到大尺度强化学习那个级别的变化,没有哪个变化大到这个地步,肯定都是会有一些小小的变化。
张小珺: 最近我感觉模型已经发麻了,国内一堆模型,国外也是很多模型,你能不能给大家划划重点啊?
姚顺宇: 我觉得从某种意义上来说,都没那么值得关注。大家在争什么现在,感觉群魔乱斗,我觉得有一些争的事情呢,其实现在看来,已经在这个时代已经没那么重要了。就是因为过去带来的惯性,是大家会争各个Benchmark的第一名,证明自己模型的基本能力很强啊,这个事情呢,其实到现在已经到了就是公众关注,那些Benchmark都有点打满了。
其实你想,最早大家关注这个SWE-bench,随便大家都打到80多,幸亏没有人超过83,因为最近OpenAI刚放一个post说超过83,那个有的题目都是不良好定义的,幸亏没人超过吧,谁超过谁尴尬。然后大家以前Reasoning就是打完AIME打IMO,打完IMO打什么,像那些RKGI啊这些Benchmark,然后RKGI,嗯,在Gemini 3之前大家可能最高的都忘了,那时候可能十级这样子吧,然后大家就哇,登天难。然后Gemini 3给变成30多了,然后Claude 4.6应该是变成60多了,然后Gemini 3 Deep Think一下打到80多,所以这个也打满了。所以现在就是感觉,光靠打这种公众认知的模型能力,其实已经没啥太大的意思了啊。
发的快也说明其实这道题对大家所有人来说都变简单了,大家都知道knowhow了,没有什么秘密了已经,就还是那个冲浪理论嘛,就还是这个浪在往前走。
张小珺: 大家下一个可能在寻找的目标是什么,下一个范式级的变化是什么,还会有吗?
姚顺宇: 我觉得我刚才自己聊的那两个事是,我觉得ML coding和long horizon,然后这两个是我觉得,对于Google来说会很有价值的事情,因为首先ML coding是,Google首先自己是一个AI research大户,然后它自己又是AI research最全栈的,就是它不仅有这些训练模型这些部分,它还有设计硬件的部分,从硬件接到模型的部分,这一整套东西如果能被加速,或者说被更好的管理,那可能对这个公司来说是很有价值。
long horizon就不说了,就所有人都很都都都觉得很重要,所以说我觉得那个可能是对我来说,不能说是范式级别的,绝对是不到范式级别,但是一个我觉得是很有价值,需要去在未来几个月之内能够看到曙光的事。
然后范式级,可能就还是那些更非确定性的东西,就是什么多模态生成那个,我觉得可能会有一个英雄吧,或者会有一个英雄集体,然后嗯,还有聊比较多的continue learning(持续学习)和世界模型。
张小珺: 世界模型呢?
姚顺宇: 我觉得continue learning和这种long horizon没有本质的区别,因为大家以前觉得这两事儿差别很大,是因为continue learning会改变模型的一些权重,然后你做这种context management是不会改变模型权重的,但其实你想这两事儿没有本质区别,因为context里那些词自己的KV不也是一种权重吗,所以说你觉得这两个方案最后谁能更有用,在长久来说更有用,我觉得是不清楚的,但是他们本质上都是为了做long horizon这种类型的事情。
然后世界模型,一万个人有一万个世界模型,啥意思?就是定义不清晰,就是首先我不知道什么叫做一个世界模型,其次就是每个人在说他们做的世界模型的时候,可能也在说不一样的事儿,比如说Gemini做的世界模型可能就和比如说像李飞飞她们做的世界模型就不是一个事。
Gemini的世界模型更多的是一种end to end(端到端)的这种级别的训练,它想要的结果是说,我不仅能够生成一个视频,我是能够生成一个场景——什么叫一个场景,场景就是说我生成了这个时刻的状态,然后我还可以再给它一个condition,一个条件,这条件是我在这个状态下做了什么样的动作,然后它下一个时刻状态会变成我上一个时刻状态和动作的函数,然后它是end to end去训练这样的能力。所以说这个可能是一种方案,然后我也不知道大家最后想要的到底什么结果,然后我也不知道大家对自己世界模型的定义到底是什么,所以我觉得更多还是一种探索状态。
张小珺: 刚才我们一直没有聊到一个组织是xAI,我们聊了Anthropic,聊了OpenAI,聊了DeepMind,那xAI呢?
姚顺宇: xAI我是不明白哈哈哈,他们怎么最近这么动荡?我觉得他们一直都挺动荡,我也不知道啊,然后我其实我跟xAI接触的没有那么多,我接触的一些人现在也走了,其实我也不知道他们发生了啥。
张小珺: 你刚才说Anthropic的时候,你说技术的一号位能make bets是非常重要的,那在Google这样的一号位是谁啊,这个英雄是谁啊?
姚顺宇: 我觉得英雄,可能在不同的阶段是不一样的人,但是英雄的背后都有一个人,就是Sergey Brin,就是Google的那个cofounder,就是我觉得最终很多很多大的决定,可能不是由他来决定怎么做,但是最后拍那个板得他来拍。
张小珺: Demis Hassabis呢?
姚顺宇: 我觉得可能更多的在一线出现的,是Koray Kavukcuoglu,对,就是DeepMind CTO,然后他现在也是那个Google的SVP。哦Demis在负责什么?我觉得Demis可能管了更多那种就是偏science的事情,就比如说那个药物的design,Isomorphic Labs啊那些事情。Gemini他管的不多,至少从我的视角来说,我看到的更多的人是Koray,当然有可能就是那公司那个管理层的事,其实有很多是我看不到的部分,那我就不清楚了。
张小珺: 你刚才也提到AI是整个是一个系统嘛,你对于怎么系统性的做AI,有什么认知吗,经过了你这两年的工作?
姚顺宇: 有几方面吧。一方面是从整个系统来说,它需要一种比较科学的态度,就是你要清楚地像Scaling Law,你要清楚地理解自己做了什么样的预设,然后我在做一个改变的时候,其实有哪些因素是和它相关联,哪些因素是不相关联的。
然后从人的情况下来说,其实需要人很reliable,就是需要很负责任的人,其实每一个系统就每一个评价的框架,都是很容易被hack(钻空子)的,因为你总可以做一些事让你的指标看起来很好看,但是一个值得信赖、或者踏实的人,他其实是会想,自己做的这件事如果效果好的话,是不是真的,比如说在大的尺度上效果好,是不是我中间漏了哪些因素。
其实把事做系统,听起来是一句话,但真正做起来是很复杂的事,就是有很多细节,有很多阻力会,它其实是违背人性的,因为每个人个人的人性,可能都是为了让我自己做的东西能够体现的更好,但是对一个公司或者一个组织来说,最有利的事,是把整个公司的系统系统性做的非常扎实,非常严谨。
比如说做强化学习,你可能可以做一个算法出来效果比别人好,但是可能更关键问题是你要去问,比如说在真正的大的尺度下,我是不是能够保持稳定性,是一样好的,然后以及我比别人的东西效果好,是不是因为我用了不一样的data,以及我是不是用了更多的training的flops,是不是用了更多的sampling的flops,然后我具体在真的这个生产的这个最后这个大的跑的production run(最终的大规模训练)里面,到底哪个才是我的限制因素,然后我该看选哪个指标,这个其实可能都是需要研究员自己对于这个系统怎么运作,有一个好的理解,然后以及对公司负责任才能做到。
否则就是你很容易做到一件事,就是你可能比如说你在考虑training的时候是比别人好的,但你考虑training加sampling时候比别人差,你总可以选择你只是有training,但这就很糟糕。所以这个就是既需要你个人的负责任,又需要说组织所建立的这个体系里,能够能尽量的发现这些有意的或者无意的这种边界的事情。
张小珺: 但是你作为个体的话,你不知道怎么样是对全局最好的呀?
姚顺宇: 其实是需要,我觉得如果一个研究员做不到对全局去考虑的话,他就不是一个好的研究员,在现在这个时代。就是这个和你在学术界做research是很不一样的事,因为在学术界做research,本质上是一个人吃饱全家不愁的状态,我为我的项目负责,我为我的可重复性负责,但是在一个公司里,你其实更多的时候是我得为这个公司负责,这是两种完全不一样的心态。
张小珺: 那你这种自觉性从哪里来的?
姚顺宇: 不知道哈哈哈哈哈,我觉得我可能就是拉不下脸。拉不下脸是什么?就是你对一个公司负责任,是你和这个公司的契约的一部分,其实我觉得没什么道理不这么做。
张小珺: 这么说人英雄主义会破坏这种整体性?
姚顺宇: 我觉得如果只是为了个人英雄主义而做事的话,很有可能是会破坏整体性,当然实际可能你能力很强,然后你真的成了一个英雄,那也是有可能。
张小珺: 因为你也经历了两个组织了,你觉得什么样的组织更能够激发智能,在这个时代?
姚顺宇: 我觉得其实这是一个很有争议的事,因为刚才也聊了,就是不同组织,可能有些比较自上而下,有些比较自下而上,那一个自然问题说,比如说这两种组织哪个更能够激发创新?过去的观点就是自下而上是激发创新必要条件,因为就是你得每个人有自由嘛,有自由才能有创新。但是完全自下而上,你发现其实也不行,因为它就乱,那就是Google之前的样子,就是大家甚至都不知道我做这个事有什么用,那可能也不好。
所以就可能要需要有一个人,或者有一个小的集体,能够把这两件事稍微融合一下。这就是为什么我觉得,其实一个组织运行的好不好,看起来是组织的问题,但其实归根结底是技术leader的问题,就是这个技术leader有没有特质,能够把这个组织运行的很稳定,因为最好的那个状态,往往都是最不稳定的一个状态,就很容易往不好的那个方向塌缩的,对,所以得有一个leader来控制这个事。
张小珺: 那你觉得都是技术leader来做这个事情,而不是CEO来做这个事情?
姚顺宇: 那当然每个公司的CEO可能有不一样的职责,但是得有一个leader,我觉得至少得有一个leader,他能有两个特质,才能去做这个事。一个特质就是说他自己有救火的能力,不是说他光嘴上说要做什么要做什么,而是说有一件事真的遇到困难了,他能自己下场去带人,把这个困难解决掉,当然绝大多数时候,可能一个leader是不会有时间去做这个事儿,但他至少有这个能力。第二个重要特质,就是他得能够理解别人,就哪怕一件事可能是他不做的事,但他能够理解到,为什么别人做那事重要,能够容得下别人,那可能是另外一个特质。
张小珺: 你觉得Google的TPU,在哪些方面表现的比GPU更好,劣势是什么?
姚顺宇: 我觉得从纯硬件的角度来说,很难说哪种硬件真的好或者坏,尤其是在这种大规模商用的情况下。因为本质上来说,GPU和TPU在使用上来说,最大的区别就是,GPU它有比较好的开源生态,TPU没有,但这个事其实在大规模商用的时候并不是一个问题,因为比如Google自己用TPU,那自然会花时间去搭这个基础设施,而基础设施就是,你可能比如说你只跑1000张卡,可能是一个很大的负担,但你跑一个几十万张卡的集群,那搭一个基础设施,也不是一个多大的事。
但是这两个确实有一些设计理念上的区别,比如说GPU,至少我可能后来这几代GPU,像比如像Hopper那代GPU,H系列GPU,它的设计是说,我一个Pod(节点)里面,可能没有多少张卡,比如说就8张卡,然后这8张卡之间可以两两互联,NV link(英伟达高速互联总线)非常快,所以这一个pod几乎就是没什么通信的bandwidth限制。
但是TPU它可能就反过来,它就是说,我抛弃了卡与卡之间两两互联,但是我能尽量的把尽量多的卡放在一个大的架子里面,它就是有这种三维Torus的这种设计(3D Torus 拓扑设计),所以它就一张卡就只有在三个方向连3个最近邻的,但是它整个集群可以连成一个大Torus,然后如果你的compilers(编译器)或者你的那个sharding(数据的分片策略)的逻辑写得足够好的话,你是可以利用这样的东西,其实就等效来说,你会获得更大的储存空间,然后也会减少很多通信的bound。
劣势是什么呀?我觉得一个劣势就是,它肯定是比起GPU来说,至少在小的scale上来说,比起GPU是更加更加固定的一种结构吧,所以说它的易用性,或者它的通用性可能没有那么强。
张小珺: 最近硅谷有很多neo lab出现,你怎么看这个趋势,为什么他们都出去,从这些模型大厂跳出去,成立neo lab?
姚顺宇: 我看不太懂哈哈哈,我的感觉是绝大多数的neo lab都会死,然后那个我觉得就是,可能有一些lab是真的有好的人的,然后像有些lab,可能确实也开始在做一些事,比如说像thinking machine还是在deliver一些新的东西的。然后但有些neo lab就是,请帮我把名字哔掉,比如说XXX那个XXX,我就完全不知道他们到底要干嘛,然后这俩人其实已经远离这个专业好久了。
张小珺: 我觉得2026年,国内会非常的看重C端的叙事,谁成为那个super app,你怎么看,你觉得这个好像在硅谷没有人讲这个事儿?
姚顺宇: 对,就是因为美国enterprise就是公司,然后或者说效率软件这个市场太大,而且利润也太高,所以说对于美国来说,其实C端之前就只有ChatGPT一家做,然后其实也没啥油水,没有什么利润,所以说就是,现在大家可能重心都会先放在这种效率软件或者enterprise上。
然后所以中美的趋势已经发生差异化了,我觉得不只是AI,也就是过去的整个互联网都是不一样的,就是中国很强的就是C端,就是它能够想出一些非常非常复杂的产品的性质或者结构,然后用一种你觉得很间接、很不自然的方式,把这个利润滚起来。比如说抖音这种东西,它并不是说你看视频我看一个视频收你两毛钱,它说你可以免费看视频,但是我可以偷偷加广告,我可以偷偷做直播,我可以偷偷做电商,但是这个做效率软件没这事做,效率软件非常直接,就是我让你帮你写code,我成本一个月150,卖你200,我挣50,就是非常直接的事。
我觉得美国在过去的体现,就是在这种很直接的产品上,能够把技术做到极致,但是一直没有哪个产品让我觉得就是复杂到,说让你离不开它,你又感觉不到它在挣你的钱,但它实际上挣了你的钱。
张小珺: 你这么说我突然觉得Meta就应该抄字节做?
姚顺宇: 对,但我觉得Meta没字节强,因为Meta它也找不到自己的生态位,然后美国又没有一个做这件事情的公司,豆包这个生态位还没有人找到,那Meta就抄豆包呗,它也不需要那么强的模型能力啊,但我觉得还是美国做产品的,本质上做C端产品的人不行,比中国来说差远了,这是过去十年的积累。
因为过去十年在美国的这个正反馈,都来自于做ToB的,很多enterprise的事情,或者就是在美国这地方挣钱太容易,挣钱太容易的时候,你就不会费脑筋去想怎么挣钱。
张小珺: 哎不是很多人来都要找你聊聊吗,有什么好玩的人啊?
姚顺宇: 哦不,很多国内的人来,科技公司来,我觉得都挺好玩的,然后确实发现国内的人做产品,可能还是想法更复杂一些,对,就是想的这个回路更长一些,跟美国还是风格不太一样,美国就刚才说了嘛,就是做了什么就拿这个卖钱,就是这个事儿,就是需要这个能力,有了这个能力之后就是要比别人便宜,我就能挣得比你多,拿我一点办法也没有。
中国感觉都是这种,什么一开始不挣钱,但一旦它开始挣钱,你就拦不住它啊,就是它真的能形成那个圈儿,就是它真的把那个圈儿转起来的时候,你再想往里插就插不进去了。
张小珺: 你觉得美国公司,现在看懂字节跳动没有?
姚顺宇: 我的感觉是没有,还没有。它都这么大了。哦,你说是不是重视它,那肯定是重视的,就大家肯定都知道字节是一家被严重低估,从它的市值上来说是被严重低估的公司,这是我觉得大家很明确的事。然后我觉得也很明确,就是说在消费者市场这一端其实我觉得,没有哪个美国公司能和字节竞争的,但是它毕竟是一家中国公司,至少从公众意识上来说,它毕竟是家中国公司,所以看懂它了吗,我不觉得大家看懂了。但是你看Meta,其实也在主动的从字节挖人嘛。
张小珺: 嗯,你在AI行业有什么偶像吗,或者欣赏的人,虽然你在AI行业很短?
姚顺宇: 没没没啥,就是我感觉,我来这行业的时候,个人英雄主义时代已经过去了,所以也没有什么英雄,有时候你甚至觉得旧时代英雄有点蠢啊。所以说真的没有什么。
我觉得和做物理时候还是不一样,我觉得做物理时候,还是存在着一些我觉得真的比我聪明太多的人,比如我,我读博的时候我那个年轻老板就是Douglas Stanford,我觉得他就比我聪明太多了,可能也是看到他,我才觉得自己在那个领域也没什么用,有他了还要我干嘛呢,对吧。
张小珺: 你跑到AI来降维打击一下是吧?
姚顺宇: 也没降维打击,但是反正就感觉AI这个事,本来也不太需要脑子,不太需要脑子,真的不太需要脑子。那需要什么?我觉得这个行业就是最重要的特质,就是靠谱,就是做事细,然后对自己做的事负责任,这是最重要的特质,你说那些东西有多需要脑子,我觉得都是一些本科生就能干的活。
张小珺: 可是你说AI没有个人英雄主义,现在一个AI研究员的价格炒的多高啊,跟球星转会一样?
姚顺宇: 我不知道是好事还是坏事,对我个人来说,我当然很高兴,我受益于这个,对吧。但是,实际上来说,我并不知道这个事,是不是一件好事。你觉得为什么价格会变得这么高?我觉得可能一方面是大家觉得这个事很稀缺吧,但是也确实因为训练一个人,虽然这事没那么难,但是你训练一个人是需要一个环境的,就是你得有那个机会去接触这件事,你才能学会这件事,你没有那个机会,你就是再聪明也没用,那可能过去能撞到这个机会的人没有那么多,所以说在市场上来说可能是比较稀缺。
但我觉得另一方面也是,可能对人的炒作有点过分了,非常喜欢神话个体,对,我觉得真的,就是再说一次,这是个集体主义的事。
张小珺: 那很多人也会很好奇,因为可能很多公司也想招AI的人,那你觉得最重要的还是要靠谱,这个有什么衡量指标呢,就怎么能够快速的判断一个人靠不靠谱,做事细不细?
姚顺宇: 每个人都有一些自己衡量的方法,我当然也有一些自己的trick(诀窍)。我以前反正有出一道面试题,然后那个我大概讲一下,这个应该不涉密,所以我应该可以讲。
那面试题其实很简单,就是说我需要这个人在24小时之内,然后完成一个强化学习的项目,从0到1,就是他要自己去选用什么样的模型,我告诉他有的资源是什么样的,然后他自己选用什么样的模型,用什么数据,用什么样的算法,然后把这个模型训出来,24小时之内,就是我给他让他24小时去完成这个事,然后24小时结束之后,他会跟我有一个小时的讨论。
然后这个事儿呢,其实在AI时代没有那么难,没有AI时候这是不可能的,没有人从24小时之内把它做出来,但有AI之后其实特别简单,因为AI能帮你全套做。但为什么还要做这个事儿呢?有两个原因——一个原因是因为我觉得在这个时代去还去考察别人代码写得好不好,其实没用,因为绝大多数人都不用自己写代码,然后他更重要的是他能不能有效地利用AI,那这个是一个方面的考察。第二方面是这个事其实有一个陷阱,就是如果你全盘让AI做了,但你最后没有试图好好理解AI为你做了什么,那在那一个小时的讨论里面会露馅儿,那个是一个会挂人的地方。所以说那个考验的另一件事,就是说你有没有真的和AI形成了协作,还是说你就全权扔给他。
当然这个题目的设计本身,也有一些比较阴暗的巧思,就是说为什么设计成24小时,就是为了看这个人有多看重这个机会,能熬夜,对,如果他足够熬夜,他就能撑住这24个小时,如果他撑不住,那只能说他可能对这个机会也没有那么看重。
张小珺: 那对于比你更年轻的人,你觉得他们现在来AI,还是一个很蓝海就是很有机会的地方?
姚顺宇: 我觉得纯做语言模型,已经不是一个蓝海了,我觉得晚了,就是末班车已经发车了。末班车已经发车,末班那班是哪一班啊?我感觉我入行就是那个末班车啊,然后可能有确实在我入行之后,当然还有些新的人,但我觉得他们就没有机会,能接触那么好的机会了,就是能在一个还没有那么大的团体里做一件事情,那么可能就很少能遇到这样的机会了。
但是我觉得就是AI,它是一个很很大的方向,语言模型只是其中的很小很小一个部分,还有很多别的事情,比如刚刚说的多模态生成,那可能还有很多机会,机器人那可能更多,更多机会,然后包括更夸张的就是有,比如说你能不能用AI去帮助一些真正的科学问题,比如说帮助这个做量子调控啊之类的,那可能就是更蓝海,那都是blue sky的事了。
所以说我觉得对于足够年轻的人来说,可能做现在最热火的事,并不是一个正确的选择,做现在没有人做到的事,可能更多的是一个好的选择。
张小珺: 你自己未来会怎么发展,你会在Google很久吗?
姚顺宇: 我觉得应该不会,我觉得我还是会尝试去挑战自己的,对,然后要折磨自己。但是我就是可能需要找到一个值得折磨我自己的事。
张小珺: 如果AI不是本质的难的话,你会不会做的觉得无聊啊,你对你的挑战在哪啊?
姚顺宇: 它虽然不难,但是你知道和不知道,还是有一个gap的,就是你从完全不知道这其中细节,到慢慢理解这其中的细节,理解它怎么运作的之类的,这些事情,我觉得还是需要花时间花力气的。然后当你理解之后,我觉得对这个事儿也是会对你未来做,比如不管你是做产品相关,还是说往往别的AI的方向去发展,我觉得都是都是长期来说会有帮助的。
张小珺: 你未来想在哪里去发展?
姚顺宇: 我觉得都有可能,没想好该怎么折磨自己。你应该不会再跳去另外一个大公司了吧?应该不太会了,嗯。
张小珺: 你觉得你在Anthropic上学的和在Google DeepMind学的有什么不一样?
姚顺宇: 我觉得还是挺不一样,我觉得Anthropic,就是你可以把一个事儿了解,把一条线就是language model这条线的方方面面的了解的很透,它给你这样的机会。然后在Google,它更多的是一种横向,就是它有很多不同的方面,有很多不一样的人,然后也能见到不一样的视角,也能见到不一样的研究方向,就是你都可以看见。
Anthropic是因为它bet的足够的坚定,所以你能理解的更纵向。对。
张小珺: 你有想过用AI去解决物理问题吗?
姚顺宇: 你们那个理论物理,有人在干,所以我觉得不需要我去干哈哈。对这个没有本质的兴趣吗?我觉得这个事儿,首先我觉得目前对我来说不是最高优先级,我觉得如果哪天,我觉得我把我手上最高优先级的事解决了,我又没有找到别的事干,我可能会去干这个事。
张小珺: 你现在最高优先级是什么?
姚顺宇: 我现在最高优先级是,就是把我刚才说的这两个事情,哦ML coding和long horizon,把它至少推进到一个,就是和同事能够把它推进到一个比较我觉得比较稳定的状态吧,那个我觉得是我的最高priority,当然可能之后也会有别的priority。
然后用AI做物理,我觉得是一个已经有很多人在试着做的事儿,然后多一个我不多,少一个我不少,不如就让别人先干。
张小珺: 你有特别崇拜的物理学家吗?
姚顺宇: 也没有,有,但是有点多,不知从何说起。物理学家有,人工智能科学家,没有,但这个跟人的成长经历有关吧,就我觉得一个成年人是很难真的崇拜一个人的,那一个儿童可能会。
崇拜过谁啊?我觉得就物理学,其实还是有很多就真的挺强的,但是就是大家都说的那种什么100年前那种人就不说了,就什么爱因斯坦、海森伯格这些就不说了,然后包括大家后来都知道什么像Frank杨,就杨振宁这些也都不说了,然后像我之前做topology(拓扑)这个体系的时候,其实有一个他后来也拿了诺奖,就是那个Haldane(2016年诺贝尔物理学奖得主之一),就是你会发现这些人,他有些异常的远见,就是他在他那个时代显得格格不入,但是你看Haldane,最开始做Haldane model和这些分数量子霍尔效应相关的事的时候,离最后大家搞明白这些拓扑物态,过了好几十年,在那个时候他能够觉得这事重要,然后一直在自己在推进这事,我觉得这是一个很不容易的。
当然我觉得你要非要在人工智能找一个类似的人,我觉得可能Geoffrey Hinton(杰弗里·辛顿)是吧,就是在大家都觉得这事可有可无或者不那么确定的时候,他一直在这个方向做,那我觉得这可能是一个英雄级别的人物。
在他之后呢,AI在那之后,我觉得可能也有一些英雄的集体,就是比如像Transformer,就Noam(Noam Shazeer)和那些,那个Ashish(Ashish Vaswani)、Niki(Niki Parmar)他们,那可能是一个英雄集体(Transformer论文的八位作者)。
张小珺: 你讲过一个特别让我印象很深的话,我在这个行业又没有什么导师,又没有什么旧友,我想喷谁喷谁,这可能就是不做AI出身的好处吧?
姚顺宇: 对,就是真的没有什么负担,就是没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻,没有无所谓的啊。你以前也这样吗?我觉得我做学生的时候还挺收敛的,但我后来发现收敛没用,对自己也没好处,对别人也没好处,还是更直接的表达自己的想法是最关键的。
我觉得直接表达自己的想法,是一个短期一定会有人恨你,但长期大家会欣赏的事情。
张小珺: 你最近听谁说话特别蠢?把这个名字哔掉,谢谢?
姚顺宇: 我觉得XXX一直挺蠢的哈哈哈,而且蠢的始终如一哈哈哈。
张小珺: 他有没有可能是那个对的人呢?
姚顺宇: 我觉得他说的话,用Pauli的话来说就是not even wrong,因为不良好定义,你很难说他说的是对是错。就是有一天,可能有一个不一样的范式发生了,他就可以跳出来说哎,我当年说过这个这个这个,但是你就发现,可能如果范式是另一种状态,他也能说一样的话,这就是我为什么很讨厌这种很vague(模糊)的人的原因,因为一个事模糊就是没有意义的。
你为什么觉得他说话很模糊?没有正确的定义,是一种模棱两可,如果它有正确定义的话,我可以解释它为什么有正确定义,但它没有正确定义的话,我没有办法解释它为什么没有正确定义,因为它真的没有正确定义。
张小珺: XXX呢?
姚顺宇: 我觉得起码就是,XXX还是一个很良好定义的事,就是他是要做XXX,然后他的方式可能更偏这种更传统的这种神经网络的model的方式,而不是更end to end的这种方式,我觉得至少它是良好定义的,至于它是对是错,那我觉得是未来会检验的事情。
就大多数老登其实都还好,就是我觉得人年纪大了,不一定会变成老登的,人年纪大了会变成两种状态,一种状态叫做德高望重,就是他会可能少指手画脚,还会花自己的力气去培养年轻人,另一种人就是老登,就自己也不懂,还爱指手画脚。所以人老了不一定会变成老登。
张小珺: 哎,你是受了谁的刺激啊?
姚顺宇: 我也不知道我受了谁的刺激,但我确实见过不少老登哈哈哈。
张小珺: 你从什么时候变化的,就是说话非常直接,开始不收敛了,你过去都是这么想的但是你不说?
姚顺宇: 我觉得我过去可能有也会比较直接,但是没有这么直接,做了AI之后就更直接,一是没有束缚,二是这个领域足够客观,就是你其实不用太担心,因为自己的观点而惹到什么人,只要你的观点就是是自洽的,就是你有一套自己观点的理论,你不是说随便喷人,那肯定是会惹到别人,你是有一套自己的理解,我觉得其实大家是会尊重你的,因为最终你在这个领域做的怎么样,是有客观的评价标准的。
张小珺: 我们每个嘉宾都会推荐一本人生之书,要这本书真的对你产生过重要的影响,你要说的这本书是什么?
姚顺宇: 这是今天最难的一个问题,我感觉你还是高看了我的文化程度哈哈哈哈哈,我真的没有什么人生之书说实话。最近读了一本书,就是汤川秀树(1949年诺贝尔物理学奖得主)的自传啊,《旅人》,然后非要说就是可能有印象的书,首先我这人确实不爱读书,我感觉就是我这人文化水平比较低,然后我读的书除了就是专业性的书之外,所有的书感觉都是闲书,像什么汤川的自传,其实本质上也是本闲书,但是就是我觉得写得挺有趣的。
就是你能看到一个后来看起来如此成功的科学家,在他年轻的时候有一种挣扎感,很真实。然后可能就还有一些什么闲书,像小说之类,有本小说我很喜欢,那个《来自新世界》是一个日本的小说,对,我觉得你要非让我推荐闲书的话,我可以推荐那个。
张小珺: 你最近有看什么电影啊,什么电视剧,玩什么游戏?
姚顺宇: 什么都没有哈哈哈。
张小珺: 一个全球范围内你喜欢的食物?
姚顺宇: 寿司吧。
张小珺: 一个全球范围内你喜欢的地点?
姚顺宇: 全球范围内喜欢的地点,我我觉得现在你要非让我选,我可能会选夏威夷,因为我很喜欢海,对,但是也很难说,因为之后我可能去了更多海的地方,就另有新欢了。
张小珺: 一个少有人知道,但是可能需要知道的知识点?
姚顺宇: 别相信老登算吗哈哈哈。
张小珺: 你有迷信过吗?
姚顺宇: 嗯,我本质上没有迷信过,但是我觉得有些时候可以靠迷信来安慰自己。你说你有迷信过老登吗?哦,迷信老登啊,从来没有吗,真的没有,但是我以前可能没有这么恨老登,后来就变得越来越恨老登,可能就是当你自己有越来越多判断的时候,那些蠢的人就显得更蠢。
张小珺: 那们说说不友好的词出现啊,它来源在哪里?
姚顺宇: 不知道,没有没有没有,没有研究过,可以问问Gemini,让他deep research一下,看老登这个词是哪来的。
张小珺: 那你心目中影响AI进程的几篇论文?
姚顺宇: sequence to sequence是一篇,然后那个我觉得是language model在feature engineering时代的高峰。然后Scaling Law是一篇,就是Jared Kaplan他们在OpenAI的那篇Scaling Law也是一篇,是一篇把这种体系化的研究方式引进到这个领域的。当然最后实际上Scaling Law做的方法,可能他那样并不是正确的,就是但是是第一篇把这个这个想法引进来的,我觉得这很关键。
张小珺: 基于你当下的认知,一个关键的重要的bet是什么?
姚顺宇: long horizon(长程任务)哈哈哈。
张小珺: 我们工作室叫语言即世界工作室,第一次听到这个名字的时候,你在想什么?
姚顺宇: 我觉得这个名字有点,正常的太平庸了哈哈哈哈哈,可以哈哈哈哈哈。我觉得这个名字是一个,可能放在十年以前,是一个很独特的视角,那现在可是主要大家共识太多了,我觉得十年以前确实就是,可能不止十年了,对不起我感觉我年纪也大了,可能不止十年了,就是可能在14、15那个年代,大家都会觉得视觉是最重要的事,在那个时候,我觉得意识到语言是承载智能的重要载体的人,可能是一个不一样的事情。不过我觉得我们这个名字,不是在AI的语境里面讲的,嗯,哈哈哈。