谷歌AI的14年、Gemini翻身之战，与视觉理解模型：专访DeepMind前核心科学家Andrew Dai

节目

硅谷101

嘉宾

Andrew Dai

日期

2026-05

时长

64 min

查看原始内容 →

概要

Andrew Dai在谷歌14年间参与了多项奠基性工作：2015年与Quoc Le意外发现"预训练+微调"范式（Semi-supervised Sequence Learning），这一方法直接启发了OpenAI的GPT系列；2021年联合主导MoE架构研发，做出优于GPT-3的模型；2022-2023年主导PaLM 2预训练——这是他见过的"最顺的一次"，从未重启、不到一年完成，但因谷歌官僚流程等Google I/O统一发布，被OpenAI的GPT-4抢先。

Google Brain与DeepMind的合并是一场至今未完成的磨合：2014年收购DeepMind时承诺其完全独立（留伦敦、独立代码、独立招聘），两个团队长期存在credit assignment问题。2023年被ChatGPT逼迫合并后，采用每个部门双co-lead机制（Brain一个+DeepMind一个），两边"谁都不服谁"，大量人员从两边离职。Andrew称"到现在可能还在磨合"。

Gemini系列的演进反映了谷歌从追赶到翻身的过程：1.0因赶圣诞节deadline而rushed，小语种质量差；1.5才用上Andrew 2021年就研发的MoE架构；2.5因Noam Shazeer加入带来质的飞跃——此人看代码就能预测模型行为，不用跑实验；3.0在数据方法上有创新，短暂超越GPT。但Andrew感受到谷歌数千人团队的保守——"不能用aggressive的新想法，风险太高"——这成为他离开的核心原因。

Andrew创立的新公司押注视觉推理模型，走"语言+视觉"中间路线：2026年4月宣布$5500万融资、$3亿估值，投资方含NVIDIA和Jeff Dean个人。团队15人（12研究），做多模态视觉推理的specialist model。他认为当前前沿实验室（OpenAI、Anthropic）过度偏向编程方向，视觉理解仍处于"相当于GPT-2/3时代"的早期阶段，世界模型派则还没到"Transformer时刻"。

贯穿全场的核心线索是"时机与品味"：从预训练范式被Google内部忽视、到Health部门"时间不对"的教训、到PaLM 2被官僚流程延误、到MoE架构被OpenAI先用，Andrew的每一个关键节点都在回应同一个问题——在对的时间做对的事比拥有对的技术更重要，而research taste决定了你能否识别那个时机。

预训练+微调范式的意外诞生：一个bug引发的发现

核心论点：Andrew与Quoc Le在2015年意外发现了"先做语言模型预训练、再做监督微调"这一后来支撑整个GPT系列的核心范式——起因是一个训练实验中的bug。

Andrew原本在做paragraph embeddings（比Word2Vec更好的文本表示），跑了大量实验全部失败。某天一个实验结果突然非常好，超过所有已有论文。但他无法复现——反复重跑都达不到之前的分数。
花了一段时间挖掘原因后发现：那次实验意外从另一个语言模型项目的checkpoint开始训练，相当于先做了语言模型预训练再做微调。"之前这两个都是分开的，大家没有想过用语言模型来做语言理解，但我们发现把两个放在一起就可以做一个很好的模型。"
论文在NeurIPS发表时，OpenAI的人来看poster，说已经试了这个方法、结果很好。"从那时候我们就知道以后应该会很多人用这个方法，但没想到过了十年还在用，而且模型大了几个数量级。"
Transformer论文发布的第二天，Andrew就找到第一作者（也是朋友），建议在Transformer上试预训练。"但他在做图片处理的东西，没时间做。后面就是OpenAI做了。" OpenAI的Alec Radford写了GPT-1/2/3，引用了Andrew的论文。

"第二天我就给他说，我们前两年有这个文章就是预训练，结果很好，你要不要在Transformer上也试一试？但是那时候他很忙……后面就是OpenAI做了。" —— Andrew Dai

GPT-3冲击波：谷歌为何看不到自己手中的金矿

核心论点：预训练和Transformer都诞生在谷歌内部，但GPT系列却由OpenAI做出——根本原因不是技术差距，而是Google Brain的"自由文化"导致没有人集中资源押注同一方向。

GPT-3之前，Google Brain的文化"比较有名，很自由，你想做什么都可以做什么"。Jeff Dean在lead团队，但下面的研究员各做各的——有人做音乐生成、有人做视觉、有人做视频处理。"做语言的人很少，就基本上是Quoc和我还有几个人。"
GPT-3是一个"turning moment"——整个世界的转折点。之后谷歌才愿意投大量GPU到单个实验上。"之前大家都不想投这么多显示卡做在一个实验上，GPT-3之后谷歌就开始愿意这样投。"
同时期DeepMind的方向是游戏和围棋（AlphaGo），Hassabis的理念是"把游戏做好就能产生intelligence"。Jeff Dean也偏向通用AI方向，不愿只专注一个小领域。
Andrew在2017年Transformer发布时选择去了Google Health部门，错过了在Brain继续推进预训练研究的窗口。"那时候Health是一个很hot的领域，苹果微软都想进，谷歌也觉得要把AI放进去。"

"没有一个人来强有力地集合所有的资源跟力量去压注在同一个赛道上面……直到他们看到GPT-3出来。" —— 硅谷101主持人

Google Health的教训："时间不对"比技术不行更致命

核心论点：Andrew在Google Health两年多的经历让他学到创业最重要的一课——right time to do the right thing，比拥有对的技术更重要。

医疗行业的阻力不是技术层面的，而是文化层面的。"医生有自己的文化，传下来几百代的医生，有自己的方法做东西。很多医生按照自己的intuition决定，如果我们把AI推上去，他们会问'为什么AI要我做这个，我做了好几十年，肯定比AI知道得多'。"
大科技公司做医疗有天然劣势：医生担心大公司抢工作、抢医院的钱。"如果是一个小公司，他们就不会那么feel threatened。"
ChatGPT之后情况反转——医生自己开始用AI了。"现在大家都在用ChatGPT，所以医生也觉得没有那么危险。但那时候不是那样的。"
Andrew的总结："时间不对，技术也比较粗糙，产品也没做到让他们称心如意，go to market上美国医疗本来就是很难打入的产业。It's a big lesson。"

PaLM 2：史上最顺的预训练，却被官僚流程断送了领先

核心论点：PaLM 2是Andrew见过的最顺利的一次大模型训练——从未重启、不到一年完成——但谷歌的内部流程导致发布延迟，被GPT-4抢先，错失"世界最好模型"的头衔。

2023年初PaLM 2就训练完了。"从来没有见过那么顺的预训练，从头到底一次都没有停，一次都没有rewind。" 对比之下，Meta的LLaMA训练日志显示重启了很多次。
顺利的原因：有训练GLaM和PaLM 1的经验，做了大量architecture测试和实验，在大训练前做了hyper learning rate search，"high confidence这个会成功"。
但谷歌内部"bureaucracy和系统很大"，决定等Google I/O统一发布。"OpenAI当然知道Google I/O是什么，他们知道我们要出这个模型。因为谷歌那么大，没有秘密。他们就刚好Google I/O之前出了GPT-4。"
"早一点发表，我们就可以说我们是世界上最好的模型。觉得可惜吗？对，有点可惜。"
但PaLM 2的战略意义仍然重要：没有PaLM 2就没有Bard产品（后改名Gemini），谷歌就没有ChatGPT竞品。

"谷歌那么大，没有什么秘密……他们就刚好Google I/O之前出了GPT-4，然后GPT-4的结果就比PaLM 2好。" —— Andrew Dai

Brain与DeepMind合并：两个谁都不服谁的团队被硬拉到一起

核心论点：ChatGPT的冲击迫使谷歌合并Brain和DeepMind，但"谁都不服谁"的双co-lead机制、伦敦vs Mountain View的地理分割，导致大量摩擦和人员流失，至今仍在磨合。

2014年收购时DeepMind获得完全独立：留在伦敦、独立代码库、独立招聘流程、Hassabis说了算。"非常非常独立，谷歌也不太管他们。"
两团队合作稀少，根本原因是ownership问题。"合作时会有credit assignment的问题——到底是DeepMind own这个项目，还是Google Brain own？在大公司这很重要。"
ChatGPT逼出合并决定。起初是非official合作做Gemini前身，"有一点摩擦，但leadership觉得timer要更快，不能再比GPT落后"。
合并方案：每个部门（数据、模型、infrastructure、多模态）设两个co-lead，Brain一个、DeepMind一个。还要进一步细分伦敦做哪部分、Mountain View做哪部分。"这就很复杂，浪费了很多时间。"
结果：大量人员从两边离职。"两边都有离职，从Brain这边也有，DeepMind这边也有。" Andrew评估"到现在可能还在磨合"，有的部门快（如infrastructure直接统一），有的部门慢。

Gemini演进史：从rushed的1.0到短暂超越GPT的3.0

核心论点：Gemini系列的演进是谷歌从追赶到翻身的缩影——1.0因赶工质量差，1.5终于用上MoE，2.5因Noam Shazeer加入获得质变，3.0靠数据创新短暂领先。

Gemini 1.0（2023底）：rushed出品。5月两团队刚合并，要赶圣诞节deadline。"这些人都没有合作过，模型也是from scratch，所以有些地方做得不好——小语种语言就没做好。" 媒体大量负面报道后赶紧做1.5。
Gemini 1.5：终于用上Andrew在2021年就研发的MoE架构。"这是你2021年就在研发的东西，为什么这么晚？"——因为1.0太赶，MoE还需要优化时间，在与OpenAI的竞赛压力下只能用dense模型。
MoE泄密插曲：Andrew的一个intern后来去了OpenAI，"他们就开始做了MoE"。"所以硅谷其实是没有什么秘密可言的，特别是大公司。"
Gemini 2.5：Noam Shazeer（Transformer共同作者）加入带来质的飞跃。Andrew讲了一个细节："我跟Noam讨论Transformer architecture，我说从这里加一个connection好不好？他说不行，gradient会从这里移到那里——他都不用跑模型就知道训练后会是什么结果。他一看代码就知道这是好模型还是不好的模型。"
Gemini 3.0：Andrew负责的数据团队引入新方法。"短暂超过了GPT，惊艳了整个市场，谷歌股价涨得非常快。" 但Andrew在3.0发布前已决定离开。

"Noam看代码就知道模型行为，不用跑实验就能预测结果——他是真的是一个天才。" —— Andrew Dai

数据是大模型真正的秘密武器

核心论点：Andrew认为当前大模型的最大差异点不在架构或算力，而在数据——不是数据来源（大家都穷尽了互联网），而是数据筛选和处理方法。这也是大公司论文中从不公开的"secret sauce"。

"模型架构大家都在用同样的东西，算力大公司都不缺，infrastructure也很类似。差异点就在数据。"
数据质量处理的比喻："网络上有很多数据，但也有很多spam和没用的数据。就像人一样，你给一个人每天都读广告，他也学不了东西。要给他有information、有knowledge的数据。"
合成数据是把双刃剑。"用得不好，模型就会老说你合成数据里高频出现的词。如果合成数据有错的数学，模型的数学也会变差。" 但"用得好就像Gemini 3.0，可以用合成数据把模型做得很好"。
用户数据也难用："用户会copy paste从其他模型的输出，所以这个数据比较难用。"
谷歌有搜索引擎的数据优势——"有搜索的经验，知道怎么爬网络。其他公司也有自己的优点。"

离开谷歌：研究自由与速度的代价

核心论点：Andrew在Gemini 3.0发布前离开了待了14年的谷歌，核心原因是感受到大公司数千人团队在数据方法上的保守——"几千个人在这个项目上，很多显示卡用来预训练，不能用aggressive的新想法"。

"我可以感觉到用的方法和做的progress是比较保守的方法。因为几千个人在项目上，大量GPU在预训练，不能用很aggressive、很不同的新想法——太risky。"
创业vs大公司的差异：
GPU：大公司GPU可能随时被调走，"今天有卡，下个月就没了"。小公司"买了卡不会有人拿走"。
技术栈：要从JAX转学PyTorch、学AWS，"learning curve很steep"。
招聘：在Gemini团队"发了offer，人一般会接受"。小公司"没有很大名气"，候选人觉得"大公司更稳定"。
Research freedom的代价："在谷歌如果一个research idea不成功没关系，还有很多资源。在小公司那个risk高一些，因为资源消耗了不会回来。压力会稍微高一点。"

视觉推理模型：三派路线之争与Andrew的中间赌注

核心论点：Andrew认为当前AI实验室分三派——纯LLM派押注编程自我改进、世界模型派信仰视觉是智能之钥、他选择语言+视觉的中间路线。他判断前沿实验室因编程市场压力过度偏向LLM，视觉推理存在巨大空白。

纯LLM派（OpenAI、Anthropic）：思维链越长越diverse，模型就越聪明。"编程市场很大，他们觉得做一个很好的编程模型就可以self-improvement——recursive self-improvement，谁先突破谁就先到AGI。" 但Andrew认为"光scale语言还是不够了解我们的世界"——这些模型不会数杯子、看图经常hallucinate。
世界模型派（Fei-Fei Li等）："从计算机视觉部门出来的人，信仰vision is key to intelligence。" 但Andrew认为这条路还没到"Transformer时刻"，"可能过了五年再问我，他们还是很早期"。类比2015年只用一张显示卡做预训练。
Andrew的中间路线：语言推理+视觉推理的specialist model。核心逻辑："如果你做一个specialist model，generalist model就超不了。" 具体做法是减少对多模态无用的数据（如二战历史），把更多数据留给视频和图片。
老鹰比喻：老鹰抓猎物时需要理解重力、风、湍流，预测猎物飞行方向和速度——它们拥有精确的世界模型。但如果问老鹰"重力常数是多少"，它回答不了——因为这些是人类发明的概念。"所以光有世界模型不够，还需要语言来连接人造的概念。我们就是要把语言推理加上视觉推理。"
竞争格局：DeepSeek发了一篇类似方向的论文又删了，"他们的path跟我们的很像"。前沿实验室（OpenAI、Anthropic）因编程市场压力不太看重多模态视觉推理。

"这些前沿实验室有很多压力做更好的编程模型，所以他们不是很看重多模态视觉推理——我在谷歌的时候就感觉到了，所以我觉得现在是很好的机会。" —— Andrew Dai

新公司：$5500万起步，赌下一代推理

核心论点：Andrew的新公司2026年4月宣布$5500万融资/$3亿估值，投资方含NVIDIA和Jeff Dean个人，团队15人以研究为核心，目标是做出"下一代推理"的视觉模型。

融资细节：$5500万美元，估值$3亿，投资方包括主流硅谷基金及NVIDIA、Jeff Dean（个人身份参与）。
团队组成：~15人（14人+2人在办签证），12人研究、1人infrastructure、2人operations。"Very research-heavy"。
办公室：租了两年，预计两年后50-70人。选了一个有院子的办公室，"像一个大学"。午饭和happy hour在院子里。Andrew喜欢桌游——"试过用视觉模型玩桌游，但太差了，连象棋都不会。可能我们的模型做完之后就可以了。"
技术方向：full stack团队——数据、architecture、algorithms、微调都会改。"不光是想在数据上做变化，做一个更好的多模态推理模型，整个stack都会改——每一个部分都要专注。"
商业化：通过模型API变现，帮助企业解决视觉问题。终极目标是"视觉AGI"——不用AGI这个词是因为"AGI的定义每天都在变"。
New lab窗口期：Andrew认为大约还有两年窗口。"过了一段时间，我们这一代的new lab就发展很多了，新的就更难。下一代实验室会是什么样？可能是AGI的实验室，都是AI跑的。但现在AI的creativity离人还太远。"

研究品味：从Hinton和Jeff Dean那里学到的判断力

核心论点：Andrew认为研究中最宝贵的资源不是算力而是时间——research taste决定了你在有限时间里追对方向还是走弯路，这种判断力来自Hinton的神经科学启发和Jeff Dean的工程直觉。

"不光是因为跑实验需要卡和资源，最重要的资源是时间。跑了错的实验或错的方法，那个时间不会回来。但你也要知道什么时候追一个方向、什么时候放弃。"
Hinton的影响："Jeff Hinton觉得做AI要根据大脑的思想——大脑这部分用来做视觉，我们的模型也应该用差不多方法。如果有个新方向跟人的神经有很大区别，我可能就不会追那个方向。"
Jeff Dean的工程能力："我的模型跑得很慢，经理说有速度问题就直接问Jeff Dean。他来到我电脑旁边，不光看代码，还看machine code——比C++和Python还低层的代码。然后他说'这个地方不对'，改了就好了。" Andrew称Dean是"什么都懂、什么都学"的人。
Jeff Dean现在做Gemini的leader，同时以个人身份投资了Andrew的新公司。

"我的经理说有速度问题就直接问Jeff Dean。他来到电脑旁边，不光看代码，还看machine code，然后说'这里不对'就改了。从那时候我就知道他是很厉害的人。" —— Andrew Dai

附录：关键人/机构/产品/数据

项目	详情
Andrew Dai（戴安珠）	前Google Brain/DeepMind核心科学家，14年谷歌AI研发经验，现创办视觉推理AI实验室
Quoc Le	Google Brain联合创始人之一，与Andrew合作Semi-supervised Sequence Learning
Jeff Dean	Google Brain创始人，现Gemini团队leader，以个人身份投资Andrew新公司
Jeff Hinton	2013年公司被Google收购加入，深度学习教父，影响Andrew的研究品味
Noam Shazeer	Transformer共同作者，加入后主导Gemini 2.5，看代码就能预测模型行为
Ian Goodfellow	与Andrew合作MaskGAN (2018)，GAN发明者
Alec Radford	OpenAI，GPT-1/2/3作者，引用Andrew的预训练论文
Demis Hassabis	DeepMind CEO，收购后保持完全自治权
Semi-supervised Sequence Learning	2015年论文，首次将语言模型预训练与监督微调结合，GPT系列的理论先驱
PaLM 2	2022-2023训练，Andrew主导预训练，"史上最顺"，Bard/Gemini产品基础
Flan	Instruction fine-tuning论文，使ChatGPT式直接问答成为可能
MoE (Mixture of Experts)	Andrew 2021年联合主导，优于GPT-3，Gemini 1.5才正式启用
MaskGAN	2018年，首批把RL用在语言模型预训练后的论文之一
新公司融资	$5500万美元，估值$3亿，NVIDIA+Jeff Dean个人投资，2026年4月公布
团队规模	~15人（12研究+1 infra+2 ops），租两年办公室预计50-70人
New lab窗口期	Andrew判断约两年