# 谷歌AI的14年、Gemini翻身之战,与视觉理解模型:专访DeepMind前核心科学家Andrew Dai
[片头旁白]
今天我们要对谈的人,他的论文启发了OpenAI GPT的诞生,他在谷歌研究AI 14年,推动数项重要论文辗转数个产品,最后成为带领Gemini打下翻身之战的核心人物之一。
Andrew Dai长期处在谷歌AI研发的中枢,从早期的sequence learning、文本生成、对抗训练,到多模态和长上下文等等,与他合作论文的都是谷歌的众多传奇大佬,包括Quoc Le。而我发现Andrew Dai的职业轨迹就是一部谷歌AI大模型的编年史。
为什么谷歌一度在大模型上被OpenAI吊打,而又如何通过强行合并Google Brain和DeepMind重回巅峰?OpenAI为什么能够看到Semi-supervised sequence learning的能力,而谷歌看不到呢?
第二天我就给Transformer第一作者说,前两年我们有这个文章,就是预训练,他就没有时间做。后面就是OpenAI做了。我看到Gemini 1.5才用到MoE架构,但是这是你在2021年就在研发的东西,为什么这么晚?我们不知道。GPT-4会是一个MoE的模型,但是我的intern过去OpenAI之后,他们就开始做了MoE。所以硅谷其实是没有什么秘密可言。
对,特别是大模型。PaLM 2就是很顺,从来没有见过那么顺的预训练。但是我知道你们的风头还是被GPT-4给抢了,早一点发表我们就可以说,我们是世界上最好的模型。觉得可惜吗?对,有点可惜。
Google Brain跟DeepMind谁都不服谁,很多人离职,从两边都有离职。Gemini 2.5的时候他带来了什么东西?他带来他的能力。数据是很大的一个差异点嘛,我觉得最大的差异就是数据。
但是在谷歌你觉得它拖速度了。对,对谷歌来说可能就是有点危险,因为用这个方法会大量改变数据,所以你的新方法是什么?那我碰了算了。
然而Gemini 3.0顺利上线之后,Andrew Dai决定离开了待了近14年的谷歌,原因是希望有更多的研究自由与更快的速度。他想做的事情是目前领先大模型公司和实验室不愿意选择的路线,或者说发展得太慢的路线。
Andrew Dai的结论是,光是大语言模型无法将我们带到AGI,但是他也不信仰纯视觉的世界模型,他选择的是语言加视觉的中间派系,做多模态视觉推理模型。
那为什么你们现在做的事情谷歌做不了?如果你做一个specialist model,那generalist model就超不了。现在很多的new lab出来,现在这些模型都不会数东西,光scale这个语言这部分还是不够了解我们的世界。世界模型觉得vision is the key to intelligence,但是从语言角度来说,视觉就是不够。我们就是觉得要把语言推理加上视觉推理,才可以做到一个模型,可以帮大家,可以帮所有的行业。
今年4月,Andrew创立的公司宣布融资5500万美元,估值3亿美元,正式从保密阶段走向公众视野。投资方包括知名硅谷基金,还包括英伟达和以个人身份参与的Jeff Dean。
另外说一嘴,Andrew五岁就跟随父母去到了英国,英文是他的第一语言,但是他坚持想试试用中文上节目。如果有表达不够准确的地方或者中英文夹杂的部分,还请大家见谅。那之后有机会我也会跟Andrew Dai再用英文来对谈一期。
那么以下就是我跟Andrew Dai的专访,非常感谢Andrew Dai,欢迎你来做客硅谷101,谢谢。
硅谷101主持人: 所以这就是你们的新办公室,我故意挑了一个非常空旷的房间哈,我觉得这边的采光很好,这个房间你们以后准备用来做什么?
Andrew Dai: 很多研究员和工程师应该都是坐在这里,因为我们这里租房子都至少要租两年,所以我们就已经预测好过了两年会有多少人。过完两年你会有多少人?可能就50、60、70。
硅谷101主持人: 嗯,现在多少人?
Andrew Dai: 现在我们是14个人,但是还有两个人现在在办签证,所以很快就16个人。
硅谷101主持人: 我在来的时候在听你一个之前的英文博客,然后我发现你有一点British accent,是因为你之前在英国念书是吗?
Andrew Dai: 对,我是在中国出生,但是我五岁就去英国,我爸爸去英国读博士。我们一起过去,我在英国本科就在剑桥,然后去爱丁堡读博士。
硅谷101主持人: 你的中文其实还讲的挺好的。
Andrew Dai: 这是我的家人、老师要我练中文,然后我也认识一些中国来的朋友,一直在兼职学。
硅谷101主持人: 你是什么时候来到硅谷的?
Andrew Dai: 14年前2012年来的,就是为了到谷歌工作。
硅谷101主持人: 当时为什么那么喜欢谷歌?
Andrew Dai: 我就是读人工智能,然后我一直从中学就想做人工智能。那时候Google Brain比较有名,所以我就想加入Google Brain团队。那时候DeepMind还是一个startup,还是一个很小的公司,所以我那时候不知道永远定居哪家公司,所以我就直接想来到人工智能中心,要来到硅谷。
硅谷101主持人: 如果你留在伦敦的话,是不是也有可能会加入DeepMind,然后最后也来到谷歌?
Andrew Dai: 很可能,我后来我的lab很多我的同学都是去了DeepMind,就是我一个来到谷歌。但是还有一个原因,我要来这里是因为这里很容易创业,很多新的公司都是从硅谷来,所以我也是打算来了这里待几年,然后就创业了。没有想到一代就待了14年,对,我没有想要待那么久。
硅谷101主持人: 那我们来讲一讲你进入谷歌之后的一些工作吧。第一份工作呢,其实你是去到了Google Now,在2012年到2014年,那个团队应该是当时Larry Page希望说Android跟Android索团队一起搭建了一个能结合用户数据、主动给用户推送提醒信息的功能。那那个时候我理解说背后已经有一点AI的研究在后面了,当时你在Google Now里面在做什么?
Andrew Dai: 那个故事比较有意思,我在Google Now,他们是找我为了做AI,因为他们知道我是AI博士毕业。但是其实我到了这个团队,他们就发现哦,这个其实在工程上有很多东西要做,在这个infrastructure还是有很多东西。
所以比如说他们如果有个新的新闻出来想要发给用这个app的人,我就编了一个系统,四五分钟之内新的新闻出来就可以吹到所有人的手机。这个我就学到很多infrastructure,我们有一次看到发这个新闻很慢,需要100毫秒。大家在想为什么这么慢?我看了这个数据在哪里,然后我看了一边是在东海岸,但是我把这个数据送到西海岸,按照这个speed of light,就只少这么多时间,你不能更快。
我学了很多那个engineering的东西,很多end to end。但是后来我快走的时候,我也开始做更多AI、更多personalization,后来我就去Google Brain了。
硅谷101主持人: 然后谷歌呢在2013年2014年有几个重要的节点哈。第一个节点呢就是2013年的时候,应该是收购了Hinton的这个公司DNNresearch,Hinton之后就加入谷歌开始工作了嘛。你觉得Hinton来到谷歌之后对谷歌产生了什么样的影响呢?
Andrew Dai: 对,Hinton来了之后,谷歌就很看重AI。那几年我记得我们的CEO也说了,是一个AI company,因为他们AI就是他们的core。像Larry Page一开始创造,他们的目标也是AI,就是让机器帮助大家懂这个网络上大家写的东西,所以他们一直都是很看重AI。但是2012之后就开始一个新的阶段,就是deep learning深度学习的阶段。
他们就觉得哦如果我们不投这个方向,那我们就会落后,所以他们就走了,买了Hinton的公司。从那一段之后,deep learning对Google就很重要,他们的模型也都是越来越多,都是neural network那样的模型。
硅谷101主持人: 然后2014年的时候,谷歌又继续收了DeepMind。你觉得DeepMind团队进来,包括进来之后又在什么样的程度上面改变了谷歌?对DeepMind跟Google Brain的research收购的方法很不一样,是吧?
Andrew Dai: 所以收购DeepMind的时候,他们是做了一个agreement,就是说DeepMind还是要独立,他们都可以待在伦敦,不用来美国。所以有很多这些条件,所以他们基本上就是一个独立的research lab。
跟Google Brain不一样,Google Brain它的目标就是要做一些研究,然后以后跟产品合作,然后以后把这些模型推到产品。DeepMind就是更像是你什么都可以做,如果你觉得是重要的东西,像AlphaGo,你就可以做。所以这些philosophy有点不一样,所以DeepMind的还是非常非常独立的。
非常非常独立,他们想要做什么东西也都是Hassabis说了算。其实谷歌也不太会管他们,他们招聘也有他们自己的方法,然后他们很多内部的东西都是跟谷歌分开,像他们的代码那些东西都分了。
硅谷101主持人: 那所以谷歌当时Google Brain的AI research,比如说像你,会跟DeepMind的人有任何的合作吗?
Andrew Dai: 还是会,但是比较少。因为合作的时候就会有一些credit assignment的问题,就是说这个项目是谁own的,ownership在大公司都很重要。这到底是DeepMind own这个项目,或者Google Brain own这个项目,然后就有的项目就是这样的,就更复杂。
硅谷101主持人: 我知道这样的磨合在之后Brain跟DeepMind合并的时候会更加显现出来,但是这个我们可以稍后来聊。我还是想把开始的时间聚焦在你最早期的一些工作上面。
嗯,我看到你在2015年开始研究language model pretraining and fine tuning,当时应该是在Google Brain部门了哈。我看到这一轮AI的一个奠基石Transformer这篇论文是2017年发布的嘛,但是之前其实你们还发布了一个你跟Google Brain的创始人之一Quoc Le一起主导的这篇文章,叫做Semi-supervised Sequence Learning。能不能给我们解释一下这篇论文主要解决的是什么问题?
Andrew Dai: 这个文章不是我们一开始就预测好,不是plan的。我们本来是做这个技术叫paragraph vector。所以那时候有叫word embeddings、Word2Vec,之前大家都是用这些东西,然后我们想做一个更好的。
我做了很多很多实验,然后那些实验都是失败。但是有一天我跑了一个实验,然后我就发现哦这个结果很好,比其他的文章分都高。但是我想reproduce它、重跑一次,但是我跑不了之前的那些结果,所以我就想哦肯定哪里有一个bug,哪里出问题了。
所以我就挖了一段时间,然后我就发现是因为我训练这个模型的时候,我是从一个另外一个叫checkpoint开始,那个项目是另外一个项目,那个项目就是做语言模型,然后我从那个开始。所以那时候我就发现了,如果你先做语言模型,然后你再做这个微调这些supervised data,你就可以有很好的模型。所以这个就是我们发现的东西,然后我们就变成一个文章。
之前这两个都是分开的,大家没有想用语言模型用来做语言理解,但是我们的idea就是把语言模型和fine tuning微调合到一起,就可以做一个很好的模型。所以我们就是第一个把这两个部分放在一起。
硅谷101主持人: 这篇论文我们现在回看,它很像是大规模预训练加下游微调的这种方式。当然这篇论文出来的时候Transformer还没有出来,所以当时你们其实用的模型聚焦呢还是LSTM这个模型上面。但是你当时有没有意识到说哎,它可能会lead到一个更大的一个东西?
Andrew Dai: 那时候我们的卡很少,那时候大家都没有用很多显卡做训练,所以我们还是用的比较少的模型。但是我记得那一年我们开会,我们就在那个会上叫NeurIPS,就发表那个文章。然后做sentiment LSTM的第一author他就来我们的poster,他说他已经试了我们这个方法,结果很好。所以从那时候我们就知道这以后应该会很多人用这个方法,但是我们没有想到过了十年还会用这个,然后加了几倍这么大的模型。
硅谷101主持人: 嗯,对,那当时Transformer出来的时候,你有意识到这两个东西可以融合起来,然后变成一个something much bigger吗?
Andrew Dai: Transformer出来的时候,我觉得就很适合跟我们做的这个方向一起用。所以Transformer出来之后,第二天我就给就是Transformer的first author,也是一个朋友,我给他说我们前两年有这个文章就是预训练,结果很好,你要不要在Transformer上也试一试预训练?
但是那时候他很忙,他在做一些图片处理的东西,所以他就没有时间做。后面就是OpenAI做了。
硅谷101主持人: 对,所以OpenAI是谁来主导的这件事情,发现了就是Transformer可以跟你们这篇文章结合起来?
Andrew Dai: OpenAI的Alec Radford,他就是写GPT-1、GPT-2、GPT-3文章的人,他也引用我们那个文章。所以他就看出来了这个scale,然后继续scale越来越大,他的出来的语言就越来越好。
硅谷101主持人: 谷歌在什么时候意识到说哎,这两个东西都是我这边出来的,结果OpenAI给结合在一起用了?
Andrew Dai: 我觉得这个是GPT-3。
硅谷101主持人: 所以到了GPT-3的时候才意识到?
Andrew Dai: 对对,GPT-3是一个,可能是一个turning moment,整个世界的turning moment。所以不光是谷歌,很多公司都发现哦,GPT-3出来的语言可以干的东西都很好,所以可能scaling是对的方向。之前大家都不想投这么多显卡做在一个实验上,那GPT-3之后谷歌就开始愿意这样投。
硅谷101主持人: 那在GPT-3出来之前,Google Brain的Jeff Dean还有Quoc Le他们当时在做什么事情?然后DeepMind的Hassabis他们在做什么事情?
Andrew Dai: 那一段时间我记得好像他们是在做AlphaGo那个项目,他们是觉得把游戏做的很好,像游戏和围棋这些,那就可以发生intelligence。Brain就是另外一个方向,我觉得Jeff Dean也是这个方向想的,就是如果你做一个AI就什么都可以做,那就是real intelligence,就不要只专注一个小的领域。
但是那时候Google Brain还是很自由,Google Brain的文化都是比较有名,很自由,你想做什么都可以做什么。那时候Jeff Dean在lead这个Brain团队,但是下面的研究员什么都在做,像有乐团队来做音乐,怎么可以用AI做出新的歌。这样的东西其实做语言的人很少,就基本上是Quoc Le和我还有几个人,大部分人都是在做像视觉、视频处理这些东西。
嗯,对,就没有一个人来立的,强有力的来说,没有集合所有的资源跟力量去押注在同一个赛道上面,直到他们看到GPT-3出来。
硅谷101主持人: 对。所以你觉得OpenAI为什么能够看到Semi-supervised Sequence Learning的能力,而谷歌看不到呢?因为当时你跟Transformer的作者说一下这个东西是不是可以尝试,他没有理你,那之后你就没有再尝试了吗?
Andrew Dai: 哦,对,那时候那是2017的时候,那个时间很特别,Brain开始谷歌健康的部门,那时候health就是一个很hot的领域,大家都想进health,包括苹果和微软,所以谷歌也觉得我们也要把AI放到里面。所以那时候他们就让我选,我要进health或者留在Brain,然后我就选择去health。所以我就没有机会做这些GPT的模型。
硅谷101主持人: 那有没有其他的人继续在往这方面推了,是吧?
Andrew Dai: 对,后来就没有没有往上scale,但是有有人把这个放在产品,就像Smart Compose、Smart Reply,他们就是用这个预训练的方法了解文本。
硅谷101主持人: 对,然后跟我说一下你在health部门在研究什么,你去做产品了是吗?
Andrew Dai: 我做了研究是帮助产品,所以那时候就是负责这个医疗的records,预测这个人以后可能会有什么病或者后药吃什么药,就可以帮助医院省钱,或者帮助这些医生。我们也是用预训练,因为我们知道预训练很成功,我们就在这个医疗上面用预训练。但是那时候的模型还是很小,所以最后就没有做出来很大的预训练,但是发表了其他的文章。
但是那时候也是一个比较好的时代,那时候也是那个Google Brain residency program,所以找了很多就像intern在一年后来就创业了,像Lifer和Dario Amodei、David Ha,他们就是我的intern那一段。那也是一个比较好的时间。
硅谷101主持人: 在2018年的时候,就是你在health部门的一年之后,我看你跟比如说Ian Goodfellow这些人还合作了一篇重量级的论文叫MaskGAN,其实是来改善文本生成的质量哈。因为我看到中间的一些技术探讨,比如说他用的这个填空任务,或者是这些技术在后来的比如说BERT、多模态训练中都有一定程度的启发和影响。那你觉得这篇论文对你来说意味着什么?
Andrew Dai: 这个文章是我跟Ian Goodfellow就一起写的,然后我们就觉得把这个空填起来是一个很好的task,就可以让这个模型学到很复杂的东西。但是我觉得有一个地方,这个我们文章做的比较好,就是那时候做完预训练,然后做RL (reinforcement learning),基本上没有其他的人做,可能还有一个文章在做这个,但是我们可能是前几个文章就在预训练之后做RLHF,然后现在大家都是用这个方法。
就相当于是你们是首批团队把RL用在了语言模型上。
Andrew Dai: 对,我们那时候就觉得哦光做预训练不够,因为这些模型就不会学到写出来的字怎么改,或者哪些地方写的好、哪些地方写的不好。然后有RL的话,那这些模型就可以看到我自己写的这一段就不像英文或者不像哪一个语言,然后就可以把这个改好。
硅谷101主持人: 在其他的很多大家都觉得是有共识的技术范式上面,你们也都是第一批团队去做的。就包括MoE,然后你当时研究MoE的时候,还是在2021年的时候,对吧?你联合主导了MoE (Mixture of Experts)的这个开发。那现在MoE架构我们都很熟悉了,但我觉得真正把MoE这个词带到大众视野的,可能还是去年Gemini 3.0的时候的发布。但是我是没有想到在2021年的时候,谷歌内部就已经在研发这个路线了。
Andrew Dai: 那时候GPT-3出来了,Google Brain团队有的人有一点着急,他说我们一定要做一个模型比他们好,然后也要更多功能这些东西。所以我们那时候就觉得哦这些模型越来越大serve通过一个API就会很贵,因为他们有很多参数,然后就要很多很多电。但是如果你只用那个模型一部分,用的电就少很多。
所以那时候前几年学界也出了一个文章,就是做MoE,但是那个时候就没有做预训练,所以我们就是用MoE加上预训练,加上fine tuning,然后我们最后就做了一个模型,比GPT-3还好,所以那就是我们的achievement。
硅谷101主持人: 2021年的时候GPT-3出来了,谷歌内部你说开始感到压力了是吗?当时是什么样的一个情况,能不能给我们来描述一下?
Andrew Dai: 我那时候的经理他是叫Quoc Le,他就是我的Google Health的那个经理。然后他回到Google Brain,我那时候就跟他谈,我说我要离开Google。他就说我们现在正在做这个模型,但是这个模型就达不到GPT-3那么好,你们能帮我们解决这个问题。我们觉得这个问题是数据上面的问题,所以我就过去了,把那个数据处理了一段时间,终于做了一个模型比GPT-3好。发表一个文章,那时候也是发表一个文章。
所以那时候就开始有一点这个竞争的东西,然后后面今年就可以看出来有什么结果。可能是那时候就就开始了,因为两边都比较都看了GPT-3,然后DeepMind也觉得哦我们也要竞争,我们也要竞争,要不然大家都会觉得谷歌做不出这样的模型。
硅谷101主持人: 你当时为什么想要离开health?
Andrew Dai: health,我觉得对一个big tech公司来说,是很难很难的一个事。然后这个难度不是因为科技难度,是因为文化。为什么医生他们有自己的文化,然后他们的文化就是传下来的。几百代的医生,然后他们有自己的方法做东西,所以这个行业本身的这个understanding就是更难。
所以很多医生就是按照他们自己的intuition决定东西,然后我们如果要把AI推上去,那他们就会问为什么AI要我做这个东西。我做了好几十年,我肯定知道比这个AI好,所以就很难让那些医生用到AI。
是不是可以说就是在实际的产品落地的时候,一个大的科技公司它是比不上,比如说跟一些医院或者医生关系很好的,或者是药企也好,是比不上他们去推这个产品落地的?
Andrew Dai: 对对,然后还有一个是这个大公司,像有的医生就可能觉得哦这个大公司要抢我们的工作,抢我们医院的钱嘛。如果是一个小公司,那他们就不会那么有感觉,所以我觉得这是一个部分。
硅谷101主持人: 对,是不是当时技术也没有好到让大家觉得说哦非用你不可?
Andrew Dai: 对,像现在大家都是就是因为ChatGPT,那些医生呢就觉得哦那我可以用上AI,大家都在用ChatGPT,所以我就要用。但是那时候不是那样的,那时候他们是比较一个新的customer for AI,但是现在很多人都在用,所以他们就觉得哦没有那么危险。嗯,所以时间不对。
硅谷101主持人: 对对对,时间不对,可能当时技术也比较粗糙一点,是不是?
Andrew Dai: 对,然后产品可能也没有做的那么让他们称心如意,然后go to market上面,其实美国医疗产业本来就是一个很难打入的产业。It's a big lesson.
硅谷101主持人: 对,所以你的take away就是要在right time to do the right thing,work on the right technology?
Andrew Dai: Exactly. 对,创业这个很重要。
硅谷101主持人: 嗯,那我们来讲讲你从health出来了,然后呢在2022年的时候,你是主导了谷歌PaLM 2模型的这个预训练嘛。这个模型其实对谷歌来说是非常重要的,因为那个时候谷歌跟OpenAI已经是有这个模型的比拼的压力在了。但是PaLM 2出来的时候你们满意吗?
Andrew Dai: 对,PaLM 2是2023初就训练好了。我那时候觉得是一个挺好的模型,从来没有见过那么顺的预训练,从头到底就一次都没有停,一次都没用rewind。
我像那时候Meta出了一个LLaMA的模型,那那段时间也是比较有名。但是你看他们的那个log book就重启了很多很多次,然后做了很久。但是PaLM 2就是很顺,就一年之内从计划这个项目到这个模型做完了,就不到一年。所以我觉得那个就特别顺,为什么这么顺?
Andrew Dai: 我们做了什么事情让他这么顺?那时候有一些经验,就是训练PaLM和训练PaLM 1的经验。我们也是选了一些architecture上面的东西,做了很多测试,做了很多实验,我们就知道哦这个很稳,这个不会出问题。然后我们跑那个大训练之前,我们也做了一些hyper-parameter搜索,所以我们就high confidence这个会成功。
硅谷101主持人: 嗯,然后在2022年,我看你还写了一个蛮重要的一个论文,就是Flan Scaling Instruction Fine-tuning to Language Models,想去探索任务数量、模型大小以及加入这个chain of thought的一些数据。能不能给我们讲一下这个Flan它的重要性在哪里?
Andrew Dai: Flan之前大家都是用few-shot prompting,用这些模型。所以如果你要让他做一个东西,你需要先给他举一个例子,像如果是一个数学问题,你要给他一个数学问题,告诉他这个答案,然后给了这几个例子,然后你再可以问他做一个东西。
但是Flan这个文章就是说哦其实你不用给他举例子,你就在微调的数据里放这些例子就够了。然后这模型就会学会你给他什么问题,他就必须要答案。这是有好的部分,但是也有不好的部分。好的部分就是你就不用给他这些few-shot的例子。不好的部分大家现在都知道,如果你问他东西他不知道,他还会假装他知道。有了这个之后就可以有ChatGPT这个chatbot,因为你可以直接问他问题。
硅谷101主持人: 嗯,好,所以PaLM 2你们还是比较满意的。但是我知道你们的这个风头还是被GPT-4给抢了,是吗?
Andrew Dai: 嗯,对对,我们的时候我们做完了比较早,因为我们的是2023初的时候就做完了。但是谷歌的内部的这些bureaucracy和谷歌内部的系统很大,他们就觉得我们要等到谷歌I/O再统一发布。
但是OpenAI他们当然知道Google I/O是什么,他们知道我们要出这个模型。因为谷歌那么大,没有什么秘密在内部,所以他们就刚好Google I/O之前他们就出了GPT-4,然后GPT-4的结果就比PaLM 2好。所以我们发表的时候,我就觉得晚了一点,我觉得早一点的发表,我们就可以说我们是世界上最好的模型。
硅谷101主持人: 嗯嗯,觉得可惜吗?
Andrew Dai: 对,有点可惜,但是PaLM 2还是很重要。
硅谷101主持人: 就虽然GPT-4可能在benchmark上面比你们好,但起码谷歌会告诉大家说哎,我们站稳了,对吧,我们没有fall behind的态度。
Andrew Dai: 对,因为没有,还有一个原因是没有PaLM 2的话,那时候有那个产品叫Bard,后来就叫Gemini。对对,然后没有PaLM 2的话,那个Bard的产品也是比较危险,因为Bard就是用PaLM 2做出来的。所以那样的话,那谷歌就没有ChatGPT的竞争产品了。
硅谷101主持人: 刚才你也说了,2022年年底的时候,OpenAI是上了ChatGPT,然后把整个AI市场引爆了嘛。当时谷歌内部也是拉响了警报,然后Google Brain也是回归到了谷歌,当时做出来的一个决定就是把DeepMind跟Google Brain给整合起来。跟我们讲讲,这个整合是顺利呢,还是会有很多的摩擦在里面?
Andrew Dai: 这个整合大家有个preview,大家都是觉得这是一个preview,这个整合之后会怎么发生?因为Gemini前几个月,这是DeepMind和Brain people一起做,但是不是官方的。那时候觉得有一点摩擦,但是后来那个leadership就觉得我们这个timer要更快,我们不能再比GPT落后,所以他们就决定要快一点,把这两个团队放到一起。
那时候确实有摩擦,因为两边都有一样的团队,所以DeepMind有个infrastructure团队,Brain也有;DeepMind有个model团队,Brain也有;数据,DeepMind也是有个数据团队,Brain也有。然后我就是代表这个Brain的数据团队,所以一开始都是有这个tension。
他们决定每一个部门要一个领导从DeepMind那边,一个领导从Brain这边,所以就比较复杂。
硅谷101主持人: 对,所以他的意思就是说,比如说数据部门,然后你其实是co-lead,你是一个co-lead,然后DeepMind会出一个co-lead,就包括可能其他的部门也是多模态的部门,也是Google Brain出一个co-lead,DeepMind出一个co-lead,就是每一个部门都是这样的,是吧?
Andrew Dai: 对,嗯,出了之后我们还要分,我们还要说哦那这个数据部门里面哪一部分是伦敦可以做,哪一部分Mountain View Brain这边可以做。然后这就很复杂,这就浪费了很多时间了。
硅谷101主持人: 我觉得嗯,为什么一定要设置这样的一个机制呢?
Andrew Dai: 就更公平吧,Google Brain跟DeepMind谁都不服谁,对,这就是一个OK我给两边都同时给的,是一个equal even的setup。
硅谷101主持人: 那你觉得这样set up会拖累模型的研发速度嘛?
Andrew Dai: 我觉得一开始可能我们可能出的模型就慢一些,因为做这个,你把两个团队之前就都没有合作过,然后之前都已经有一点这种tension,那你突然把它放在一起,那肯定会有一些东西变慢了,然后会有人换组。所以这些东西都发生了。
整个的磨合过程,你觉得经历了多长时间?
Andrew Dai: 他是说到现在还在磨合,对,可能现在还在磨合吧。有的部门磨合速度更慢,有的部门更快,就像infra就是很快,他们就觉得我们必须要用这个infrastructure,你之前做的就不怎么用了,多模态也是。
硅谷101主持人: 所以就是两边整合的一个结果,就是很多人离职,对吧?
Andrew Dai: 对,有不少的人离职,从两边都有离职,从Brain这边也有,DeepMind这边也有。
硅谷101主持人: 嗯,这两个谁都看不上谁的部门整合在一起了,然后一起来同心协力地work on Gemini。然后嗯2023年年底的时候,Gemini 1.0出来了,这个模型你们满意吗?
Andrew Dai: 这个模型我觉得是有一点rush出来。那时候我们刚开始一起合作,然后很多东西都是拼命赶那个deadline。那时候有个圣诞节的deadline,因为五月份刚合并出来,我们觉得每六个月都要出一个新的模型,所以大家都在赶这个时间,然后拼命干,然后这些人都没有合作过,然后这个模型也是从scratch开始,所以就有一些地方就做的不是很好,就像那个小语言就没做的很好。
然后那时候媒体都报道了,说Gemini 1.0有的语言上就不行,所以我们赶紧做Gemini 1.5。
硅谷101主持人: 然后我看到Gemini 1.5才用到MoE架构。嗯,但是这是你在2021年就在研发的东西,为什么这么晚呢?
Andrew Dai: 对,这个也是我觉得一个速度的问题。所以他们想1.0就很赶紧推出来,所以他们就没有时间做这个MoE的模型,就只能做一个dense模型。因为MoE你还要花时间做optimization,然后GPT出来之后,这个整个想法都变成一个race,我们就在跟OpenAI比赛。所以如果有个MoE要把我们的schedule变得慢,那就不能做。所以它的优先级还是说我先不管创新了,我先就把它给追上。
硅谷101主持人: 嗯,所以这个时候谷歌其实是变成了一个追赶者。嗯嗯,对对嗯,是不是也是因为GPT-4用了MoE,然后1.5的时候才说哎我们必须要用MoE了?
Andrew Dai: 我觉得本来我们都是打算用MoE的,这是什么时候?对,就什么时候这是一个问题的timing。因为我们知道MoE的结果更好,那个2021的文章已经给大家看到是更好。但是我们不知道OpenAI会那么快用MoE,我们不知道GPT-4会是一个MoE的模型。我们还是有些人觉得应该是一个dense模型。
但是我的intern过去OpenAI之后,他们就开始做了MoE。所以他是他跟你一起研究了这个事情之后,他就把这个带去了OpenAI。
硅谷101主持人: 所以硅谷其实是没有什么秘密可言的嘛。
Andrew Dai: 对,特别是大模型和大公司,那这些大公司就肯定会有人去OpenAI,所以对大公司就很难保持秘密。
硅谷101主持人: Gemini 2.0对你来说,对你们来说是一个比较大的翻身账。
Andrew Dai: 对,Gemini 2.0就像一个evolution,这些方法就更成熟,包括这些很长的context的问题。所以那个模型就是一个更好的模型。
硅谷101主持人: 对,因为我知道好像在data上面,你也是在这个2.0上面有一些创新的。能不能给我们解释一下你做了什么让Gemini 2.0变得更好了?
Andrew Dai: 对,在data上有一个很大的变化,我们是用个新方法处理这个数据质量,然后我们检测质量也是更严格。可能有的公司觉得这个architecture和卡够了就可以做一个很好的模型,但是其实数据还是很重要。所以你看这些文章,他们一般都不会说数据有什么,也不会说数据从哪里来,这是一个很secret的source。所以我们就发表了新的方法。
硅谷101主持人: 嗯,所以你觉得现在数据是大模型们很大的一个差异点嘛。因为看起来模型架构大家都在用同样的东西,算力大公司都不缺,infrastructure其实都是很类似的东西,是不是?差异点就在数据之上。
Andrew Dai: 对,我觉得最大的差异就是数据。但是数据不是说数据来源的问题,因为大家反正都把互联网的数据都穷尽了,而是说怎么去优化这个数据,或者是怎么去挑选更优化的数据来用于训练,是吗?
硅谷101主持人: 对,你选用什么数据很重要。因为网络上是有很多数据,但是也有很多spam,很多总没有用、帮不了这个模型的数据。所以要找到那个好的数据,可以让这个模型学新的东西。你像人一样,你给一个人每天都让他读广告,那他也是学不了东西。你要给他有information有knowledge的数据才行。
但是那个来源也是有一点区别,因为谷歌他们有谷歌搜索,所以他们有搜索的那个经验,就知道怎么爬这个网络。其他的公司也是有有自己的优点。
Andrew Dai: 所以其实在Gemini 2.0,主要在数据上面做的一个提升,就是把这些spam的数据都给剔除了。Spam还有一些其他的数据,对嗯不光是spam,就更多的就不能讲了是吧。
低质量的数据,在合成数据上面,你你也是在管这个合成数据方面,对不对?
Andrew Dai: 对,我也是在联合主导那个合成数据。然后合成数据用的不好,那也就会有个很不好的模型。但是用的好就像Gemini 2.5,它就是用合成数据,可以用它把模型做的很好。
硅谷101主持人: 什么叫用的好,什么叫用的不好?
Andrew Dai: 用的不好就是你处理的不好,你处理的不好的话,这个模型就会老是做出你的合成数据的东西。如果你的合成数据有很多"delve"这个词,那你训练完,那你的模型也会更多说"delve"这个词。所以合成数据要他也是需要很高质量,要不然你的模型也会学到不好的东西,学到错的东西。
嗯嗯,像如果合成数据有错的数学,那你的模型学到那个,那他的数学也会变得更差。这中间的差异点就是说怎么去确保给模型的是尽量优质的数据,这样的话其实模型它也在能力上能够有一个很大的提升。
Andrew Dai: 嗯,对,然后但是user数据也是很难用,因为user他们也会copy paste从其他的模型,所以是比较难用这个数据。
硅谷101主持人: Gemini 2.5的时候,在去年年中的时候又发布,然后在年底的时候是发了Gemini 3.0哈。我觉在那个时候真的是短暂的超过了GPT,然后可以说是惊艳了整个市场。然后大家都在欢呼说谷歌又回来了,然后看你们谷歌的股价也是涨得非常快。那是你在Gemini 3.0的时候就离开了,能给我们讲讲为什么?
Andrew Dai: 可以,对,我先讲Gemini 2.5。2.5是Noam Shazeer从Character.AI也就来到谷歌,他就帮了2.5,所以2.5是一个比较好的模型。然后3.0就是我们挑了我们做数据的方法,有更多的新的方法。
硅谷101主持人: 然后最且我打断一下,2.5的时候,Noam带来了什么东西到谷歌,然后让你们2.5变得更好?他带来他的能力,能力具体指的什么?
Andrew Dai: 人类,我有一次跟Noam讨论Transformer这个architecture,然后我说那我们从这里加到这里加一个connection,加一个连接好不好?然后他说这样不会好,因为他的gradient就会从这里移到这里,他都不用跑那个模型,他就知道训练之后会是什么样的结果,他是真的是一个经典。他一看那个代码,他就知道哦这是一个好的模型或者不好的模型,他自己就知道这个模型是怎么work。
所以还是makes sense的,这是good deal。
硅谷101主持人: 所以哇现在看起来真的是一个人,他的能力就能够帮公司省很多的钱跟时间。
Andrew Dai: 对,是的,对,他很厉害。
硅谷101主持人: 嗯,那3.0呢就是说你们继续在数据上有一些创新跟优化,对吧?然后能够在数据上给Gemini 3.0能够带来更好的一个差异点,或者在benchmark上面跑分跑的更好。
Andrew Dai: 嗯,对,那时候数据有一些新的方法,然后但是我走的原因是,因为我可以感觉到用的方法和做的progress是用的比较保守的方法。因为这么多人,几千个人在这个项目上,很多很多显卡用来预训练,所以他们就不能用很aggressive、很不同的新的想法,都是比较risky的。所以我就觉得这时候就比较好的时间就离开了来创业。
硅谷101主持人: 所以你觉得从数据上还可以提升优化更快,用一些更加大胆或者是更加激进的aggressive的方式去做事情。但是在谷歌你觉得它拖速度了?
Andrew Dai: 对,对谷歌来说可能就是有点危险,因为用这个方法会大量改变数据。
硅谷101主持人: 对,所以你的新方法是什么啊?
Andrew Dai: 那我保密了。
硅谷101主持人: 好,但是你的新方法就是你来要自己创业,你其实想做的是视觉推理模型。在你能说的范围内,能不能跟我们解释一下,你想要用什么样的技术路径去实现什么样的事情?
Andrew Dai: 对,我们的团队是一个full stack团队,所以我们有很了解数据、很了解预训练、很了解infra的人。所以其实我们不光是想在数据做一些变化,做一个更好的多模态推理的模型,我们是整个的approach。我觉得就是这样的,就是一个first principles的coding,就每一个部分都要专注coding。我们就是数据,然后那个architecture、algorithms,我们都会专注于domain,所以我们这些地方都会改,包括微调,我们都会有一些新的方法。
硅谷101主持人: 为什么你们现在做的事情谷歌做不了?
Andrew Dai: 对,这个是可以看Anthropic做的。Anthropic他们编程模型做的很好,但是这个模型他不会做多模态的东西。然后这是因为他们就专注于编程,你看generalist model他们就没有这样,他们就做模型就什么都可以做。在我们的行业就是叫generalist model。这个模型可能就叫一个specialist model。
我们这个公司也是这样觉得,就是如果你做一个specialist model,那generalist model就超不了。因为我们会有更多的多模态数据,我们会把那个数据调了,对多模态没有用的数据,比如说二战是谁赢了、在什么地方打,那可能对多模态没有什么帮助。所以我们就可以减少那些数据,把更多数据就留给多模态数据、视频和图片,这样的方法就很难其他的公司赶上来。
硅谷101主持人: 现在的视觉模型,比如说谷歌的Veo系列或者Sora系列,你觉得他们就还不够好。因为视觉里面他们还不够理解他们在生成的东西,是吗?能不能给我们解释一下视觉理解模型是什么,然后它跟Sora还有视频生成模型有什么样的区别?
Andrew Dai: 其实生成和理解和推理是很不一样的东西。你就看语言模型的话,五年前这些模型已经会,你让GPT-3出一些编程,它可以,一般的人看这个程序,他会觉得这个程序很好,就像一个工程师写的一样。但是如果工程师来看他写的代码,那他肯定会说哦这个不对,这个跑不了。
所以这就是生成和理解的区别。一般就是这些大模型都很容易生成的东西,就你一下看都会觉得很好。但是你仔细看的话,像那个图片你会看哦那个字写的不对,或者那个人有三只手,导演也会看这些视频,导演看了这个视频也会觉得这个地方不对,这个地方明显是做出来的东西。
所以我们在视觉理解能力上,就可能是跟五年前的GPT-2、GPT-3对语言理解差不多。
硅谷101主持人: 我记得就是我们在之前聊的时候,你还跟我说过一个老鹰抓秃子的比喻哈,我觉得那还挺挺形象的。
Andrew Dai: 我们那时候是在谈世界模型,所以世界模型我觉得你可以想象像一个老鹰,很多老鹰都吃鸟。但是你抓这个鸟的时候,那你肯定要理解gravity和wind和turbulence,也要懂这个翅膀要什么角度才可以赶上另外一只鸟。你也要预测另外一只鸟会用什么方向飞,你要算哦我要什么速度才可以到那个地方,在同一点就可以把那个鸟抓起来。
所以老鹰的脑筋其实都可以算这些东西,都很复杂的东西。不管可以抓鸟,他们也会抓兔子吃、老鼠吃。算出来哦,这个兔子如果它跑到一个桥下面,那从哪里会出来?或者一个老鼠跑到地洞里面,那最后会从哪里出来?这些动物它们很了解这个natural world,这个physical world。
但是如果我们可以问老鹰的大脑,what is the force of gravity,或者what is the gravitational constant,或者what angle do you need to have left to fly?我们不会知道这些knowledge,因为这样的concept这些概念都是人发明的。如果我们是有四只手或者有20个手指,那我们数学可能就很不一样。
老鹰自己的这个世界模型就可能帮不了其他的行业、其他的领域。所以这就是世界模型和这些语言模型的区别。
硅谷101主持人: 现在很多的new lab出来,他们也是想尝试一下不同的一些模型的研发的思路嘛。那有一派就是可能就是大语言模型这一类的,那有一派呢就是世界模型,但是你相信有一个中间点,就是你做的这一派又需要语言的模型,然后又需要视觉的模型。嗯,对,能不能这三派给我们来梳理一下,就是每一派他们相信的是什么,他们信仰的是什么,让他们betting on的是一个怎么样能够达到AGI的一个路径呢?好,如果这一块你觉得有点难用中文解释的话,用英文也没有关系。
Andrew Dai: 好好,我现在试一试用中文。不过我们现在看语言模型,他们的思维链都是用语言做出来的,就包括Gemini和GPT。他们就是觉得这思维链越来越长、越来越diverse,那模型就越来越聪明,就可以做越来越多的东西。然后最后就可以达到通过编程越来越好用,这个编程就做越好的模型。
但是如果你看模型做视觉问题的话,现在这些模型都不会数东西。如果有几个杯子在一个桌子,他们经常会就hallucinate,就说错就乱说。所以我觉得你光scale这个语言这部分还是不够了解我们的世界,然后了解图片和视频。
另外一个方向就是你说的世界模型。这些lab都是从计算机视觉部门出来的,就像李飞飞 (Fei-Fei Li)和杨那他们的想法我觉得是更偏这个方向。就是说我要做一个新的模型,novelty很重要,因为对AI你必须要novel你才可以发表文章。我觉得他们就是比较相信视觉,其实有一点历史,之前大部分的文章都是视觉,整个机器学习大部分人都是做视觉,即使做语言理解是很少的。
包括我和Quoc Le,我们就是算很少数的人。最近可能变了,但是我们这个算一个比较niche的领域。然后这次就是因为很多researcher,之前也包括Hinton,他们就是觉得视觉也是key to intelligence,就是因为有视觉人就很聪明。
但是从语言角度来说,视觉就是不够,就光靠视觉不够容易做到的,就是因为动物生物他们还可以做,我们现在机器人做不了东西,他们视觉还是比我们现在的模型好,就像那个老鹰可以抓到猎物。就算我们可以做出来一个很好的虚拟老鹰,我们还不会有intelligence,还是达不到AGI。
但是视觉领域的人,他们会觉得vision is the key to intelligence,所以这些视觉模型更靠视觉和图像的数据。但是以这样的话,那像我刚才说的那个老鹰,你就不能跟人人做出来的概念合到一起,就像数学和物理和化学,因为这都是人造的东西,那就跟世界模型还是比较远。
所以我们这个公司,我们就是觉得要把语言推理加上视觉推理才可以做到一个模型,可以帮大家,可以帮所有的行业,就相当于是把那些什么重力的gravity的公式给它输到老鹰的脑子里面去。
硅谷101主持人: 对对,可以这样理解吗?
Andrew Dai: 嗯,对,然后用老鹰的眼睛,然后脑筋的一部分,但是还是要用人的推理、理解。
硅谷101主持人: 对,世界模型这个概念这两年很火哈。你觉得这些公司他们的发展能够到达AGI吗?
Andrew Dai: 我觉得可能过了五年你再问我这个问题,我觉得他们还是很早,就可能是跟大模型很早的一个阶段,他们做训练的时候还在一个显卡在跑,这可能就是跟我们在2015年的时候做那个一卡的预训练,也是在一个显卡在跑,但是需要很多很多年才可以做成一个大模型。
硅谷101主持人: 嗯,理解,所以你觉得现在世界模型还没有到Transformer时刻?
Andrew Dai: 嗯,还没有,他们可能需要新的结构,可能我觉得还是要再加几步才可以到一个更大的模型。
硅谷101主持人: 你觉得做这个视觉推理的其他公司,大家的竞争优势是什么?就比如说Google,我想他们是不是内部可能也看到了这个东西,所以他们可能内部也会在做。Maybe Meta,maybe OpenAI也会做。因为我看到DeepSeek之前好像推出来一篇文章,好像也是很similar的一些东西,他后来把那个文章给删掉了,对吧?你觉得这个competition landscape现在是什么样子的?
Andrew Dai: 对,那个DeepSeek的文章很有意思,因为他们发了,然后后来他们就把那个又删了,但是网络什么都删不了,这样大家都看过了。对,其实DeepSeek的想法是跟我们很像,他们的path有点像我们的path。
但是其他的frontier,OpenAI和Anthropic,我觉得他们是越来越偏编程的方向。因为编程这个市场很大,很多人现在都是在用模型编程。他们也是觉得你要做一个很好的编程模型,你就可以有self improvement,这个叫recursive self improvement,有的人叫RSI。先把那个突破,那谁就先可以带到AGI,然后这些frontier他们都不想第二,都想第一达到AGI。
所以其实他们有很多压力做一个更好的编程模型,所以因为这个压力,他们就不是很看重多模态视觉推理这个问题。所以我在加入之前,我就感觉到了这个,所以我就觉得哦现在是一个很好的机会做一个多模态推理的模型。
硅谷101主持人: 所以你觉得DeepSeek是你们比较大的一个竞争对手吗?
Andrew Dai: 可能是,可能是,对,但是我不知道他们为什么把那个文章删了,他们是不是又换了一个方向。
硅谷101主持人: 如果你们是一个非常research驱动的团队的话,到达AGI可能还有一些时间吧。中间的话你的投资人肯定也会问我说你中间用什么来养活你们自己?就除了VC的钱,所以你们的产品商业化落地是怎么去规划的?
Andrew Dai: 我们是一个research and product lab,所以我们也是做研究,也是做这个frontier research。但是我也是有那个Brain的背景。在Google Brain的时候,我们就也是有个目标,就是把这些模型就放在产品里,然后就让几十亿的人用。然后现在Gemini就有很多很多人用了,所以那是比较成功。
但是我们在这个公司也是一样的目标,也是要做一个API,然后让大家用,帮助公司解决他们的视觉问题,所以我们也有这个目标。
硅谷101主持人: 嗯,好,就是还是通过模型API的这个方式去变现。
Andrew Dai: 对嗯,对,但是你的ultimate goal还是说就去帮助大模型和视觉模型一起达到AGI?
对,达到visual AI。至少怎么去定义visual AI?视觉AI我觉得应该是比AGI更好表达,因为AGI它的定义每天都在变。有时候有的人说我们已经到了AGI,有的人说我们没到AGI。但是视觉,大部分人都可以看到东西,都有视觉,大部分人看东西基本的level都是差不多,可能有些人反应更快。
但是大部分人如果你看一个车的方向盘,都懂这是怎么用的,系鞋带,拼乐高家具,那些都是视觉问题,这些模型都不行。所以我觉得有一个模型可以做这些最基本的东西,那我们就是on the path,从那时候到AGI可能就不远了。
硅谷101主持人: 出来做公司跟在谷歌有什么不一样?我问这个问题的原因是因为当你在谷歌14年,你有无限的资源,你有无限的资金,你有无限的人才。然后当你出来了之后,就什么都要自稿,要自己去找人、找钱、找方向,对吧?这中间的差异对你来说是什么样的一个体验啊?
Andrew Dai: 对,有很多地方不一样。所以在显卡上那当然会少很多。但是有一个地方是一个优点,在谷歌,在大公司,他们每个礼拜那个priorities可能都变,所以可能今天有卡,可能下一个礼拜或者下一个月那也就没有卡了。但是在一个新公司的话,我们买了卡那就不会有人拿走,那在大公司就不是这样。
然后还有一个是我觉得我突然要学很多新的东西,学怎么用PyTorch,因为在DeepMind都是用JAX,然后要学怎么用phone,怎么用AWS,用很多很多东西要学。因为基本上不用开源的东西,所以那个learning是很steep,对我来说。
还有一个我觉得比较难是招聘。因为在DeepMind,那我是在Gemini那个团队,那很多很多人都想进Gemini,所以一般发了一个offer,那个看着里会接受。但是在一个小公司那就不一样,我们现在还不是很大的名气。他们知道一个小公司有就是有更多risk的,一个大公司很稳定,所以招聘就是更难。
就有的人就喜欢这个大公司的安全感,但是有的人就想试一试,就创一个新的地方,可能我们就可能会变成下一个OpenAI或者Anthropic,所以他们就会加入了。
硅谷101主持人: 嗯,但是你出来了之后,你跟我说会有很多的research freedom,对吧,就研究自由。但是研究自由的代价是什么?The cost of research freedom,什么cost of research freedom?
Andrew Dai: 有可能这个support会少一些。就像谷歌如果一个research idea不成功,那就没关系,你还可以做下一个项目,还有很多资源,公司还有很多钱可以支持你。但是在一个startup那一个research idea那个risk高一些,因为那些资源已经消耗了,不会带回来。我觉得压力会稍微高一点,做research。
所以我们现在就是招世界上最好的那些研究员,靠他们做很好的research,就可以有很好的结果。
硅谷101主持人: 你觉得谷歌的这14年,带给你最大的是什么?
Andrew Dai: 对我觉得我这几年运气很好,可以待在这个世界一流的研究室,然后可以看到AI发展这么多,我们十年前没有人会觉得AI会发展这么快,这是不可能的。我本来都是觉得世界变化比较慢,就像包括到月球都是60年前的事情。可能我觉得我这一代都是觉得世界都变化的很慢,包括这个电子车、自动驾驶车。但是突然之后就又感觉其实客气又开始速度变快了。
硅谷101主持人: 之前还跟我提到过一个词叫research taste。然后你说呢出来看new lab的这群人,都是因为他们所看到的路线,或者他们觉得比较重要的一些研究方向,在大厂大公司里面不被看重。其实这个是很考验一个研究员的research taste,他的研究品味的。嗯,对,你能不能再跟我们说一下,就是研究品位对研究员来说它重要在什么样的地方。那对你来说,研究品位这个东西在谷歌的这14年你是怎么去养成的?
Andrew Dai: 对,研究品位很重要。就是不光是因为跑实验需要卡、需要资源,我觉得最最重要的资源是时间。如果你跑到一个错的实验或者错的方法,那那个时间就不会回来。但是你也要知道什么时候追一个方向,但是也要知道什么时候要放弃一个方向。研究品味就帮助你决定这个方向我要继续追,我要继续花时间。
我的研究品位就是我觉得是从Hinton和Jeff Dean他们来的。Hinton就是觉得我们做AI的话,我们就要根据这个大脑的思想,我们觉得大脑这部分是用来做视觉,用这些方法做视觉,那我们也应该做模型。也是用差不多方法,就像CNN。包括这些网络模型,这些neural networks也是看neurons,他们也是学,然后他们就是从数据学的,然后现在我们的模型也都是从数据学的。
我们本身这样一个Transformer,Transformer什么都不知道,你要给他数据他才可以做任何东西。所以这个也是可能那些神经科学的想法,就是一开始这个brain什么都不知道,要通过长大就可以学会很多东西。所以我做研究的时候,我也是按照这个方法想,如果有个新的方向,然后跟人的神经很大的区别,那我可能就不会追那个方向。
硅谷101主持人: 你的新公司也有投资,对吧?你觉得你在整个的谷歌的生涯当中,Jeff Dean对你来说是一个什么样的存在?
Andrew Dai: 对,Jeff Dean是一个很好的advisor。刚进那个Brain团队我就认识他,那时候我们的模型就跑的很慢,我的经理就说如果有速度问题就直接问Jeff Dean,他什么都知道。然后他就来到我的电脑旁边,然后他就不光是看那个代码,他还是看那个机器代码,就是machine code,就是比C++和Python还底层的代码。然后他说哦这个这个地方不对,然后他就改了。
从那时候我就知道,Jeff Dean是很厉害的人,他什么都懂,他什么都学,他也包括就自己学了深度学习和这些方法,他才可以做出Google Brain,所以他就是一个比较normal model,我觉得他做的很好的。那他现在就是做Gemini的leader。
硅谷101主持人: 在谷歌里面还有没有谁对你影响非常大的?
Andrew Dai: Quoc Le影响也是比较大,我跟他合作了好几个项目,然后我们也一起带好几个实习生,所以我跟他合作了很久。
对,谷歌的厉害人太多了,厉害和聪明的人太多了。我觉得Google Brain和DeepMind就是这一代的Bell Labs,很多很聪明的人,包括Hassabis,他也是很厉害,他也是很unique。他是要用AI帮助整个世界,所以我觉得这个是很好的。
硅谷101主持人: 最后呢,我们节目可以让你免费来打个广告。首先你想招什么样的人才来你们的这个new lab实验室?然后呢对于好的人才,你跟他们喊几句话,告诉大家为什么他们应该来你的公司,然后跟你一起打造世界。
Andrew Dai: 来,我们现在就是找世界一流的一个团队,我们觉得要人才密集度很高就可以进步更快。然后我看这些中国的研究所,就像DeepSeek和这些地方,只是因为他们小、密度很高就可以做出很好的东西。
我们在招有模型训练经验的研究员,然后我们也在招infrastructure的工程师,管理过这些GPU clusters,或者做了training、neural network optimization这些东西。
为什么要加入我们?那是因为我觉得我们这个团队是new lab的一个top tier。New lab这个团队在其他的地方,这么多数据经验、这么多训练经验、这么多frontier model经验,只能在可能三四个地方可以找到,大部分其他的new lab都没有这么多的经验。
我们的方向也是一个比较新的方向,我们觉得我们就会带来下一代的推理,下一代的reasoning就离人的推理近很多。我们希望大家来跟我们一起成长到下一个OpenAI或者下一个Anthropic。
硅谷101主持人: 好谢谢,谢谢。你们也是刚刚搬进来。
Andrew Dai: 对,刚刚搬进来,我们还是用钥匙开门。
硅谷101主持人: 现在那个应该是周五的下午,所以员工都差不多离开了哈。你们现在有多少人?
Andrew Dai: 我们现在是差不多14、15个人,还有两个人在办签证,可能是12个人在research,一个人在infra,然后两个人在operations,对,我们是very research-heavy。
硅谷101主持人: OK,所以我们还有一些这个对,很多亚马逊的盒子,关系非常理解,因为是公司刚成立的时候嘛。
Andrew Dai: 对嗯,就会成为你们公司以后壮大了之后很珍贵的早期资料。
硅谷101主持人: 嗯,对,我看我们选了这个办公室,就是因为这个院子。
Andrew Dai: 对,就像一个大学里面的院子,我们就午饭、happy hour来这里吃饭,然后有客人都是来这里。你们还需要多一点椅子啊,对,多一点,然后前面有个喷泉可以relax。
硅谷101主持人: 语音打标的话要再加一点什么东西啊,有个如果他要加一个呢?
Andrew Dai: 对,白天去搜,白天的时候呢,我不知道,就是就累了之后就去泡,就去做留点放松,就像我就洗澡的时候,然后可能可以加一个乒乓球桌或者台球桌,但是我们现在主要是用这个打桌游。
硅谷101主持人: 嗯,对,因为我比较喜欢桌游。你会用视觉模型去玩桌游吗?
Andrew Dai: 我试过了,但是他们太差了,像那个象棋版他们都不会。可能我们的模型做完之后,那就可以用它打桌游了。
硅谷101主持人: 你能不能清楚地指?对,所以你最爱的办公室是哪一间?
Andrew Dai: 就是那个角落那里,是这件吗?
硅谷101主持人: 对,就是这一间。
Andrew Dai: 对,这个光线很好。
硅谷101主持人: OK,然后有一个standing desk,所以就是你经常会在这边看着外面,然后或者打电话就在这里。你现在大概一天的时间分配是什么样子的?有多少时间是在做operation的工作,有多少时间是在做research跟thinking?
Andrew Dai: 白天大部分时间都是做operation,就像把我们的IT设计好,把AWS设计好。然后我做research,现在大部分是周末和晚上,坐在家里就很安静,就可以思考、想新的方法,很多idea都是洗澡出来的。
硅谷101主持人: 然我也是,对嗯。所以idea完了之后马上用,就可以。这idea来自于research还是你这idea在你们公司是怎么样去产生的啊?
Andrew Dai: 都有,所以有一些新的idea是我来的,然后有一些新的像数据的idea是在我们team来的,现在在跑。
但是最后我们还是觉得这像auto research这些模型,他们也可以做research,但是他们的idea就太太average了,都没有creativity。然后做research肯定要creativity,我们就是觉得以前这些idea就很便宜,因为编程很难,execution很难。但是有Claude Code之后,这execution就容易很多,然后现在idea就那个价值就增长了。
所以就是这些最宝贵的researcher,现在大家都在互相争抢这宝贵的资产,对,就是对这些creative researchers很重要的。
硅谷101主持人: 嗯,对,然后最近我们看到new lab真的出来很多,你觉得这个趋势还会持续吗?
Andrew Dai: 嗯,我觉得还会吧。因为现在很多开源也有很多模型可以用,然后融钱也变容易了一点,因为这么多公司都在IPO,所以这一段时间我觉得还会有很多。
嗯,但是我觉得这也是一个窗口。过了一段时间,我们这一代的new lab就发展了很多,那就更难有新的了。
硅谷101主持人: 嗯,你觉得这个窗口期有多长时间?
Andrew Dai: 那很难说,可能这两年吧。
硅谷101主持人: 对对,然后要再等一会儿,那就等下一代的实验室,嗯,下一代的实验室会是什么样子的?
Andrew Dai: 下一代的实验室那我就不知道了,那可能是AGI的实验室,那我知道,那可能都是AI跑的,有可能。
硅谷101主持人: 嗯,但现在对,但现在他们creativity还离人的creativity太远了,其实还是不适合。
Andrew Dai: 好的好的,谢谢。
硅谷101主持人: 好的,谢谢!
[片尾旁白]
那以上呢就是我们与Andrew Dai的全部访谈和办公室探访了。
New lab是如今在硅谷非常重要的一个支线,也是今年以来在硅谷101选题会上我们着重关注的方向。如今VC的大量资金涌向这样的新型AI实验室,是因为这些大基金们在OpenAI等前沿模型上的赌注已经太重了,他们需要一些对冲。万一大语言模型无法走到最后,那么接下来AI怎么发展,可能就是要看这些new lab的研究的成果了,就像AI技术灵魂领袖Ilya Sutskever说的那样,我们正在重新回到研究时代。
那硅谷101的new lab系列还会继续,大家不要忘了关注我们,你们的点赞、留言和转发是我们做好深度科技和少年内容的最佳动力。我是陈倩,那我们就下期视频再见啦,拜。