← 返回
VIDEO INSIGHT

Gemini co-leads on project origins and what's next

日期
2026-05
时长
42 min

概要

  • Gemini 这个名字来自"双子座/双胞胎"——它本质是一次合并:把 DeepMind 与 Google Brain 分散的研究与算力"拧成一股"。起点是 Jeff Dean 写的一份从未公开的半页备忘录,核心论点只有一句:把最好的想法和算力分散在不同团队里,"很蠢(this is silly)"。
  • "单一、统一的强模型"是这群人最早、也最坚定的押注。它呼应了 Google 早年的 "one-box"(一个搜索框搞定一切)哲学——区别是,当年那个框背后是一堆各自独立的后端,而今天他们"真的造出了"那个框背后的通用 AI,一个后端。Koray 对"五年后 Google 有几个产品"的回答是:"一个——就是模型。"
  • 蒸馏(distillation)是 Flash 系列的魔法:每一代都能把上一代 Pro 的智能"压进"更小的 Flash,且 Flash 新一代正在超越 Pro 上一代。配方比十年前更简单了——从"50 个老师的集成"退化到"一个好老师 + 一个学生",基本沿用原始论文。
  • 真正的前沿有两个方向同时被点名为"惊人地难":Oriol 认为是评测(evaluation)——如何不泄漏、又让用户认同数字;Jeff 认为是数据效率——LLM 要比人类多看约 1000 倍的数据才达到相似能力。
  • 对 I/O 2027 的共识性预测是"自学习/持续学习(self-learning / continual learning)":模型在人的指导下自我改进 Gemini 的不同部分;以及"长时自主运行"(设想一个模型连续跑 30 天)。但 Jeff 和 Noam 都泼了冷水:真正的瓶颈不是模型速度,而是"我们所有的工具都太慢"——它们是为人类的延迟节奏设计的。
01

起源:名字叫"双子座",因为这是一次"反分裂"的合并

核心论点:Gemini 的诞生不是一个新模型的立项,而是一次组织决断——停止分散,集中算力与人才造一个模型。

  • 在 Gemini 立项前,DeepMind(Oriol 主导部分方向)和 Google Brain(Jeff 推动 Pathways、PaLM、PaLM 2)在并行地"造通用模型"。Jeff 的判断是:这是在"分裂我们的努力,分裂我们的算力(fragmenting our efforts and fragmenting our compute)"。
  • 他把这个论点写进一份半页备忘录,从未公开(Logan 当场提议"应该把它放出来")。名字 Gemini = 双子座/双胞胎,正是"两个团队合一"的隐喻。Koray 打趣:"我还以为是因为我有一对双胞胎。"
  • 合并并不轻松:伦敦和山景城团队相差 8 个小时时区,"8 小时时差从来不是轻松协作的配方"。但 Koray 强调,两个组织都以巨大的紧迫感(great urgency)推进了它,因为大家都意识到"这就是该改变的时刻"。
"如果我们要造一个极其强大的模型,就必须所有人聚到一起,造一个模型。这其实就是 Gemini 这个名字的由来——双子座。" —— Jeff Dean
"与其各自并行地造东西……不如做这件聚焦的事。造一个模型比造五个模型好。" —— Koray Kavukcuoglu
02

为什么押注"单一模型":从 one-box 哲学到"产品即模型"

核心论点:一个足够强的统一模型,本身就是 Google 智能的"核心引擎",也可能就是终极产品形态。

  • Noam 把它接回 Google 最早的 "one-box" 哲学:一个搜索框,输入什么就给你什么——体育比分、股价。但当年后端其实是一堆"各自定制的、独立的后端",有些算 AI,有些不算。用户*以为*背后有个通用 AI,"而现在我们真的把它造出来了……一个框,一个后端"。顺带一提,搜索里的 "Did you mean"(拼写纠错)正是 Noam 的起步项目
  • Pathways 项目的三个最初设想——单一模型、多模态、稀疏(sparse,按需激活模型的不同部分)——"今天全都体现在 Gemini 里"。
  • 当 Logan 抛出那个"挑衅性"问题:五年后 Google 是 3 个产品还是 10000 个?Koray 的回答是"一个"。但这并非全场共识:Oriol 坦言自己作为用户"喜欢关注点分离(separation of concerns)"——查日历、收邮件、买东西是主动选择,"现在押注单一产品,至少对我自己,我不会这么做"。
"我们终于有了配得上前端的后端,也有了对的界面——因为我们造出了那个 one-box。" —— Noam Shazeer
"Google 五年后有几个产品?" / "一个。就是模型。" —— Logan 问,Koray 答
03

产品反馈是模型进步的引擎,而不是"刷榜"

核心论点:真正的检验标准是"有人在用、对人有用",而不是在黑盒里把 benchmark 刷高。

  • Jeff 用 Search 多年的经验类比:大量真实使用会告诉你"什么做得好、什么做得差",聚合这些使用统计去深入理解、再针对性改进,"AI 模型不该有任何不同"。
  • Noam 的警告很直接:如果你"钻进盒子里去爬 benchmark,那你最后就只是爬了 benchmark,甚至可能泄漏了你的 benchmark,结局不会好"。Koray 补充:"你不会想在黑盒里造智能,你要它有用。"
  • 所谓"触碰前沿"是双重的:既是技术能力的研究前沿,也是"下一个能为用户带来什么"的产品前沿——"两者携手,才定义了前沿的含义"。
"你不会想在黑盒里造智能。你要它有用,要人们去用它。" —— Koray Kavukcuoglu
04

Omni 与"真正的世界模型"

核心论点:Omni 让 Gemini 从"理解+文本输出"跨进"能模拟世界并据此决策"的新品类。

  • Koray 给出世界模型(world model)的定义:真正理解动态、物理、视觉,并且能模拟(simulate)、把这个模拟向前推演(roll forward)——因为模型的决策正是基于这些对未来的模拟。这与过去"主要做理解+文本"的 Gemini、以及"文本输入做视频"的 Veo 都不同,是"真正在转变 Gemini 的品类"。
  • Oriol 描述了"涌现"的惊喜:过去要手动预设如何让一个复杂视频场景在时间上保持一致("一转动,物体就消失了");而仅靠规模化训练 + 混合所有数据,这些能力就自己涌现出来了。"几年前你要是问我,我会觉得这条路几乎不可能成。"
  • Jeff 提醒"多模态"不该止于人类感官:模型应理解更丰富的科学模态——基因组序列、化学结构、机器人抓取数据、LiDAR 数据。"只要让模型见一点这类数据,它日后遇到更多时就会理解得好得多。"
"Gemini Omni 是一个不同的品类,它把我们过去那个'主要做理解和文本输出'的 Gemini,真正转变成了一个真实的世界模型。" —— Koray Kavukcuoglu
05

他们如何相识:一部"该拍成电影"的招募史

核心论点:这个模型能成,很大程度上因为这几个人彼此认识、信任已久——Jeff 是那条贯穿始终的线。

  • Noam(2000 年):Jeff 当年三年间筛选所有进 Google 的工程简历("no, yes, yes, no, no",极快)。Noam 已拿到 offer 在犹豫,Jeff 打电话去"推销"——坦言"是的,我就是在推销,因为我想让他接 offer"。Noam 入职后成了 Jeff 3 年半的同办公室室友,而且 mentor 也是 Jeff——"每次问 mentor 他都知道答案,我以为这里人人都什么都懂,结果只是 Jeff 什么都懂,还写了半个代码库。"
  • Oriol(2012 年):同样是 Jeff 打电话挖来的。他当时在写 PhD 论文最后一年,"那时没有 LLM,每个词都得自己写"。入职头两个项目之一就是 distillation,Jeff "亲手坐在桌前敲类——蒸馏、KL 散度",Oriol 笑称"那会儿没有 coding agent,Jeff 当了一阵子项目的 coding agent,而且是个至今难以超越的硬基准"。
  • Koray(DeepMind 收购期):在伦敦谈判时,满屋子人在讨论,Jeff 径直走来说"我们看看代码吧"。两人坐到键盘前,Koray 逐个目录、逐个文件讲解——"这是我们的第一次 code review"。那次去伦敦,他们没睡好就连看了 13 场 30 分钟的连续演讲;Geoff Hinton 因背痛躺在房间后面的地板上。当时 DeepMind 约 55–60 人。
"他们会直接给 Jeff 抱来一大摞简历,他就:不、要、要、不、不、不。极快。" —— Noam Shazeer
"我们看了 15 场(精彩的)演讲……但还是要——'我们实际看看代码吧'。" —— Koray & Jeff(Logan:这得拍成电影)
06

蒸馏:把 Pro 的智能"挤"进 Flash

核心论点:每一代都把 Pro 的智能压进更小的 Flash,且 Flash 新代已超越上代 Pro——而配方比十年前更简单了。

  • Oriol 说这是他"最没料到能持续做成"的事:一代又一代地把 Pro 的智能"打包回 Flash",而且"有时甚至在加速"——Flash 下一代直接超越 Pro 上一代。"光是理解蒸馏怎么work,我至今着迷:怎么能把这么多智能塞进每个字节、每个参数?"
  • 早期规模化蒸馏的做法(源自 Geoff Hinton 在 MNIST 这种"小到能在笔记本上跑"的数据集上的探索):训练一个 50 个模型的集成、用 3 亿张图片,分组让每个擅长一类(汽车、野生动物),再用蒸馏把知识转移进单一模型——结果比直接用原始数据训练的单模型准确得多。
  • 如今配方更简单:不再需要 50 个老师的集成,"一个非常非常好的老师 + 一个学生",基本沿用原论文配方加一点小改动。(当 Jeff 要"剧透配方"时,Koray 连忙喊停"别说我们现在的做法"。)
  • Koray 的招牌比喻:"就像挤柠檬——你挤柠檬,汁出来了,那是精华,把它倒进杯子,杯子就是你的小模型。"
"你有一个非常非常好的老师,再有一个学生……基本就是原论文那套配方,加一些小改动。基本精神还是一样的。" —— Jeff Dean
07

惊喜与遗憾:评测之难、数据效率与"更有机的架构"

核心论点:进步惊人,但几位负责人各自点名了仍未攻克、且"惊人地难"的方向。

  • Jeff(遗憾):原以为会在持续学习(continual learning)更有机、非结构化的架构上有更多进展。"现在我们用的是 MoE(很多专家,但结构都很相似),我一直觉得更'流体/有可塑性(plasticity, fluid)'的架构值得做——还没做,但现在这套确实管用。"
  • Noam(半玩笑的遗憾):"我们还没治好每一种病。你还不能输入'给我发明一个癌症解药'它就给你做出来。但我们在往前走。"
  • 数据效率(Jeff):人类学习效率约比 LLM 高 1000 倍——LLM 要看上千倍的数据才达到相似(某些方面略好、某些方面略差)的能力。人一生大概听过约 10 亿个词,而模型训练在万亿词级。"如果能让每个样本榨出 1000 倍的信息,那就太惊人了。"(Oriol 补了一刀反驳:模型是被预训练的,"你又不是第一个人类"。)
  • 评测(Oriol 认为最难):"评测非常难,而且在社区里被低估了。"如何评估孤立的能力、判断下一个大事会是什么、又不泄漏进数据集、还让用户认同那个数字——"从论文里一张数字表,到如今有了真实用户和反馈,这件事惊人地难"。
  • 模型仍有巨大余量(Koray):"现在的模型并不比三四年前大多少,但我们不断往里塞更多能力和信息……模型里还有非常多的空间。"这反而让他兴奋:算法层面"还有很大空间,会有大的创新让我们从模型里榨出更多"。
"每个 AI 研究者永恒的梦想是:怎么造出能泛化到它从未遇到过的东西的系统?而我们现在想做的是——泛化到任何人可能问的任何问题。这很难。" —— Jeff Dean
08

分歧与分工:现实让人达成一致

核心论点:这群人少有大分歧,因为 Gemini 高度数据驱动,而四人恰好覆盖了技术栈的不同关键面。

  • 没有大的研究分歧——Koray 说,这群人"用实验试过各种东西",很多想法是通过实验长出来的。Jeff 一直想要"更灵活、更有可塑性"的架构,"我们没做到,但也不是因为我们对此有分歧——是当前系统用经验告诉了我们该走哪条路"。
  • Noam 一语中的:"现实是让人达成一致的好办法。你看实验结果,看什么work、什么不work。"
  • 之所以能合作,关键在分工:Jeff 投在"未来推理硬件该长什么样";Noam 在模型;Oriol 从模型转向 Agent 的深水区;Koray 看产品与整体方向("我们和产品配合得好不好?体验对不对?跑得顺不顺?")。"这是一整场技术变革,需要有人深入思考它的不同侧面。"
"我花很多时间想未来的推理硬件该是什么样……你没花多少时间,但我在厨房里跟你一描述,你就说'听起来不错,什么时候能有?'" —— Jeff Dean(全场笑)
09

对 I/O 2027 的预测:自学习、长时自主,与"太慢的工具"

核心论点:下一年的方向共识是自学习/持续学习与长时自主运行;但真正的瓶颈被点名为"工具太慢"。

  • 自学习(self-learning)(Koray):在模型已经很 agentic、很擅长写代码、且被用于自身研究的当下,"会有一个时间点,至少在实验层面,我们开始依赖模型去改进 Gemini 的不同部分"。Jeff 接话:明年大概率能指着模型里"某个由模型和 Agent 自我改进生成的重要成果"。Oriol 则更看重不更新权重、靠经验/知识库自我改进的持续学习能力。
  • 长时自主运行:Logan 设想 I/O 2027 能说"这个模型已经连续跑了 30 天"。但要做到,需要记忆系统、持续学习、以及低延迟的更好硬件("跑 30 天要烧掉天量 token";Jeff:"如果一天就跑完,你会开心得多")。
  • 真正的瓶颈是工具,不是模型:Jeff 预测 Agent 会暴露"我们所有的工具都太慢"——很多工具是为人类的延迟节奏设计的,即使模型无限快,也会被这些交互拖住。Noam 神补刀:"那 30 天里,有 29 天半是花在等(外部工具)上。"
  • 远期(Noam):靠 Omni 这样的能力,未来或许进入物理产品,"开始移动原子,而不只是比特"——但这是"很远的未来的预测"。
"我们所有的工具都太慢。即使你把模型做到无限快,真实工作也会被那些为人类延迟节奏设计的工具交互卡住。" —— Jeff Dean
"移动原子,而不只是比特,就是未来。" —— Logan 总结 Noam
10

收尾:各自在搭的东西

核心论点:四个人此刻最享受的,恰好映射了"模型变强后,每个人想用它做的事"。

  • Jeff:享受越来越强的消费级产品——给刚生了第一个孩子的女儿做了张母亲节卡片。
  • Koray:刚搬来这边、买了新房,于是各种"房屋 DIY"——从家庭自动化到拿钉子和锤子修东西,"我喜欢动手做"。
  • Noam:"我就是在想办法让模型更聪明"(全场笑)——在搭新的模型架构。
  • Oriol:在搭一个研究知识库,把"过去太忙于建造而没法消化"的大量研究装进去,再造一个头脑风暴搭档,去想下一个大事可能是什么。
"我感受到了我们共同building这项技术时'人性的温度'。这场对话让我感受到了这一点。" —— Logan Kilpatrick(收尾)
11

附录:关键人 / 机构 / 产品 / 数据

名称说明
Gemini 3.5 Flash本期发布的模型,主打 agentic + coding;Gemini "第三代半"
Gemini 项目始于 2023;DeepMind + Google Brain 合并而成;名取"双子座"
Jeff DeanGoogle DeepMind 首席科学家;早年筛选所有工程简历;现聚焦推理硬件;2027 满 50 岁
Koray KavukcuogluGoogle CTO;原 DeepMind 代码审查负责人;聚焦产品/整体方向
Noam ShazeerTransformer 作者之一;早年 Google "Did you mean" 拼写纠错起步项目;聚焦模型
Oriol Vinyals研究 VP;2012 加入;distillation 早期项目;现深耕 Agent
Logan Kilpatrick主持人,Google DeepMind,主持 "Release Notes"
PathwaysJeff 推动的项目,三设想(单模型/多模态/稀疏)今体现于 Gemini;衍生 PaLM、PaLM 2
Omni多模态生成(视频/图像/音频),通往"真正的世界模型"
Veo / Nano Banana文本→视频 / 文本→图像 的相关模型
Distillation(蒸馏)把大模型(Pro)智能压进小模型(Flash);源自 Hinton 在 MNIST 的早期探索
MoEMixture of Experts,当前架构;Jeff 期待更"有机/流体"的架构
数据效率LLM 学习比人类差约 1000 倍;人一生约 10 亿词,模型万亿词级
DeepMind 收购当时约 55–60 人;13 场连续 30 分钟演讲;Geoff Hinton 因背痛躺地板
one-boxGoogle 早年"一个搜索框搞定一切"的哲学,今被"一个模型"重新实现