Gemini co-leads on project origins and what's next

节目

Google for Developers

嘉宾

Jeff Dean、Koray Kavukcuoglu、Noam Shazeer、Oriol Vinyals

日期

2026-05

时长

42 min

查看原始内容 →

概要

Gemini 这个名字来自"双子座/双胞胎"——它本质是一次合并：把 DeepMind 与 Google Brain 分散的研究与算力"拧成一股"。起点是 Jeff Dean 写的一份从未公开的半页备忘录，核心论点只有一句：把最好的想法和算力分散在不同团队里，"很蠢（this is silly）"。
"单一、统一的强模型"是这群人最早、也最坚定的押注。它呼应了 Google 早年的 "one-box"（一个搜索框搞定一切）哲学——区别是，当年那个框背后是一堆各自独立的后端，而今天他们"真的造出了"那个框背后的通用 AI，一个后端。Koray 对"五年后 Google 有几个产品"的回答是："一个——就是模型。"
蒸馏(distillation)是 Flash 系列的魔法：每一代都能把上一代 Pro 的智能"压进"更小的 Flash，且 Flash 新一代正在超越 Pro 上一代。配方比十年前更简单了——从"50 个老师的集成"退化到"一个好老师 + 一个学生"，基本沿用原始论文。
真正的前沿有两个方向同时被点名为"惊人地难"：Oriol 认为是评测(evaluation)——如何不泄漏、又让用户认同数字；Jeff 认为是数据效率——LLM 要比人类多看约 1000 倍的数据才达到相似能力。
对 I/O 2027 的共识性预测是"自学习/持续学习(self-learning / continual learning)"：模型在人的指导下自我改进 Gemini 的不同部分；以及"长时自主运行"（设想一个模型连续跑 30 天）。但 Jeff 和 Noam 都泼了冷水：真正的瓶颈不是模型速度，而是"我们所有的工具都太慢"——它们是为人类的延迟节奏设计的。

起源：名字叫"双子座"，因为这是一次"反分裂"的合并

核心论点：Gemini 的诞生不是一个新模型的立项，而是一次组织决断——停止分散，集中算力与人才造一个模型。

在 Gemini 立项前，DeepMind（Oriol 主导部分方向）和 Google Brain（Jeff 推动 Pathways、PaLM、PaLM 2）在并行地"造通用模型"。Jeff 的判断是：这是在"分裂我们的努力，分裂我们的算力（fragmenting our efforts and fragmenting our compute）"。
他把这个论点写进一份半页备忘录，从未公开（Logan 当场提议"应该把它放出来"）。名字 Gemini = 双子座/双胞胎，正是"两个团队合一"的隐喻。Koray 打趣："我还以为是因为我有一对双胞胎。"
合并并不轻松：伦敦和山景城团队相差 8 个小时时区，"8 小时时差从来不是轻松协作的配方"。但 Koray 强调，两个组织都以巨大的紧迫感(great urgency)推进了它，因为大家都意识到"这就是该改变的时刻"。

"如果我们要造一个极其强大的模型，就必须所有人聚到一起，造一个模型。这其实就是 Gemini 这个名字的由来——双子座。" —— Jeff Dean

"与其各自并行地造东西……不如做这件聚焦的事。造一个模型比造五个模型好。" —— Koray Kavukcuoglu

为什么押注"单一模型"：从 one-box 哲学到"产品即模型"

核心论点：一个足够强的统一模型，本身就是 Google 智能的"核心引擎"，也可能就是终极产品形态。

Noam 把它接回 Google 最早的 "one-box" 哲学：一个搜索框，输入什么就给你什么——体育比分、股价。但当年后端其实是一堆"各自定制的、独立的后端"，有些算 AI，有些不算。用户*以为*背后有个通用 AI，"而现在我们真的把它造出来了……一个框，一个后端"。顺带一提，搜索里的 "Did you mean"（拼写纠错）正是 Noam 的起步项目。
Pathways 项目的三个最初设想——单一模型、多模态、稀疏(sparse，按需激活模型的不同部分)——"今天全都体现在 Gemini 里"。
当 Logan 抛出那个"挑衅性"问题：五年后 Google 是 3 个产品还是 10000 个？Koray 的回答是"一个"。但这并非全场共识：Oriol 坦言自己作为用户"喜欢关注点分离(separation of concerns)"——查日历、收邮件、买东西是主动选择，"现在押注单一产品，至少对我自己，我不会这么做"。

"我们终于有了配得上前端的后端，也有了对的界面——因为我们造出了那个 one-box。" —— Noam Shazeer

"Google 五年后有几个产品？" / "一个。就是模型。" —— Logan 问，Koray 答

产品反馈是模型进步的引擎，而不是"刷榜"

核心论点：真正的检验标准是"有人在用、对人有用"，而不是在黑盒里把 benchmark 刷高。

Jeff 用 Search 多年的经验类比：大量真实使用会告诉你"什么做得好、什么做得差"，聚合这些使用统计去深入理解、再针对性改进，"AI 模型不该有任何不同"。
Noam 的警告很直接：如果你"钻进盒子里去爬 benchmark，那你最后就只是爬了 benchmark，甚至可能泄漏了你的 benchmark，结局不会好"。Koray 补充："你不会想在黑盒里造智能，你要它有用。"
所谓"触碰前沿"是双重的：既是技术能力的研究前沿，也是"下一个能为用户带来什么"的产品前沿——"两者携手，才定义了前沿的含义"。

"你不会想在黑盒里造智能。你要它有用，要人们去用它。" —— Koray Kavukcuoglu

Omni 与"真正的世界模型"

核心论点：Omni 让 Gemini 从"理解+文本输出"跨进"能模拟世界并据此决策"的新品类。

Koray 给出世界模型(world model)的定义：真正理解动态、物理、视觉，并且能模拟(simulate)、把这个模拟向前推演(roll forward)——因为模型的决策正是基于这些对未来的模拟。这与过去"主要做理解+文本"的 Gemini、以及"文本输入做视频"的 Veo 都不同，是"真正在转变 Gemini 的品类"。
Oriol 描述了"涌现"的惊喜：过去要手动预设如何让一个复杂视频场景在时间上保持一致（"一转动，物体就消失了"）；而仅靠规模化训练 + 混合所有数据，这些能力就自己涌现出来了。"几年前你要是问我，我会觉得这条路几乎不可能成。"
Jeff 提醒"多模态"不该止于人类感官：模型应理解更丰富的科学模态——基因组序列、化学结构、机器人抓取数据、LiDAR 数据。"只要让模型见一点这类数据，它日后遇到更多时就会理解得好得多。"

"Gemini Omni 是一个不同的品类，它把我们过去那个'主要做理解和文本输出'的 Gemini，真正转变成了一个真实的世界模型。" —— Koray Kavukcuoglu

他们如何相识：一部"该拍成电影"的招募史

核心论点：这个模型能成，很大程度上因为这几个人彼此认识、信任已久——Jeff 是那条贯穿始终的线。

Noam（2000 年）：Jeff 当年三年间筛选所有进 Google 的工程简历（"no, yes, yes, no, no"，极快）。Noam 已拿到 offer 在犹豫，Jeff 打电话去"推销"——坦言"是的，我就是在推销，因为我想让他接 offer"。Noam 入职后成了 Jeff 3 年半的同办公室室友，而且 mentor 也是 Jeff——"每次问 mentor 他都知道答案，我以为这里人人都什么都懂，结果只是 Jeff 什么都懂，还写了半个代码库。"
Oriol（2012 年）：同样是 Jeff 打电话挖来的。他当时在写 PhD 论文最后一年，"那时没有 LLM，每个词都得自己写"。入职头两个项目之一就是 distillation，Jeff "亲手坐在桌前敲类——蒸馏、KL 散度"，Oriol 笑称"那会儿没有 coding agent，Jeff 当了一阵子项目的 coding agent，而且是个至今难以超越的硬基准"。
Koray（DeepMind 收购期）：在伦敦谈判时，满屋子人在讨论，Jeff 径直走来说"我们看看代码吧"。两人坐到键盘前，Koray 逐个目录、逐个文件讲解——"这是我们的第一次 code review"。那次去伦敦，他们没睡好就连看了 13 场 30 分钟的连续演讲；Geoff Hinton 因背痛躺在房间后面的地板上。当时 DeepMind 约 55–60 人。

"他们会直接给 Jeff 抱来一大摞简历，他就：不、要、要、不、不、不。极快。" —— Noam Shazeer

"我们看了 15 场（精彩的）演讲……但还是要——'我们实际看看代码吧'。" —— Koray & Jeff（Logan：这得拍成电影）

蒸馏：把 Pro 的智能"挤"进 Flash

核心论点：每一代都把 Pro 的智能压进更小的 Flash，且 Flash 新代已超越上代 Pro——而配方比十年前更简单了。

Oriol 说这是他"最没料到能持续做成"的事：一代又一代地把 Pro 的智能"打包回 Flash"，而且"有时甚至在加速"——Flash 下一代直接超越 Pro 上一代。"光是理解蒸馏怎么work，我至今着迷：怎么能把这么多智能塞进每个字节、每个参数？"
早期规模化蒸馏的做法（源自 Geoff Hinton 在 MNIST 这种"小到能在笔记本上跑"的数据集上的探索）：训练一个 50 个模型的集成、用 3 亿张图片，分组让每个擅长一类（汽车、野生动物），再用蒸馏把知识转移进单一模型——结果比直接用原始数据训练的单模型准确得多。
如今配方更简单：不再需要 50 个老师的集成，"一个非常非常好的老师 + 一个学生"，基本沿用原论文配方加一点小改动。（当 Jeff 要"剧透配方"时，Koray 连忙喊停"别说我们现在的做法"。）
Koray 的招牌比喻："就像挤柠檬——你挤柠檬，汁出来了，那是精华，把它倒进杯子，杯子就是你的小模型。"

"你有一个非常非常好的老师，再有一个学生……基本就是原论文那套配方，加一些小改动。基本精神还是一样的。" —— Jeff Dean

惊喜与遗憾：评测之难、数据效率与"更有机的架构"

核心论点：进步惊人，但几位负责人各自点名了仍未攻克、且"惊人地难"的方向。

Jeff（遗憾）：原以为会在持续学习(continual learning)和更有机、非结构化的架构上有更多进展。"现在我们用的是 MoE（很多专家，但结构都很相似），我一直觉得更'流体/有可塑性(plasticity, fluid)'的架构值得做——还没做，但现在这套确实管用。"
Noam（半玩笑的遗憾）："我们还没治好每一种病。你还不能输入'给我发明一个癌症解药'它就给你做出来。但我们在往前走。"
数据效率（Jeff）：人类学习效率约比 LLM 高 1000 倍——LLM 要看上千倍的数据才达到相似（某些方面略好、某些方面略差）的能力。人一生大概听过约 10 亿个词，而模型训练在万亿词级。"如果能让每个样本榨出 1000 倍的信息，那就太惊人了。"（Oriol 补了一刀反驳：模型是被预训练的，"你又不是第一个人类"。）
评测(Oriol 认为最难)："评测非常难，而且在社区里被低估了。"如何评估孤立的能力、判断下一个大事会是什么、又不泄漏进数据集、还让用户认同那个数字——"从论文里一张数字表，到如今有了真实用户和反馈，这件事惊人地难"。
模型仍有巨大余量（Koray）："现在的模型并不比三四年前大多少，但我们不断往里塞更多能力和信息……模型里还有非常多的空间。"这反而让他兴奋：算法层面"还有很大空间，会有大的创新让我们从模型里榨出更多"。

"每个 AI 研究者永恒的梦想是：怎么造出能泛化到它从未遇到过的东西的系统？而我们现在想做的是——泛化到任何人可能问的任何问题。这很难。" —— Jeff Dean

分歧与分工：现实让人达成一致

核心论点：这群人少有大分歧，因为 Gemini 高度数据驱动，而四人恰好覆盖了技术栈的不同关键面。

没有大的研究分歧——Koray 说，这群人"用实验试过各种东西"，很多想法是通过实验长出来的。Jeff 一直想要"更灵活、更有可塑性"的架构，"我们没做到，但也不是因为我们对此有分歧——是当前系统用经验告诉了我们该走哪条路"。
Noam 一语中的："现实是让人达成一致的好办法。你看实验结果，看什么work、什么不work。"
之所以能合作，关键在分工：Jeff 投在"未来推理硬件该长什么样"；Noam 在模型；Oriol 从模型转向 Agent 的深水区；Koray 看产品与整体方向（"我们和产品配合得好不好？体验对不对？跑得顺不顺？"）。"这是一整场技术变革，需要有人深入思考它的不同侧面。"

"我花很多时间想未来的推理硬件该是什么样……你没花多少时间，但我在厨房里跟你一描述，你就说'听起来不错，什么时候能有？'" —— Jeff Dean（全场笑）

对 I/O 2027 的预测：自学习、长时自主，与"太慢的工具"

核心论点：下一年的方向共识是自学习/持续学习与长时自主运行；但真正的瓶颈被点名为"工具太慢"。

自学习(self-learning)（Koray）：在模型已经很 agentic、很擅长写代码、且被用于自身研究的当下，"会有一个时间点，至少在实验层面，我们开始依赖模型去改进 Gemini 的不同部分"。Jeff 接话：明年大概率能指着模型里"某个由模型和 Agent 自我改进生成的重要成果"。Oriol 则更看重不更新权重、靠经验/知识库自我改进的持续学习能力。
长时自主运行：Logan 设想 I/O 2027 能说"这个模型已经连续跑了 30 天"。但要做到，需要记忆系统、持续学习、以及低延迟的更好硬件（"跑 30 天要烧掉天量 token"；Jeff："如果一天就跑完，你会开心得多"）。
真正的瓶颈是工具，不是模型：Jeff 预测 Agent 会暴露"我们所有的工具都太慢"——很多工具是为人类的延迟节奏设计的，即使模型无限快，也会被这些交互拖住。Noam 神补刀："那 30 天里，有 29 天半是花在等（外部工具）上。"
远期（Noam）：靠 Omni 这样的能力，未来或许进入物理产品，"开始移动原子，而不只是比特"——但这是"很远的未来的预测"。

"我们所有的工具都太慢。即使你把模型做到无限快，真实工作也会被那些为人类延迟节奏设计的工具交互卡住。" —— Jeff Dean

"移动原子，而不只是比特，就是未来。" —— Logan 总结 Noam

收尾：各自在搭的东西

核心论点：四个人此刻最享受的，恰好映射了"模型变强后，每个人想用它做的事"。

Jeff：享受越来越强的消费级产品——给刚生了第一个孩子的女儿做了张母亲节卡片。
Koray：刚搬来这边、买了新房，于是各种"房屋 DIY"——从家庭自动化到拿钉子和锤子修东西，"我喜欢动手做"。
Noam："我就是在想办法让模型更聪明"（全场笑）——在搭新的模型架构。
Oriol：在搭一个研究知识库，把"过去太忙于建造而没法消化"的大量研究装进去，再造一个头脑风暴搭档，去想下一个大事可能是什么。

"我感受到了我们共同building这项技术时'人性的温度'。这场对话让我感受到了这一点。" —— Logan Kilpatrick（收尾）

附录：关键人 / 机构 / 产品 / 数据

名称	说明
Gemini 3.5 Flash	本期发布的模型，主打 agentic + coding；Gemini "第三代半"
Gemini 项目	始于 2023；DeepMind + Google Brain 合并而成；名取"双子座"
Jeff Dean	Google DeepMind 首席科学家；早年筛选所有工程简历；现聚焦推理硬件；2027 满 50 岁
Koray Kavukcuoglu	Google CTO；原 DeepMind 代码审查负责人；聚焦产品/整体方向
Noam Shazeer	Transformer 作者之一；早年 Google "Did you mean" 拼写纠错起步项目；聚焦模型
Oriol Vinyals	研究 VP；2012 加入；distillation 早期项目；现深耕 Agent
Logan Kilpatrick	主持人，Google DeepMind，主持 "Release Notes"
Pathways	Jeff 推动的项目，三设想（单模型/多模态/稀疏）今体现于 Gemini；衍生 PaLM、PaLM 2
Omni	多模态生成（视频/图像/音频），通往"真正的世界模型"
Veo / Nano Banana	文本→视频 / 文本→图像的相关模型
Distillation（蒸馏）	把大模型(Pro)智能压进小模型(Flash)；源自 Hinton 在 MNIST 的早期探索
MoE	Mixture of Experts，当前架构；Jeff 期待更"有机/流体"的架构
数据效率	LLM 学习比人类差约 1000 倍；人一生约 10 亿词，模型万亿词级
DeepMind 收购	当时约 55–60 人；13 场连续 30 分钟演讲；Geoff Hinton 因背痛躺地板
one-box	Google 早年"一个搜索框搞定一切"的哲学，今被"一个模型"重新实现