VIDEO INSIGHT
DeepMind Chief Demis Hassabis Says Google's Still Winning AI Talent | Semafor Tech
概要
- Demis 说"我们已在 AGI 临门、奇点的山脚",并罕见地把话锋转向风险:cyber 攻击只是给人类的"警告射击(warning shot)",未来两三年可能来 bio、核等更严重的风险——他呼吁建一个理想中应是国际性的标准机构,去测试前沿系统是否稳健、护栏是否够。
- DeepMind 的真正护城河是"最宽最深的研究板凳":现代 AI 产业底层 90%+ 的大突破都出自 Google Brain / DeepMind——从撑起所有大语言模型的 transformer,到 AlphaGo 和强化学习的开创。即便如今三家前沿对手在抢人、"史上最惨烈竞争",他认为板凳深度才是赢 AGI 竞赛的底气。
- 戛纳的生成媒体工具,过去一年最大的变化是"细粒度控制":从一年前"不满意只能整张重生成",到现在能像对设计师说话一样用自然语言"留这块、改那块"、迭代上百次。配套的 SynthID 数字水印不可感知地嵌进所有生成内容、已开源给 OpenAI/Nvidia 等,他希望它成为法规级的"溯源检测"。
- 贯穿全场的核心线索:创造力、模拟、AGI 是同一条线。Demis 的整个生涯——做游戏 → 研究大脑里"想象"的机制 → AlphaFold → 生成模型 → 重建虚拟世界——其实在反复回到一个底层洞见:智能的本质是"重构式的想象/模拟",而同一套通用能力既能分析一个细胞、也能分析一段 YouTube 视频,既是创造力、也是科学、也是通往 AGI 的路。
- 他用一个"兜了一圈"的故事收尾:2003 年他做过一款野心过大的失败游戏 Republic,想模拟整个国家 10 万个活生生的人;二十年后,手握几十万 GPU,他认为两三年内或许真能"生成"那种世界——而这正是他更大的目标:让 AI 从数据里学出我们数学上还不够懂的系统(经济、天气)的模拟。
"我们已在奇点的山脚":AGI 临门,但他先谈风险
核心要点:面对"通往 AGI 是否只靠会写代码、找漏洞的纯文本自我改进模型",Demis 既不否认其威力,也把话锋转向了风险治理。
- 记者开场就点了当下的恐慌:华盛顿在禁某些 AI 模型,担忧多来自"能写软件、能在计算机里找漏洞"的文本模型——这条路是不是就通向 AGI?
- Demis:他长期公开表态——越接近 AGI("我认为我们现在就在临门一脚"、"在奇点的山脚下"),越需要更系统化的方法。前方机会惊人(解决所有疾病、找到新能源,这正是他一辈子做 AI 的理由),但风险也真实。
- cyber 只是开始:"这只是给人类的一次警告射击,我希望我们认真对待它"——更严重的 bio、核等风险可能在未来两三年到来,必须现在就准备;他主张建一个理想中国际性的标准机构,测试最新前沿系统是否稳健、护栏是否充分。
- 至于技术路径,他不押单一路线:Gemini 的缩放、coding,加上 Omni、VO 等多模态生成媒体模型——后者给模型"理解我们周围物理世界"的能力,而这是机器人、智能眼镜助手成真的前提。
- 记者听完俏皮一句:"那我就当你说'不'了。"(意即:不,AGI 不只靠纯文本模型。)
"We're on the cusp of AGI... in the foothills of the singularity." —— Demis
护城河是"最宽最深的研究板凳":90%+ 的大突破出自这里
核心要点:在人才被三家对手疯抢的当下,Demis 把 DeepMind 的底气押在研究广度上,而非单点抢人。
- 他给的硬数据:过去十年,撑起现代 AI 产业的大突破里,约 90% 甚至更多来自 Google Brain 或 DeepMind(当年是两个独立研究体、如今合并为 Google DeepMind)——从所有大语言模型基石的 transformer,到 AlphaGo 和他们当年开创的强化学习。
- 关于人才战:各前沿实验室之间人才大量流动,DeepMind"赢得我们应得的那份顶尖人才",但真正的差异是"拥有远比任何领先实验室都更大更宽的研究板凳";而且持续产出绝对前沿的工作。
- 他不回避竞争烈度:"这是个极其凶猛竞争的市场,可能是科技行业有史以来最惨烈的竞争。"
- 这一切在他看来是必然:2010 年他创立 DeepMind 时,业界几乎没人做 AI,学界更把它当"职业自杀"——"我们当然知道 AI 不行嘛,90 年代在 MIT 那些地方试过,是死胡同"是当时的主流看法。但他们一小队人押注学习系统、强化学习和神经网络,"最后我们对了"。
"Probably the most ferociously competitive there's ever been in the tech industry." —— Demis
生成工具的一年之变:从"整张重生成"到"留这块、改那块"
核心要点:在满是广告创意人的戛纳,Demis 说工具过去一年最关键的进步不是画质,而是"细粒度控制"。
- 工具本身在飞速迭代:新的 Omni 模型、做图像的 nano banana、视频的 VO,"每个月底层模型都在大幅变好"。
- 但他点的最大变化是控制粒度:一年前你生成一版,喜欢一部分、不喜欢另一部分,却只能整张重新生成;现在你能像对一个设计师说话那样用自然语言——"这块保持不变,把那个换成别的"——然后迭代上百次直到拿到想要的最终成品。
- 这种"细粒度控制 + 持续不断的质量提升",是他认为对创作者最有用的转变。
SynthID:不可感知、已开源的水印,他希望它成法规
核心要点:对"AI 创作是否该披露",Demis 拆成两层——deepfake 治理用技术兜底,普通创作用 AI 则未必需要披露。
- 三四年前刚开始做生成模型时,他们就已预见会进入一个"系统逼真到几乎照片级"的世界,因此造了 SynthID:稳健、近乎不可破、不可感知地嵌入图像,让任何公民、记者、政府都能检测一张图是不是 AI 生成。
- 覆盖面:他们所有生成音乐、图像、视频的模型都内嵌 SynthID,而且已开源给全行业——OpenAI、Nvidia 等许多大公司已采纳这个标准。他希望最终它"几乎成为一条法规":只要做生成媒体,就该带溯源检测——这也顺带解决版权方与 IP 的问题。
- 至于"用了 AI 该不该披露":他不确定——"也许只是我们所处的一个时代,以前你用 Photoshop 或别的工具,现在这是更先进的工具,但它只是你自己创造力的工具",不一定需要披露;但人们应当知道输出是合成生成的。
创造力是被削弱还是被放大:双刃,但专业人能做 10 倍
核心要点:会不会"现在只要叫模型做你当年苦熬多年才会的事"?Demis 的答案是双刃剑,但对专业创作者是巨大放大器。
- 民主化的一面:创作工具门槛降低,更多人能快速、便宜地试自己的点子;"门槛更低、把关更少(less gatekeeping)",意味着世界各地的新创作者都能找到入行的路。
- 双刃的另一面:它也会产出大量创意价值不高的东西。
- 专业一面:他们和很多专业导演、顶尖合作者一起、按需设计工具来增强其创作过程——"他们能做到过去 10 倍的事",更快迭代;创作者脑里的点子永远多到一辈子都做不完,这些工具让他们用相对便宜、快速的方式把更多点子试出来。
- 一句平衡的提醒:和任何新工具(互联网、计算机)一样,懒惰地用就削弱创作、创新地用就增益创作;创意行业还要花些时间摸索最佳用法。
- 他最懂的游戏业:朋友们很兴奋,但"至少游戏业还没找到任何深层的用法"——目前还只是做些素材、图形;他真正期待的是像 90 年代图形和 AI 首次进入电脑游戏那样,催生出全新的游戏类型。
"There's a lower bar to entry, there's less gatekeeping... they can do 10x more." —— Demis
版权与补偿:像流媒体那样,需要新的经济模型
核心要点:对"模型训练在人类作品上、创作者是否该被补偿",Demis 认为需要新经济模型,但精确归因极难。
- 他的判断:可能需要一个新的经济模型,科技业和创意业要一起来定——就像当年流媒体改变了音乐,YouTube 的 Content ID、Spotify 等拿出了真正稳健的新商业模式。
- 难点很实在:要精确归因"这是 1% 那个、5% 这个、10% 那个",在创意行业里几乎不可能客观达成一致。
- 他还抛了个哲学反问:人类创作者本身,"创造的东西也是我们所有经历、所学、所接触的其它艺术形式和创作者的输出",再混合自己的创造力生成新东西——某种意义上,这一直就是创作的过程。
一切相通:分析一个细胞和分析一段 YouTube,用的是同一套能力
核心要点:DeepMind 从第一天起的 AGI 论题,就是"通用能力"——这解释了为什么生成视频模型和治病的科学模型其实是一回事。
- AGI 的原始定义(DeepMind 创立之初的目标):一个能从几乎任意输入学习、产出有用洞见或发现有用模式、再以几乎任意方式输出的通用系统——"这显然就是人脑的工作方式:用我们狩猎采集者的大脑,造出了现代文明"。
- 与旧范式的对比:让系统通用且会学习,而不是把答案硬编码、硬编程进去——"回头看挺好笑的,但这正是 AI 这个领域头 50、60 年在做的事",比如 Deep Blue 那样的国际象棋程序。
- 关键洞见:很多能力是通用的、不可分割的。要一个能分析科学数据(包括细胞图片、蛋白、分子的视觉数据)的通用系统,所需的视觉能力,和分析 YouTube 视频、或一台摄像头传来的画面,是同一类能力——你为一件事开发它,其实只是通往另一件事的手段。
- 这也解释了为什么 DeepMind 头五六七年专攻游戏(Go、Atari):"我选游戏一个原因是我爱游戏、我做游戏",但真正的原因是游戏是当时 AI 系统恰好够得着、可量化、impressive 又极难的中间目标——它们从不是目的,而是一架研究阶梯,通向今天能解决蛋白折叠(AlphaFold)、药物发现这类真实科学问题的系统。他个人的时间,主要花在"AI for science"——这一直是他的主要热情和造这些工具的初衷。
海马体与想象:记忆是"重构",所以想象和记忆同源
核心要点:Demis 用自己 2007 年那篇神经科学名作,解释了视频模型"从 prompt 重建世界"和大脑"想象"在系统层面的相似。
- 这条贯穿线的源头:他早年先用自己的视觉创造力设计、编程电子游戏——他当年的创作方式是"极其身临其境地可视化一个孩子在玩这个游戏、用这个界面",在还没编出来之前就在脑中模拟会遇到什么问题、怎样才好玩。我们每天规划(比如想象一场重要的商务晚宴:谁坐哪、怎么开场、大家会怎么想)也在用这种"想象/未来思考"能力。
- 转去做神经科学博士时,他本该研究记忆,却带着一个直觉:读完记忆文献,有两派——一派认为记忆像录像带、把发生的一切录下来(他直觉觉得错);另一派认为记忆是重构过程,你回忆时是在从碎片主动重建(他直觉觉得对)。
- 如果记忆是重构的,那想象就该用同一套脑机制——只是目标不同:记忆是重建一个熟悉的东西,想象是用同样的零件造一个对你的大脑而言全新的东西。
- 验证(完整故事):英国有极少数患者得了一种只攻击海马体、其余大脑完好的病;他们把每一个都去访谈了一遍。此前所有人只测这些患者的记忆,而他和团队是第一个测他们"想象力"的人——结果正印证了猜想:海马体受损的人既不能记忆、也不能想象/描绘未来。(盲人 fMRI 研究也发现他们会调用视觉脑区——视觉与创造力深度相关。)
- 回到 AI:他认为视频模型从 prompt 重建世界,和大脑在系统层面确有相似——但实现不是一对一,做神经科学从来不是为了复制大脑,而是理解大脑可能用的原理、算法和表征,再把这份灵感抬进 AI 模型的方向。如今不少神经科学教授朋友正拿最新模型对比 fMRI:解码一个人正在想或梦到的图像、用模型重建出画面、再问扫描仪里的被试"是不是这个"——答案是"是"。"未来几年我们会有这种科幻设备。"
"Memory is a reconstructive process... so imagination should use the same brain mechanisms." —— Demis(转述其核心论点)
Einstein 测试:真正的创造力是提出全新假设,需要"原子的世界"
核心要点:Demis 用一个思想实验定义"真创造力"——并据此论证为什么纯语言/逻辑可能不够。
- 他提过的 Einstein 测试:给一个 AI 模型只有爱因斯坦当年有的数据、截止到 1901 年,看它能不能做出爱因斯坦做的事——提出相对论。
- 为什么用它定义创造力:人们总问怎么定义创造力——不是外推已知,而是真的提出一个关于现实某部分、genuinely novel 的新科学假设,就像爱因斯坦 1905 年那组实验和论文。
- 纯语言够不够:也许语言里就藏着足够的、交叉关联的线索,只要你能把它全读完、全握在脑中。但爱因斯坦在瑞士专利局当职员时是靠白日梦——"如果你以光速旅行会看到什么"这类视觉思想实验——用他的视觉想象装置先想出新理论,再用数学证明。
- 结论:要提出并检验新假设、做新实验,"你需要理解原子的世界,而不只是比特的世界、逻辑的世界"。
从失败的 Republic 到虚拟世界:兜了一圈,模拟即想象
核心要点:Demis 用一个二十年的"全圈"故事,把模拟、想象、AI 和他更大的目标缝在一起。
- 故事(完整弧):2003 年在他创办的 Elixir,他做了一款叫 Republic: The Revolution 的游戏——想模拟整个前苏联式国家、10 万个活生生的人各自过日子和其中所有政治,玩家要发动一场革命。野心太大、全靠手写、做了好几年,最终是个失败——"在 2003 年的 Pentium 上,确实太超前了","我是领先时代好多年"。
- 全圈:如今他手握几十万 GPU,又在建虚拟世界——"挺有意思,兜了一圈回来"。他认为两三年内,或许就能用他们的系统直接"生成"那种世界模拟,真正实现他当年的设想。
- 为什么这一切相通:模拟和 AI 是根本且紧密相关的。想象,本质上就是一种模拟——模拟之所以有用,是因为它让你在理论上试很多条路、再选最优。这正是 AlphaGo 做的:在当前局面用蒙特卡洛搜索模拟数万步、用围棋模型把范围约束到有用路径、评估 20-30 步后哪个终局最有希望,再据此走下一步、最终击败世界冠军。
- 更大的野心——把这套用到现实:机器人、助手、科学,乃至经济学。"现在我们是把利率上下调半个百分点,然后看——糟糕,是不是引发了衰退?"但更好的方式是从此刻起模拟数十万条经济轨迹、看你拨动这些大杠杆会怎样、得到统计聚合,再做更严谨、科学的快速决策。问题是社会科学不能像自然科学那样反复受控重跑。
- 这就引出学习型模拟:如果你足够懂底层系统就能手写模拟;但多数我们想模拟的东西(天气——他们有"世界最好的天气模型"、或经济)我们在数学层面还不够懂其运作,于是让 AI 从数据里学出那个模拟。"这就是我想做的更大的目标。"
"Imagination... it's a type of simulation." —— Demis
附录:关键人 / 产品 / 概念 / 数据
| 项目 | 详情 |
|---|---|
| Demis Hassabis | Google DeepMind CEO;AlphaFold 缔造者、诺贝尔化学奖得主;神经科学博士、前游戏设计师 |
| Google DeepMind | Google Brain + DeepMind 合并;据 Demis 现代 AI 90%+ 大突破出自这里 |
| transformer / AlphaGo / RL | 撑起所有 LLM 的架构 / 击败围棋世界冠军 / DeepMind 开创的强化学习 |
| Omni / VO / nano banana | 多模态生成媒体:综合 / 视频 / 图像模型 |
| SynthID | 不可感知数字水印,嵌入所有生成内容;已开源,OpenAI/Nvidia 等采纳;望成法规级溯源 |
| AlphaFold / Isomorphic Labs | 蛋白折叠 / 药物发现与"虚拟细胞"——Demis 的"AI for science"主线 |
| Deep Blue | 旧范式硬编码代表;AI 头 50-60 年都在硬编码 |
| 海马体 2007 论文 | 记忆=重构过程→想象同脑机制;海马体损伤者既不能记忆也不能想象未来 |
| Einstein 测试 | 只给 1901 前数据看能否推出相对论;定义"真创造力"=提全新假设 |
| Republic: The Revolution | Elixir 2003 失败游戏;模拟整国 10 万真人;"领先时代好多年" |
| AlphaGo 蒙特卡洛 | 模拟数万步、约束到有用路径、评估终局——"想象=模拟"的范例 |
| 90% / 2010 / 2-3 年 | 大突破占比 / DeepMind 创立年(AI 当时是"职业自杀")/ 或可生成世界模拟的时间 |
| 经济学模拟 | 与其加息 0.5% 看是否衰退,不如模拟数十万条轨迹再严谨决策 |