← 返回
54 min 2025-12

#361.Demis Hassabis 展望 AI 未来:从 AGI 路径、世界模型到社会变革 - 跨国串门儿计划

报告概述

本报告基于对 Google DeepMind 联合创始人兼 CEO Demis Hassabis 与主持人 Hannah Fry 教授在《Google DeepMind 播客》年终特别节目中的深度对话的全面分析,系统性地梳理了当前人工智能领域最前沿的战略方向、技术路径与社会影响。该对话不仅揭示了通用人工智能(AGI)实现的关键前提与核心挑战,更深入探讨了以“世界模型”和“AGENT”为核心的下一代智能系统的技术演进逻辑,以及这些突破性进展对科学发现、产业应用与人类社会结构可能带来的根本性重塑。Hassabis 作为全球AI领域的领军人物,其观点兼具战略高度与实证基础,将技术发展置于历史长河与哲学思辨之中进行审视,展现出一种罕见的系统性思维。

报告的核心脉络围绕三大支柱展开:第一,实现通用人工智能的双重路径——即“规模化”与“创新”的平衡,以及由此衍生出的对模型一致性、推理能力与自我反思机制的深刻反思;第二,世界模型与AGENT系统的革命性潜力,包括其在科学模拟、机器人控制、游戏设计及社会演化实验中的多重应用场景,以及如何通过物理基准测试确保其真实性与可靠性;第三,AGI到来前的社会准备与长期治理框架,涵盖对工业革命历史经验的借鉴、后稀缺时代经济体系重构的可能性、全民基本收入与直接民主等制度设想,以及国际合作在应对超级智能风险中的关键作用。整个对话贯穿一个核心命题:我们正站在一场比工业革命更为深远、速度更快的技术奇点边缘,而能否安全、负责任地穿越这一临界点,取决于我们是否能在技术跃迁的同时,同步构建起相应的伦理、制度与全球协作机制。

核心观点一:实现通用人工智能的双重路径——规模化与创新的不可分割性

Demis Hassabis 在本次对话中反复强调,实现通用人工智能(AGI)的路径并非单一维度的线性推进,而是建立在“规模化”与“创新”两大支柱的动态平衡之上,二者缺一不可。这一判断不仅是对当前技术发展节奏的精准概括,更是对未来十年AI演进范式的根本性预判。他指出,DeepMind 的组织策略正是基于这种对称投入原则:“你可以这么理解,我们基本上是把精力对半分,一半投入到规模化上,另一半投入到创新上。” 这种双轨并行的模式,既保证了在现有技术架构下持续提升模型性能的边际收益,又为突破性科学问题的探索保留了足够的资源与空间。这种战略选择的背后,是对AGI本质的深刻理解——它不是某个单一技术的爆发,而是一个由工程能力、算法突破与科学洞察共同驱动的系统性工程。

在规模化层面,Hassabis 明确承认当前大模型的发展仍处于“中间地带”,即尚未进入完全停滞或指数级增长的极端状态,而是呈现出显著但非爆炸性的性能提升。他以 Gemini 三(Gemini 3)为例,指出尽管该模型在多模态能力上取得了显著进步,但在诸如幻觉(hallucination)等关键缺陷上依然存在,这表明单纯依赖数据规模与参数量的增长已无法解决所有问题。然而,他同时驳斥了“数据耗尽论”的悲观预测,认为通过合成数据(synthetic data)等手段,系统本身已具备生成高质量训练数据的能力,尤其是在编程与数学这类可验证答案的领域,几乎可以实现无限的数据供给。这一观点打破了传统认知中“数据是瓶颈”的假设,暗示着未来的竞争焦点将从“获取数据”转向“生成与利用数据”的能力。

在创新层面,Hassabis 强调了“根节点问题”(root node problem)的战略意义,即通过攻克少数具有广泛赋能效应的基础科学难题,来撬动整个技术生态的跃迁。AlphaFold 的成功便是这一理念的最佳例证——它并非一个通用人工智能模型,而是利用Transformer等基础技术,在蛋白质折叠这一特定科学问题上实现了突破,从而为药物研发、材料科学等领域提供了前所未有的工具。正如他所言:“最明显的一个证明就是AlphaFold。说起来有点疯狂,AlphaFold发布差不多快五周年了,至少是AlphaFold二。所以它证明了解决这类根节点问题是可能的。” 这一成就不仅验证了AI在科学发现中的巨大潜力,更成为后续探索室温超导体、新型电池、核聚变等重大科学目标的范式模板。他进一步透露,DeepMind 正与 Commonwealth Fusion Systems 深化合作,旨在利用AI加速托卡马克反应堆的磁约束与材料设计,这标志着AI正从“辅助工具”向“核心驱动力”转变。

“我的判断是要实现通用人工智能,这两者缺一不可。”
—— Demis Hassabis

这一核心论断的深层含义在于,任何试图偏废其中一端的策略都将导致系统性风险。若过度追求规模化,可能导致模型在复杂推理、因果理解与自我反思方面出现严重短板,形成“参差不齐的智能”(inconsistent intelligence),即在某些任务上达到博士水平,而在另一些基础逻辑问题上连高中生都难以企及。反之,若只专注于纯粹的科学研究,虽能产出如AlphaFold般的里程碑成果,却可能错失将技术快速推向大众、实现商业价值与社会影响力的窗口期。因此,Hassabis 的战略愿景是一种“螺旋上升”的发展模式:通过创新项目积累科学成果与社会信任,再将这些成果反哺于规模化实践,从而为最终的AGI构建提供坚实的技术与资本基础。

核心观点二:世界模型与AGENT系统——通往具身智能与科学模拟的新范式

如果说规模化与创新构成了AGI发展的“地基”,那么以“世界模型”(World Model)和“AGENT”为核心的系统,则代表了通向真正智能体的“建筑蓝图”。Hassabis 将此视为自己职业生涯中最热衷的领域之一,并明确指出,语言模型虽然在理解世界信息方面表现出色,但其局限性在于无法捕捉“空间动态”与“物理因果关系”等关键维度。他解释道:“很多东西是语言难以描述的,在语料库里也通常没有描述。而这些大多都和从在线体验中学习有关。有很多东西你真的没法用语言描述,你必须去体验。” 这一洞察直指当前大模型的根本缺陷——它们本质上是“离线”的文本处理系统,缺乏对真实物理世界的感知与交互能力。

为弥补这一鸿沟,DeepMind 正在构建能够模拟真实世界力学规律的“世界模型”。其核心逻辑在于:如果一个系统能够生成逼真的、符合物理定律的世界,那么它必然已经内化了对世界运作原理的理解。Hassabis 以视频生成模型(如 G and V)为例,指出这些系统在处理反射、液体流动等复杂现象时已展现出惊人的准确性,这正是其掌握“直觉物理”(intuitive physics)的初步证据。然而,他同时强调,目前的模型仍停留在“近似”阶段,尚不足以用于机器人控制等高精度场景。因此,下一步的关键是建立严格的“物理基准测试”(physical benchmarking),例如使用精确的游戏引擎创建一系列标准化实验,如小球沿不同轨道滚动、碰撞等,以检验模型是否真正掌握了牛顿三定律。这一方法论的提出,标志着AI评估标准正从“看起来像”向“实际上正确”转型。

在此基础上,AGENT(代理)的引入使世界模型的应用价值得到质的飞跃。Hassabis 详细介绍了其团队的 SIMMER 项目,特别是 SIMMER 2 的最新进展。该系统允许一个AGENT被部署在一个由 Gemini 内核驱动的动态虚拟世界中,例如《无人深空》这类复杂的开放世界太空游戏。更令人兴奋的是,当将 SIMMER AGENT 与另一个由 Gemini 驱动的环境(GENIE)连接时,两个AI系统便形成了一个“相互想象”的闭环:SIMMER AGENT 在世界中导航,而 GENIE 则根据其行为实时生成世界内容,仿佛两个AI在彼此的“脑海”中互动。这种机制创造了一个近乎无限的训练循环,因为无论AGENT想学习什么,GENIE都能即时生成相应的场景与任务。

“所以你可以想象一个完整的世界,里面有数百万个任务被自。”
—— Demis Hassabis

这一设想的深远意义在于,它为解决当前AI训练样本不足的问题提供了全新路径。传统的监督学习依赖于人工标注的数据,而这种“自生成-自学习”的循环则能产生海量、多样且情境丰富的训练数据。更重要的是,这种系统天然具备“好奇心驱动”的特性,正如Jenny团队所言:“几乎所有重大发明的先决条件,都不是为了那个发明本身而创造的。” 这种机制有望催生出真正的自主探索与创造性发现,而非仅仅模仿人类已有知识。此外,这些AGENT学到的知识也可能直接迁移至现实世界的机器人技术,使“无聊的NPC时代”走向终结。

核心观点三:AGI的社会冲击与治理框架——从工业革命的历史镜鉴到后稀缺时代的制度重构

当技术的边界不断被突破,其对社会结构的冲击也随之浮现。Hassabis 在对话中多次引用工业革命的历史经验,将其作为理解AGI潜在影响的参照系。他指出,工业革命带来了儿童死亡率下降、现代医学、交通与卫生条件的巨大进步,其整体效益远超短期阵痛,以至于“没人会想回到工业革命之前”。然而,这一进程也伴随着长达一个世纪的劳动力替代、社会动荡与制度重建,如工会的兴起与工作周的重新定义。他警示道:“这次的不同之处在于它的规模可能比工业革命大十倍,发生的速度可能也快十倍,所以更像是在十年内展开,而不是一个世纪。” 这一判断凸显了当前AGI发展速度的空前性,意味着社会适应与制度调整的时间窗口被急剧压缩,亟需提前布局。

面对这一挑战,Hassabis 提出了多层次的治理与社会重构设想。首先,他强调了经济体系的根本性变革需求。在他看来,当前“用劳动换取资源”的经济模式在后AGI时代将不再适用,因为机器将承担绝大部分生产任务。为此,他提出了超越“全民基本收入”(Universal Basic Income, UBI)的更深层次解决方案,即一种基于“积分投票制”的直接民主系统。在这种系统中,社区成员可以通过投票决定公共资源的分配,如建设游乐场、网球场或学校教室,而投票权重可根据其历史决策的有效性动态调整。这种机制不仅赋予个体更大的参与感,还能通过统计分析优化集体决策质量。

“我认为工业革命当然有其利弊,在当时,但如果你想想它整体上带来的好处,比如西方世界的食物丰裕、现代医学、现代交通等等,没人会想回到工业革命之前。”
—— Demis Hassabis

其次,他呼吁建立强有力的国际协作机制。他坦言对当前全球治理机构的分散性感到担忧:“现有的机构似乎非常分散,影响力也远没有达到所需要的水平。所以很可能现在根本没有合适的机构来处理这件事儿。” 这种担忧在气候变化谈判中已有充分印证。他相信,随着AGI能力的不断增强,普通人也能直观感受到其力量,从而推动政府层面的认知觉醒。他甚至设想,一次中等规模的技术事故可能成为全球警钟,促使各国在基本标准上达成一致。

最后,他对人性与意义的哲学追问展现了深刻的思考。他指出,许多人的人生意义源于工作与养家糊口,一旦这些角色被机器取代,社会将面临前所未有的精神危机。他问道:“但也许我们已经解决了核聚变问题,有了充裕的免费能源。我们进入了后稀缺时代,那么钱会变成什么样?也许每个人的生活都更好了,但意义怎么办呢?” 这一诘问直指AGI终极目标的悖论:技术越强大,人类存在的独特性就越需要被重新定义。

次要观点与细节:技术演进中的关键挑战与未来展望

在深入探讨宏观战略的同时,Hassabis 也细致剖析了当前技术演进中的具体挑战与未来图景。关于模型的“幻觉”问题,他指出这并非简单的错误,而是一种“强迫回答”的机制,即系统在应拒绝回答时仍强行输出答案,这暴露了其在不确定性管理上的缺失。他提出,未来系统应具备类似 AlphaFold 的置信度评分机制,让模型能够自我评估其回答的可靠性。这一能力的实现,将是迈向可信AI的关键一步。

在技术融合方面,他特别提到了 Nano Banana Pro 系统,这是一个基于 Gemini 内核的高级图像生成工具。其独特之处在于不仅能理解图像内容,还能从语义上解析物体的构成与机械原理。例如,它可以对一张复杂飞机图片进行拆解,标出所有部件并可视化展示,这表明其在三维空间理解与物理常识方面已具备深度认知。这一进展被视为“图像领域通用人工智能”的重要雏形。

在长期愿景上,他表达了对“意识”本质的哲学兴趣。他提出,若要真正理解人类心智的独特性,或许需要在模拟世界中进行“演化实验”,重演生命与意识的起源过程。他引用圣塔菲研究所的网格世界实验,指出在正确激励结构下,AGENT能自发创造出市场、银行等复杂社会制度。他认为,这种受控的模拟实验,是研究生命与意识起源的“最强大的工具之一”。

总结与启示:在技术奇点前的清醒与责任

综上所述,Demis Hassabis 的这场对话不仅是一次技术路线图的分享,更是一份面向未来的战略宣言。他清晰地勾勒出一条从“规模化与创新并重”到“世界模型与AGENT驱动”的技术演进路径,并深刻预见了AGI对社会结构、经济模式与人类意义的颠覆性影响。其核心洞见在于:技术的突破性并不等于社会的适应性,真正的挑战在于如何在技术跃迁的同时,构建起相应的伦理、制度与全球协作框架

报告的最终启示在于,我们正处在一个前所未有的历史节点。如同工业革命改变了人类与自然的关系,AGI将重塑人类与自身智能的关系。Hassabis 以“我一生都在为之训练的事情”来形容此刻的使命感,这不仅是个人的奋斗,更是全人类共同的责任。唯有保持清醒、拥抱合作、前瞻布局,我们才能确保这场技术革命最终服务于全人类的福祉,而非陷入失控的深渊。