#340.：对话李飞飞与Justin Johnson:超越语言模型，构建理解三维世界的AI新前沿 - 跨国串门儿计划

节目

跨国串门儿计划

嘉宾

Fei-Fei Li、Justin Johnson

日期

2025-11

时长

59 min

查看原始内容 →

报告概述

本报告基于知名科技播客《Latent Space》中关于人工智能前沿发展的深度访谈内容，系统性地呈现了世界模型（World Models）与空间智能（Spatial Intelligence）作为下一代AI技术范式的核心理念、发展路径与实践蓝图。本次对话由世界模型初创公司World Labs的联合创始人李飞飞教授与前学生Justin Johnson共同展开，两位学者不仅回顾了从ImageNet时代到当前生成式三维世界模型的技术演进脉络，更深入探讨了算力规模化的历史性跃迁、多模态数据融合的工程挑战、以及人类智能与机器智能在认知维度上的根本差异。报告揭示了一个关键命题：尽管大语言模型在文本生成领域取得了突破性进展，但其对物理规律、空间关系和动态交互的理解仍停留在“模式拟合”层面，而真正的智能必须建立在对三维世界结构化、可推理、可交互的深层表征之上。这一洞察直接催生了World Labs的核心产品MARBLE——一个能够将文本或图像输入转化为高保真度、可实时编辑的三维虚拟世界生成系统，标志着AI从“像素级感知”向“空间级理解”的历史性跨越。

报告进一步剖析了支撑这一技术革命的底层逻辑：首先，深度学习的发展史本质上是一部算力规模化的历史，从2012年AlexNet依赖GPU实现性能飞跃，到今日单个模型动辄调用成百上千张显卡，算力提升已达百万倍级别，这为处理三维空间中海量信息提供了必要条件；其次，空间智能并非语言智能的简单替代，而是与其互补共存的认知维度，正如心理学家Howard Gardner提出的多元智能理论所揭示的那样，人类智能的完整性依赖于语言、空间、逻辑与情感等多重能力的协同；再次，当前AI系统虽能生成逼真的视觉场景，却难以真正“理解”物体间的物理约束与因果关系，例如无法自发推导出引力定律或预测结构稳定性，这暴露了现有模型在抽象推理与理论构建方面的根本局限。最后，报告强调，未来AI的发展不应是抛弃既有成果的颠覆性重构，而应是在Transformer等成熟架构基础上，通过引入新的数据表示（如高斯SPLATS）、训练范式与跨模态融合机制，实现对空间智能的渐进式突破。整个对话不仅是一场技术展望，更是一次对人工智能本质的哲学思辨，它呼吁学术界与产业界共同探索如何构建既能模拟现实世界又能支持具身智能体训练的通用世界模型，从而开启人机协作的新纪元。

核心观点一：从ImageNet到空间智能——AI演进的范式转移与历史纵深

人工智能的发展轨迹并非线性推进，而是一系列重大技术节点与社会共识共同塑造的结果，其中以ImageNet为代表的计算机视觉革命构成了当代AI的基石。李飞飞教授作为ImageNet项目的奠基人之一，其个人学术生涯的起点恰逢2012年，那一年AlexNet的横空出世不仅宣告了深度神经网络在图像识别任务上的压倒性优势，更标志着整个领域从传统特征工程转向端到端学习的范式转移。这一历史性时刻的背后，是计算硬件的革命性进步——从CPU到GPU的迁移，使得大规模并行计算成为可能，而这种算力的跃升至今仍在持续。据李飞飞所述，自她研究生毕业以来，如今可用的算力已比当年提升了约一百万倍，这种指数级增长为处理复杂三维世界数据奠定了物质基础。然而，这一算力的爆发并未止步于二维图像分析，反而推动了研究者们将目光投向更具挑战性的三维空间建模问题。李飞飞在博士期间便敏锐地预见到，计算机视觉的下一个十年将是“把人工智能从数据中心带到现实世界里”的过程，这正是她后来转向三维视觉、计算机图形学与生成模型研究的根本动因。

这一思想的延续体现在她与Justin Johnson早期合作的开创性工作中。早在2014至2015年间，二人便开始探索将卷积神经网络（CNN）的图像表征能力与循环神经网络（RNN）的语言序列建模能力相结合，以实现“图像字幕生成”（Image Captioning）这一目标。这项工作被视作连接视觉与语言的桥梁，其意义远超技术本身。> “我研究生毕业的时候真的以为自己整个职业生涯都会用来解决这个问题，就是给一张图片或一个场景用自然语言讲出它的故事。” 这句原话深刻揭示了当时研究者的雄心壮志——他们试图让机器像人类一样“看图说话”，这不仅是技术挑战，更是对机器是否具备“理解”能力的哲学叩问。该研究的成果发表于CVPR 2015年，成为该领域的里程碑论文。更令人印象深刻的是，这项工作在当时竟与谷歌的研究团队几乎同步独立完成，最终被《纽约时报》记者Markov报道为“同一时间的独立突破”，凸显了该方向的普遍吸引力与技术紧迫性。

随着研究的深入，李飞飞与团队并未满足于单一的全局描述，而是进一步提出了“密集字幕生成”（Dense Captioning）的概念，即对图像中的每一个显著区域进行独立的、详细的描述。这一构想在2016年通过一篇CVPR论文得以实现，其技术复杂度远超早期版本：模型需同时处理全局语义、局部区域检测与每个区域的文本生成，形成一个高度耦合的联合神经网络架构。> “这个网络实际上是一个联合的神经网络，它同时在学习观察单个图像。当时网络内部实际上有三种不同的表示，一种是整个图像的表示用来把握全局。然后它会提出自己想要关注的单个区域，在独立的表示每个区域。” 这种多层次、多粒度的建模方式，已经初步触及了空间智能的核心——对世界中不同实体及其相互关系的精细刻画。尤为值得一提的是，该系统在当时尚未出现PyTorch等现代框架的情况下，便实现了端到端的一次前向传播完成全部任务，并成功部署在斯坦福实验室的服务器上，通过网页前端实时接收网络摄像头视频流，进行现场演示。> “我就拿着这台笔记本电脑在实验室里到处走，哇，给人们展示这个网络实时运行的效果。” 这一场景生动展现了早期AI研究者对技术落地的热忱与创造力，也预示了未来AI系统将不再局限于静态输出，而是走向动态、交互式的实时体验。

这些早期探索为今天的世界模型奠定了坚实的思想与技术基础。李飞飞与Justin的学术传承，从ImageNet时代的图像识别，到图像字幕的语义理解，再到三维世界的生成与交互，构成了一条清晰的技术演进路径。这一路径表明，空间智能并非凭空而来，而是对已有技术的深化与拓展。当语言模型在文本生成领域取得巨大成功后，研究者们自然地将目光转向了更为复杂的视觉与空间信息处理，而这一切都根植于对人类智能本质的深刻理解——我们不仅用语言思考，更用眼睛、身体与空间互动来理解世界。因此，从ImageNet到空间智能的转变，不仅仅是技术指标的升级，更是一次对“什么是智能”这一根本问题的重新定义。

核心观点二：算力规模化与生态系统的双重变革——驱动世界模型崛起的底层引擎

世界模型的兴起并非偶然，其背后是算力资源的爆炸性增长与人工智能生态系统结构性变革的共同作用。李飞飞教授在访谈中明确指出：“我觉得深度学习的整个发展史，在某种意义上就是一部算力规模化的历史。” 这一论断精准地概括了过去十余年AI发展的核心驱动力。从2012年AlexNet的诞生，其性能的飞跃直接依赖于GPU的引入，使得原本在CPU上耗时数月的训练任务缩短至数天，这标志着计算范式的根本转变。然而，这一变革远未结束。根据李飞飞的估算，从AlexNet时代到今天，单块GPU的性能提升了约一千倍，而训练模型所使用的GPU数量则从单卡扩展至成百上千甚至上万张，导致整体可调动的算力提升了近百万倍。> “所以我们今天能在一个模型上调动的算力，比我刚读博士那会儿多了差不多100万倍。” 这一数字的对比，直观地展示了算力鸿沟的惊人规模，也为处理三维世界中海量的空间与时间维度数据提供了前所未有的可能性。

然而，算力的增加并非孤立事件，它深刻地重塑了人工智能的研发生态。在ImageNet与AlexNet时代，人工智能尚属小众的计算机科学分支，研究主要集中在学术界，开放科学与公开竞赛（如ImageNet挑战赛）是主流模式。彼时，研究者可以凭借几块GPU在实验室中训练出最先进的模型，创新更多源于个体的奇思妙想。但随着技术的成熟与资本的涌入，这一格局发生了根本性变化。> “五到十年前，你确实可以在实验室里只用几块GPU就训练出最先进的模型；但正是因为那项技术太成功、规模化得太厉害，现在你已经不可能再用几块GPU训练出最先进的模型了。” 这句话揭示了技术成功带来的悖论：当一项技术变得如此强大且普及时，其研发门槛也随之急剧上升，普通研究机构已无力承担高昂的算力成本。

这一趋势直接导致了学术界角色的演变。李飞飞教授坦承，她曾担忧学术界会因资源匮乏而失去创新能力，尤其是在面对产业界巨头的巨额投入时。> “我确实有些担忧，但与其说是担心压力，不如说是担心资源问题以及学术界资源的失衡。” 她进一步指出，当前的问题不在于开放与封闭的对立，而在于学术界缺乏足够的资源去尝试那些“稀奇古怪、全新的、疯狂的想法”。为此，她积极倡导为公共部门和学术界争取资源，例如推动美国国家人工智能研究资源（NAIRR）法案，旨在建立国家级的人工智能计算云与数据存储库，以确保研究的公平性与可持续性。> “我们曾与第一届特朗普政府合作，推动一项名为国家人工智能研究资源NAIRR的法案，该法案旨在规划一个国家级的人工智能计算云和数据存储库。” 这一努力体现了顶尖学者对维护健康AI生态系统的责任感。

与此同时，产业界则呈现出截然不同的发展路径。一方面，大型科技公司利用其雄厚的资本优势，构建封闭的专有模型，追求商业回报；另一方面，初创企业如World Labs则选择了一条中间道路：既致力于构建具有宏大愿景的世界模型，又将其设计为一款当下即可使用的实用产品。> “所以MARBLE一方面是朝着空间智能这个宏大愿景迈进的世界模型，另一方面我们也有意将它设计成一个大家今天就能实际使用的产品。” 这种“双轨制”策略，既保证了长期技术探索的纯粹性，又通过商业化产品获得持续的资金支持，形成了一个自我强化的良性循环。这种混合生态的存在，使得AI的发展不再是单一力量主导的竞赛，而是开放科学与产业创新并行不悖的复杂系统。因此，世界模型的崛起，既是算力进步的必然结果，也是整个AI生态系统在资源分配、激励机制与创新模式上不断演化的产物。

核心观点三：空间智能的本质与价值——超越语言模型的全新认知维度

空间智能并非对语言智能的简单替代，而是一种与之互补、共同构成完整智能体系的全新认知维度。李飞飞教授在访谈中明确指出，她并不认为空间智能与“传统智能”存在对立关系，而是将其视为人类智能多元性的一个重要组成部分。> “我个人不会说它是空间智能对立于传统智能，因为我不知道传统指的是什么。” 这一表态打破了将AI发展简化为“语言模型 vs. 其他模型”的二元叙事，转而采用更符合人类认知本质的多元智能理论框架。该理论由心理学家Howard Gardner提出，认为人类智能包含语言、空间、逻辑、音乐、身体运动、人际、内省等多种类型，每一种都对应着不同的认知能力。在此背景下，空间智能被定义为一种“能在空间中进行推理、理解、移动和交互的能力”，其核心在于对三维世界结构的内在把握与动态操作。

这一能力在人类日常生活中无处不在，却又常被忽视。李飞飞以“拿起一个杯子”为例，详细拆解了这一看似简单的动作背后蕴含的复杂空间认知过程：从视觉捕捉杯子的位置与姿态，到判断自身手部与杯子之间的几何匹配，再到精确控制手指施加的力以避免打滑或破碎。> “整个过程从看到杯子、看到它所处的环境、看到我自己的手到张开我的手以几何上匹配杯子的大小。再到触摸到正确的受力点，所有这一切都与空间深度相关。” 这一描述揭示了空间智能的非语言性本质——它依赖于对连续空间的直觉感知与身体协调，而非符号化的语言表达。相比之下，语言虽然强大，但其带宽极为有限。李飞飞计算道，一个人全天24小时不间断说话，以每分钟150词的速度，一天也只能产生约21.5万个token，而真实世界的信息量远超此数。> “而你所生活的这个世界，其带宽比这要高得多、得多。” 这种信息密度的巨大落差，解释了为何语言无法完全还原空间经验，也说明了为何人类进化出了强大的视觉与空间感知系统。

这种对空间智能的重视，源于对人类认知本质的深刻反思。李飞飞指出，我们之所以能从原始的感官经验跃升到抽象的理论构建，正是因为我们拥有一个“原生的空间理解”作为基础。> “我们很自然地就会跃升到语言和理论构建，作为一种在原生空间理解之上的抽象机制。” 大语言模型的出现，恰恰跳过了这一“原生空间理解”的环节，直接进入最高层次的抽象推理。> “某种程度上，大语言模型直接跳到了这些最高形式的抽象推理。” 这种跳跃虽然高效，但也可能导致信息损失，丢失了与真实世界直接互动的丰富细节。因此，空间智能的意义在于“重新打开那个黑匣子”，让我们有机会审视并弥补这一缺失。> “空间智能几乎就像是重新打开那个黑匣子，然后说：也许我们直接跳到那种完全抽象的语言推理和交流形式，是丢失了某些东西的。” 这一比喻极具启发性，它暗示了未来AI的发展方向不应是彻底取代人类的感知方式，而是通过构建能够模拟真实空间的模型，来增强人类对世界的理解与干预能力。

此外，空间智能的价值还体现在其对物理规律的潜在理解上。李飞飞强调，当前的AI系统虽然能生成逼真的视觉场景，但往往无法理解物体间的物理约束。> “但如果你让它画出力的矢量图，结果就乱七八糟，完全不符合物理规律。” 这一现象揭示了现有模型的局限性：它们擅长模仿表面现象，却未能掌握深层的因果机制。而真正的空间智能，应当能够像牛顿发现引力定律一样，从观测数据中抽象出普适的物理法则。> “如果给一个大圆模型足够的天体运动数据，它能非常准确地预测运动轨迹。” 但这仅限于预测，而非理解。要达到理解，需要一种基于实验与证伪的动态学习范式，即通过与环境的互动来不断修正对世界的假设。> “人们时时刻刻都在这么做，比如我以为我的钥匙在楼下，于是我下楼去找，没找到哦。天呐，原来他们在我的卧室里。” 这种基于行动的反馈循环，正是人类智能得以不断进化的核心机制。因此，空间智能的终极目标，不仅是生成逼真的虚拟世界，更是构建一个能够进行“心智理论”（Theory of Mind）和“物理直觉”（Physical Intuition）的智能体，使其行为不仅合理，而且可解释、可信任。

核心观点四：MARBLE的架构与应用——通往通用世界模型的首个里程碑

World Labs推出的首款产品MARBLE，不仅是技术的展示窗口，更是其宏大愿景的具象化体现。它被定位为“世界上第一款能够以如此高的保真度生成三维世界，并且交到公众手中的模型”，标志着AI从静态生成迈向动态交互的关键一步。MARBLE的核心功能在于，用户只需输入一段文本或一张/多张图片，系统便能生成一个与之匹配的、可交互、可编辑的三维世界。> “所以MARBLE你可以把它看作一个三维世界的生成模型，你输入文本、单张或多张图片，它就能生成一个与之匹配的三维世界。” 这种多模态输入能力，使得创作门槛大幅降低，使艺术家、设计师乃至普通用户都能轻松参与虚拟世界的构建。

MARBLE的成功，源于其独特的技术架构。其原生输出的数据结构并非传统的网格（mesh）或点云，而是被称为“高斯SPLATS”（Gaussian SPlats）的微小半透明粒子。> “今天模型原生输出的是 SPLATS，也就是高斯 SPLATS。每一个 SPLAT 都是一个微小的半透明的粒子，在三维空间中有自己的位置和方向。” 这种表示方法的优势在于其极高的渲染效率，使得在iPhone等移动设备上也能实现流畅的实时渲染。> “高速SPOTS的好处在于，你可以非常高效地实时渲染它们。比如在你的iPhone上就可以，这也就是我们能实现精确相机控制的原因。” 正是由于这种高效的渲染能力，MARBLE才能实现对摄像机位置的精确控制，这是许多其他视频生成模型所不具备的能力。> “在MARBLE里，你可以精确地控制摄像机的位置。” 而不是像其他模型那样，只能通过模糊的指令如“平移”、“拉远”来操控。

除了生成能力，MARBLE的另一大亮点是其强大的可编辑性。用户不仅可以生成场景，还能对其进行实时修改，例如改变物体的颜色、移动家具、调整地板材质等。> “比如我生成这个场景后，可以说我不喜欢这个水平，把它变成蓝色的，或者把桌子拿掉，把这些麦克风换个位置，然后你可以根据这些交互式编辑生成新的世界。” 这种“生成-编辑-再生成”的闭环，极大地增强了用户的创造自由度。更重要的是，这种编辑能力并非简单的参数调整，而是基于对三维空间的深层理解。> “能够录制意味着对摄像机位置的精确控制，而要实现精确的摄像机放置，就意味着你必须有三维空间感，否则你不知道如何定位和移动你的摄像机。” 因此，可编辑性本身就是空间智能的一种体现。

MARBLE的应用场景广泛，涵盖了游戏、电影、视觉特效设计以及机器人训练等多个领域。在创意产业，它已被用于快速原型设计和场景搭建；在机器人训练方面，其潜力尤为巨大。> “在模拟这一块儿，我们特别展示了这项技术在机器人训练方面的巨大潜力，并把它们分成成这又回到了我之前谈到的数据匮乏问题。” 机器人学面临的核心挑战之一是缺乏高质量的合成数据，而MARBLE恰好可以生成大量可控、多样化的虚拟环境，用于训练和测试具身智能体。> “你必须去整理素材、构建并组合出复杂的场景。” MARBLE的出现，有望极大缓解这一痛点。此外，其在室内设计领域的应用也初现端倪，> “我在 slack 上发了个视频说谁想用 Marble 来规划下一次的厨房改造？其实它现在已经非常适合做这个了，你只需要拍两张厨房的照片，在 Marble 里重建它，然后用编辑功能看看，如果换了台面、地板。” 这些意想不到的应用场景，证明了MARBLE作为一项“横向技术”的强大生命力。

核心观点五：未来展望与挑战——从世界模型到通用智能的漫长征程

尽管MARBLE已展现出惊人的潜力，但其背后的技术路径仍处于探索阶段，面临着诸多挑战与未知。首要挑战在于如何实现真正的动态与物理真实性。目前的MARBLE主要生成静态的三维场景，而未来的版本（如MARBLE II）预计将支持动态效果。> “我猜它现在还没有，也许MARBLE二会有动态效果，或者说对高斯SPLATS进行某种修改就可以实现。” 实现这一目标的方法包括：一是为每个SPLAT附加物理属性（如质量、弹性），并通过经典物理引擎进行模拟；二是采用“主帧生成”的范式，即用户每次交互时，模型重新生成整个场景。> “当用户做出一个动作时，模型会重新生成整个场景，无论是用SPLASH还是其他表示方法。” 这种方法虽然计算成本极高，但理论上能提供更强的通用性。

另一个核心挑战是数据与算法的平衡。李飞飞教授强调，世界模型的构建需要大量的高质量数据，而这些数据的获取与标注成本高昂。> “机器人训练非常缺乏数据，高保真的真实世界数据至关重要。” 为了解决这一问题，World Labs正在探索利用现有物理引擎生成合成数据，再通过知识蒸馏的方式将物理规律融入神经网络权重中。> “我们可以用传统的物理引擎来生成数据，然后用这些数据来训练我们的模型。这样你其实是把物理引擎的知识蒸馏到了你正在训练的神经网络的权重里。” 这种方法借鉴了游戏行业（如Ginie 3）的经验，将娱乐工具转化为严肃科研的基础设施。

最后，关于AI能否真正“理解”物理规律，仍是悬而未决的哲学问题。> “但如果你让它画出力的矢量图，结果就乱七八糟，完全不符合物理规律。” 这表明，即使模型能生成符合人类直觉的图像，也不等于它理解了背后的物理原理。李飞飞认为，这需要一种全新的学习范式，即通过与环境的互动来不断验证和修正假设。> “人们时时刻刻都在这么做，比如我以为我的钥匙在楼下，于是我下楼去找，没找到哦。天呐，原来他们在我的卧室里。” 这种基于行动的反馈循环，是通向真正理解的必经之路。

综上所述，李飞飞与Justin Johnson的对话，为我们描绘了一幅宏伟的AI未来图景：从语言模型的辉煌，走向空间智能的黎明。MARBLE只是第一步，但它所代表的，是一种全新的、以空间为中心的智能范式。这一范式不仅将重塑内容创作、工业设计与科学研究，更可能催生出能够与真实世界无缝交互的具身智能体。尽管前路充满挑战，但正如李飞飞所言，这是一个“非常激动人心的时刻”，值得每一位探索者投身其中。

原文转录

加载中...