Fei-Fei Li: World Models and the Multiverse

节目

The a16z Show

嘉宾

Fei-Fei Li

日期

2025-06

时长

23 min

查看原始内容 →

概述

本播客以著名人工智能学者、前斯坦福大学教授、现世界模型公司（World Labs）联合创始人李飞飞（Fei-Fei Li）为核心人物，深入探讨了当前人工智能发展进程中一个被长期忽视但至关重要的核心命题：三维空间智能的缺失正在制约下一代通用人工智能的演进路径。李飞飞以其跨越学术与产业的双重身份，系统性地揭示了语言模型（LLM）在处理现实世界物理空间时的根本性局限——语言作为一种“有损编码”方式，无法有效捕捉三维物理世界的精确性、连续性和动态交互本质。她指出，人类智能的根基远不止于语言，而是深深植根于对三维感知世界（3D perceptual world）的构建与重构能力，这种能力贯穿从原始动物演化到现代文明创造的全过程。因此，她提出必须超越语言这一单一模态，转向构建能够理解、生成并操作三维数字世界的基础模型，即“世界模型”（World Models），这不仅是技术范式的跃迁，更是对人工智能本质认知的一次根本性重塑。

报告的核心逻辑链条清晰而深刻：首先，通过回顾自身学术生涯中对数据驱动AI的开创性贡献，李飞飞表达了对当前AI迅猛发展的“情感上的震惊”——尽管 intellectually 早已预见其趋势，但当数据密集型模型展现出真正意义上的“思考机器”般的涌现行为时，仍令人震撼；其次，她将问题聚焦于“为何语言模型（LMs）不足以支撑未来智能体？”的答案在于，语言是纯粹生成性的符号系统，而真实世界是物理存在的、可测量的、具有拓扑结构的三维实体，其理解必须依赖于空间重建能力；再次，她以极具说服力的个人经历——因角膜损伤导致短期单眼视觉丧失——作为隐喻，生动阐释了人类大脑如何依赖立体视觉进行深度判断，而任何非生物智能体若仅接收二维信息，则永远无法获得完整的空间认知，从而在导航、抓取等任务中陷入致命盲区；最后，她阐述了World Labs的创立动因并非出于商业冲动，而是源于一种“北极星问题”（north star problem）的执着追求——即如何让机器像人类一样“看见”并“理解”三维世界，并由此催生出无限可能的应用场景，包括机器人、创意设计、虚拟世界构建乃至“多宇宙”式的生活方式。整个报告不仅是一次关于技术方向的宣言，更是一场关于智能本质、人类认知边界与未来文明形态的哲学思辨。

核心观点一：语言模型的局限性源于其对三维物理世界的编码失效

语言模型之所以无法成为通用智能的终极载体，根本原因在于其赖以运作的“语言”本身是一种高度抽象且失真的信息表达形式，它无法承载三维物理世界所蕴含的精确几何关系、动态交互过程以及空间拓扑结构。李飞飞强调，语言虽是人类思想和知识的强大编码工具，但其本质是“损失性”的（lossy），即在传递过程中必然丢失大量关于物体位置、尺寸、姿态、运动轨迹及相互作用的关键细节。她指出：“语言是捕获世界的一种非常不准确的方式，因为现实是如此复杂且精确。” 这一论断直接挑战了当前主流AI范式中“语言即一切”的假设，揭示出一个被广泛忽略的事实：我们日常交流所依赖的语言，实际上只是对真实世界的一种简化描述，而非世界本身的完整映射。例如，当一个人用语言描述一个房间时，即便能说出“十英尺前方有一只杯子”，也无法传达该杯子的具体形状、材质、与周围物体的相对位置、是否处于稳定状态或是否可被移动等关键信息。这种信息的缺失使得基于语言指令的智能体在执行实际任务时面临巨大障碍。

为了进一步阐明这一观点，李飞飞提出了一个极具启发性的思想实验：设想你被蒙上双眼，仅凭他人用语言描述的房间布局来完成一项具体任务，如“拿起桌上的水杯”。在这种情境下，成功的概率极低，因为语言描述无法提供足够的空间参照系和深度感知。相比之下，若你睁开双眼，直接观察房间，你的大脑会立即启动三维重建机制，自动构建出一个包含所有物体空间位置、距离、遮挡关系的内部表征，从而能够精准地伸手去拿杯子。这一对比清晰地表明，人类在面对真实世界时，依赖的不是语言本身，而是对三维视觉世界的直接感知与内在重构能力。李飞飞特别强调：“我们做很多语言处理，用来沟通和表达高层次想法，但当我们涉及导航真实世界时，我们真正依赖的是世界本身以及我们重建它的能力。” 这一洞察从根本上否定了将语言视为唯一智能接口的合理性，也指明了通往真正具身智能（embodied intelligence）的必经之路——即必须建立能够处理三维空间信息的模型体系。

原话摘录：

> “Language is a lossy way to capture the world, and also one subtlety of language is purely generative. Language doesn't exist in nature. We look around, there's not a syllabus or word.”

该原话精准概括了语言的本质缺陷：它既非自然存在，又无法完整还原物理现实，其生成性特征决定了它只能作为对世界的近似表达，而非世界本身。这一观点为后续讨论三维模型的必要性奠定了坚实的理论基础。

核心观点二：三维空间智能是人类进化史与文明创造力的基石

李飞飞进一步论证，三维空间智能并非人类后天习得的技能，而是贯穿生命演化历程的核心驱动力。从最原始的动物开始，其生存策略就建立在对环境的空间感知之上——无论是捕食者追踪猎物，还是猎物躲避天敌，都依赖于对三维空间的实时判断与反应。这种基于运动与互动的感知机制，正是空间智能得以诞生的土壤。她指出：“动物的整个演化历史都是建立在如此多的感知和最终具身化的智能之上。” 换言之，空间智能并非附加属性，而是生命体与环境持续交互的结果。当生命体开始主动改变环境（如建造巢穴、挖掘洞穴），其智能便从被动感知升级为主动建构，从而开启了文明的雏形。

这一观点在人类历史上得到了最辉煌的印证。李飞飞列举了两个极具代表性的科学发现案例：DNA的双螺旋结构与碳60分子（Buckyball）的完美球形结构。前者是詹姆斯·沃森与弗朗西斯·克里克在1953年通过三维建模与物理推演才最终确认的，其复杂的空间构型无法通过语言描述完全推理出来；后者则是由理查德·斯莫利等人在1985年发现的富勒烯结构，其独特的二十面体对称性只有通过三维可视化才能被充分理解。这些例子共同说明，人类最伟大的科学突破往往发生在三维空间思维的领域，而非语言逻辑的范畴。正如她所言：“那双螺旋在三维空间中……没有语言可以单独推理出来。” 这意味着，真正的创新思维本质上是空间性的，它要求我们能够在脑海中“看到”并“操作”一个三维实体，而不仅仅是用文字描述它。

原话摘录：

> “Beautifully, it's that space, the three D space, the space out there, the space in your mind's eye, the spatial intelligence that enable people to do so many things that's beyond language is a critical part of intelligence.”

此句不仅总结了前述论点，更将空间智能提升至“智能核心”的地位，明确指出其在人类认知中的不可替代性。这一观点彻底颠覆了传统AI以语言为中心的范式，将三维空间智能置于智能演进的中心舞台，为World Labs的技术愿景提供了深刻的生物学与认知科学依据。

核心观点三：从语言模型到世界模型的范式跃迁——为何需要新公司？

尽管已有大量研究在计算机视觉领域探索三维重建，如神经辐射场（NeRF）、高斯溅射（Gaussian Splatting）等技术，但李飞飞认为，这些成果仍停留在“碎片化”的研究阶段，尚未形成统一的、可大规模应用的“世界模型”体系。她强调，创建World Labs并非出于对现有论文或创业机会的追逐，而是一种源于“北极星问题”的使命感：“我的智力旅程不是关于公司或论文，而是关于找到那个北极星问题。” 这个问题就是：如何让人工智能真正理解并操作三维物理世界，从而实现从“语言理解”向“世界理解”的跨越。

她指出，当前的多模态大模型虽然已能在一定程度上结合图像与文本进行推理，但在处理空间任务时依然受限于输入的二维性。例如，一个机器人若仅接收来自摄像头的二维视频流，即便其具备强大的语义理解能力，也无法准确判断物体的深度、距离或可操作性，因为Z轴（深度）信息在二维投影中完全丢失。她以自己失去立体视觉的经历为例，生动说明了这一问题的严重性：“我失去了立体视觉几个月，即使我知道车有多大、路有多宽，但驾驶时仍需以每小时十英里的速度缓慢行驶，生怕刮蹭到路边的车。” 这种对空间距离的感知缺失，正是二维信息无法满足三维任务的根本体现。因此，她坚定地认为，要解决这一问题，必须集中行业最顶尖的资源——计算力、数据、人才——投入到一个单一目标上，即构建能够从任意视角输入（如一张照片或一段视频）生成完整三维世界表示的模型系统。

原话摘录：

> “The problem is a three D problem. One way to think about it is if it's a human being looking at say a two D video, the human being can reconstruct the three D in their head, right? But let's say I've got a robot that has the output of the model. If that's two D and then you ask the robot to do, I don't know, distance or to grab something, that information's missing.”

该原话精准揭示了人机之间在空间认知上的根本差异：人类大脑具备天然的三维重建能力，而机器则必须依赖显式的三维表示。这一差距正是推动World Labs成立的核心动因——唯有建立专门的三维世界模型，才能弥合这一鸿沟。

核心观点四：世界模型的应用图景——从机器人到多宇宙文明

一旦世界模型得以实现，其应用场景将呈现出前所未有的广度与深度，覆盖从工业生产到艺术创作，从社会互动到虚拟旅行的全维度生活。李飞飞描绘了一个由AI驱动的“多宇宙”（multiverse）未来：借助生成与重建的双重能力，人们可以在数字世界中创造出无限多个平行宇宙，每个宇宙服务于特定目的——有的用于训练机器人，有的用于激发创意，有的用于社交互动，有的用于沉浸式旅行，有的用于叙事创作。她形容道：“突然，我们可以创造无限宇宙……想象力是无边界的。” 这一愿景超越了传统的虚拟现实概念，指向一种全新的存在方式：人类不再局限于单一物理世界，而是可以在多个数字化的、可定制的三维世界中自由穿梭与协作。

具体而言，世界模型将在三大领域产生革命性影响。第一，机器人学（Robotics）将实现质的飞跃。李飞飞定义机器人为“任何具身机器”，包括但不限于人形机器人或自动驾驶汽车，还包括各种工业机械臂、无人机、服务机器人等。这些设备必须具备对三维环境的理解能力，才能安全高效地完成任务。第二，创造性工作（Creativity）将被彻底重构。从建筑设计、电影制作到工业产品设计，所有高度依赖视觉与空间想象的领域都将受益于能够快速生成、修改和评估三维原型的能力。第三，数字孪生与虚拟世界构建将成为常态。用户只需提供一张二维图像，系统即可自动生成完整的三维场景，甚至填充出原本不存在的部分（如桌子背面）。这使得视频游戏开发、建筑可视化、文化遗产数字化等领域的效率得到指数级提升。

原话摘录：

> “With these models, you can take a view of the world like a two D view of the world, and then you could actually create a three D full representation including what you're not seeing, like the back of the table for example within the computer.”

该原话形象地展示了世界模型的核心功能：从局部信息生成全局表征，从而打破二维输入的局限，为后续的交互与操作奠定基础。这一能力正是实现上述广泛应用的前提。

次要观点与细节：技术演进脉络与团队构成

尽管三维建模并非全新领域，但李飞飞承认，过去的研究更多分散于学术界，缺乏整合与工程化推进。她特别提及几个关键技术里程碑：神经辐射场（NeRF）由其联合创始人Ben Mildenhall及其在伯克利的团队提出，首次实现了基于深度学习的高质量三维重建；高斯溅射（Gaussian Splatting）则得益于另一位联合创始人Christophe Lassner的开创性工作，成为一种高效表示体积三维数据的新方法；而Justin Johnson，作为她昔日的学生，也是早期深度学习计算机视觉的先驱之一，在生成对抗网络（GANs）与风格迁移（Style Transfer）方面做出了奠基性贡献，这些技术构成了当今世界模型的重要“积木”。

World Labs的团队汇聚了全球最顶尖的跨学科专家，涵盖计算机视觉、扩散模型（Diffusion Models）、计算机图形学、优化算法与人工智能等多个前沿领域。李飞飞强调，解决这一复杂问题需要的不仅是AI模型架构的创新，更需要对“如何在计算机内存中表示三维世界”这一底层问题的深刻理解。她指出：“你需要同时精通AI、数据、模型架构以及图形学——如何在内存中表示这些事物并在屏幕上呈现。” 这种跨领域的深度融合，正是World Labs区别于其他AI公司的关键所在。

总结与启示：迈向空间智能时代的战略抉择

综上所述，李飞飞在本次播客中完成了一场关于人工智能未来方向的深刻论述。她不仅揭示了当前语言模型在应对真实世界时的根本性缺陷，更以科学家的严谨与思想家的远见，勾勒出一条从“语言智能”走向“空间智能”的演进路径。其核心洞见在于：真正的智能，不在于能否流畅地使用语言，而在于能否在三维世界中感知、理解、重构并干预现实。这一转变不仅是技术层面的升级，更是对人类认知模式、工作方式乃至文明形态的重新定义。

从战略层面看，World Labs的成立标志着AI产业正从“内容生成”时代迈入“世界构建”时代。未来的竞争焦点将不再是谁能写出更好的文章或代码，而是谁能更准确地模拟、预测并操控三维物理世界。这一趋势要求企业必须具备跨学科整合能力、大规模算力投入以及长期主义的战略定力。对于投资者而言，这预示着一个巨大的机遇窗口：投资于能够解决“三维世界理解”这一北极星问题的团队，将有可能获得指数级回报。而对于整个社会而言，这一变革将深刻重塑教育、就业、娱乐与人际交往的形式，开启一个“多宇宙”共存的全新文明纪元。

原话摘录：

> “It suddenly will enable us to live in a multiverse way. The imagination is boundless.”

这句话既是技术愿景的总结，也是对未来可能性的礼赞。它提醒我们，当AI不再仅仅“说话”，而是“看见”并“创造”世界时，人类的想象力将真正挣脱物理世界的束缚，进入一个无限可能的崭新境界。

原文转录

加载中...