80 min 2025-11

The Godmother of AI on jobs, robots & why world models are next | Dr. Fei-Fei Li

Lenny's Podcast · Fei-Fei Li

查看原始内容 →

概要

AI教母Fei-Fei Li谈ImageNet如何催生现代AI、为何AGI是营销术语、World Labs发布Marble世界模型产品及其在VFX和机器人仿真中的应用

核心洞察

Fei-Fei Li 自认是人文主义者而非乌托邦主义者：她不否认AI对就业和社会的冲击，但坚信技术总体对人类文明是正向的——前提是每个参与者都要"像负责任的个人一样行事"。她在Stanford对每一届毕业生说的话是："你的领域叫人工智能，但它没有任何'人工'的部分。"
ImageNet的核心洞察是"缺的不是模型，是数据"：2006-2007年，Fei-Fei Li和学生做了一个在当时近乎"疯狂"的决定——用几个研究生的力量整理整个互联网上的图片数据，最终策展1500万张图片、22,000个概念类别。2012年Jeff Hinton团队用ImageNet数据+2块Nvidia GPU+神经网络赢得挑战赛，现代AI由此诞生——大数据、神经网络、GPU这个"黄金三件套"至今仍是ChatGPT等产品的技术内核。
她认为AGI是"营销术语而非科学术语"：AI连让幼儿都能完成的任务（如看一段视频数清房间里有几把椅子）都做不到，更不用说牛顿从天体运动推导出力学定律这种创造性飞跃。即使给AI所有现代观测数据，它也推不出17世纪的运动定律方程。
World Labs发布Marble——世界首个"prompt-to-worlds"产品：用户输入一句话或一张图就能生成可导航的3D世界。与Sony合作的虚拟制作测试中，制作时间缩短40倍。已有VFX、游戏开发、机器人仿真和心理学研究等多个场景在使用。
机器人领域的Bitter Lesson还远未被验证：语言模型的训练数据（文本）和输出（文本）完美对齐，机器人的训练数据（视频）和需要的输出（3D世界中的动作）存在根本性不匹配。自动驾驶从2005年Stanford原型车赢得DARPA挑战赛到今天Waymo上路，走了20年——而自动驾驶还只是"在2D路面上行驶、目标是不碰任何东西"的简单机器人。
贯穿全场的核心线索：从ImageNet到世界模型到Marble，Fei-Fei Li的每一步都在回应同一个判断——AI最被低估的瓶颈不是算法而是数据与感知能力，语言只是智能的一部分，空间理解才是连接AI与物理世界的关键桥梁。

人文主义乐观派：技术是双刃剑，关键在人

核心要点：Fei-Fei Li不否认AI的风险，但坚信技术对文明是净正面——前提是每个参与者都承担责任。

她明确区分自己与乌托邦主义者："我不是乌托邦主义者。我不认为AI不会影响工作或人。事实上，我是一个人文主义者。"她的乐观基于人类文明史——从文字发明到现在，人类持续创新工具、改善生活。
她在国会演讲中说过一句被广泛引用的话："AI没有任何'人工'的部分——它由人启发、由人创造，最重要的是，它影响的是人。"Lenny称这是他听过的关于AI最好的一句话。
她对Stanford每一届毕业生的告别语是同一句："你的领域叫人工智能，但它没有任何'人工'的部分。"这句话她说了二十年。
在被问到"我们需要做对什么"时，她的回答出人意料地朴素：每个人都应该像负责任的个体一样行事——不论你是在开发AI、部署AI还是使用AI。"这就是我们教孩子的，也是我们作为成年人应该做的。"

"It's not like I think AI will have no impact on jobs or people. In fact, I'm a humanist. I believe that whatever AI does currently or in the future is up to us." —— Fei-Fei Li

AI简史：从Dartmouth Workshop到ChatGPT，70年三代人

核心要点：AI领域已有70年历史，经历了逻辑系统→专家系统→机器学习三个阶段，Fei-Fei Li属于"第一代机器学习研究者"。

AI的正式起点是1956年Dartmouth Workshop，John McCarthy在那里创造了"人工智能"这个术语，后来到Stanford任教。
1950-1980年代是早期探索期：逻辑系统、专家系统、早期神经网络。
1980年代末到21世纪初约20年是机器学习的诞生期——计算机编程与统计学习的"联姻"。核心突破是认识到纯规则系统无法覆盖认知能力的广度，必须让机器"学习模式"。
Fei-Fei Li 2000年在Caltech开始AI PhD，恰好是机器学习第一代。她选择从视觉智能切入，因为"人类是深度视觉化的动物"。
一个令人惊讶的事实：直到2015-2016年，一些科技公司仍然回避使用"AI"这个词，因为不确定它是否是"脏词"。Fei-Fei Li当时反而在鼓励所有人使用"AI"。大约2017年左右，公司才开始自称"AI公司"——距今不到10年。

"I was actually encouraging everybody to use the word AI because to me that is one of the most audacious questions humanity has ever asked." —— Fei-Fei Li

ImageNet的诞生：一个"近乎疯狂"的大数据赌注

核心要点：Fei-Fei Li的核心洞察是——AI缺的不是更好的模型，而是足够多的数据。她用几个研究生的力量整理了整个互联网的图片数据。

她和学生在研究各种数学模型（神经网络、贝叶斯网络等）时发现一个"痛点"：这些模型没有足够的数据来训练。她从人类学习和进化中获得启发——人类通过海量经验学习，进化也是大数据学习过程。
2006-2007年，他们做了一个"非常有野心"的决定：获取整个互联网上的物体图片数据。"当时互联网比现在小得多，所以这个野心至少还不算太疯狂。但让几个研究生和一个教授来做这件事，现在看来完全是妄想。"
最终成果：精心策展1500万张图片，基于语言学家的WordNet创建了22,000个概念的分类体系，全部开源给研究社区，并举办年度ImageNet挑战赛。
Fei-Fei Li对此"事后验证"感到欣慰：Scale AI创始人Alex Wong早期就给她发邮件说ImageNet启发了Scale的创建。Lenny提到，当今最快增长的数据标注公司（Merkore、Surge、Scale）做的本质上还是同一件事——给实验室提供更多标注数据。

2012 AlexNet时刻：现代AI的黄金三件套

核心要点：2012年多伦多大学Jeff Hinton团队用ImageNet数据+2块GPU+神经网络取得突破，这三个要素至今仍是ChatGPT等产品的技术内核。

2012年，Jeff Hinton教授带领的多伦多大学团队参加ImageNet挑战赛，使用ImageNet大数据、两块Nvidia GPU和神经网络算法，在物体识别上取得巨大突破。这被广泛认为是深度学习/现代AI的诞生时刻。
Lenny对"两块GPU"这个细节感到惊讶——当时就是普通的游戏GPU，现在训练模型用的是数十万块性能强得多的GPU。
从2012到ChatGPT，技术配方本质没变：数据从图片变成互联网规模的文本，神经网络架构更复杂但仍是神经网络，GPU数量大幅增加但仍是GPU。Fei-Fei Li："如果你看ChatGPT的技术成分，还是这三样东西。"

"A group of Toronto researchers led by Professor Jeff Hinton participated in the ImageNet challenge, used the ImageNet big data and two GPUs from Nvidia and successfully created the first neural network algorithm that made huge progress towards solving object recognition." —— Fei-Fei Li

AGI是营销术语：AI连数椅子都做不到

核心要点：Fei-Fei Li认为AGI更多是营销术语而非科学术语，AI在空间理解、创造性推理和情感智能方面还差得很远。

她直言"我不知道有谁真正定义过AGI"——各种定义从"机器的超级能力"到"机器能在社会中成为经济上可行的agent，能挣工资养活自己"。作为科学家，她不愿陷入AI vs AGI的定义之争。
她用三个例子说明AI的局限：
空间理解：让AI看几个办公室的视频然后数椅子数量，幼儿或小学生能做到，AI做不到。
创造性推理：牛顿观察天体运动推导出运动定律方程——即使给AI所有现代观测仪器数据，它也推不出17世纪的方程。Demis Hassabis（DeepMind）的测试方法类似：给模型20世纪前的所有信息，看它能否做出爱因斯坦的突破。答案是远远不能。
情感智能：一个学生走进老师办公室谈动机、困惑、热情——今天的对话AI再强也达不到那种情感认知水平。

"I don't know if anyone has ever defined AGI... I feel AGI is more a marketing term than a scientific term." —— Fei-Fei Li

世界模型与空间智能：语言只是智能的一部分

核心要点：人类智能的核心不只是语言——空间理解、物体交互、情境感知同样关键。世界模型是连接语言模型与物理世界（包括机器人）的枢纽。

Fei-Fei Li用急救现场的例子说明空间智能的重要性：消防员、急救人员在混乱场景中组织救援——大量行动基于对物体、空间、情境的即时理解，"语言无法帮你灭火"。
她用DNA发现史做了一个精彩类比：Rosalind Franklin拍的X射线衍射照片是2D的，但Watson和Crick从中推导出高度三维的双螺旋结构——这需要3D空间推理，"你不可能用2D思维推出那个结构"。即使在科学发现中，空间智能也是不可替代的。
2024年她在TED Talk上首次系统阐述空间智能和世界模型的概念。灵感来源是：GPT-2发布时（约2020年底），她与Stanford NLP同事Percy Liang、Chris Manning长谈语言模型的未来，而Stanford HAI也率先建立了foundation model研究中心。但她始终在想：语言之外还有太多事情可以推进。
世界模型不只是"描述一个场景，生成一个世界"——它是一个基础设施，能让任何人通过文字或图片创造3D世界，并在其中导航、交互、推理。如果消费者是机器人，世界模型能帮它规划路径、整理厨房。

"So much of our intelligence is built upon visual, perceptual, spatial understanding, not just language per se." —— Fei-Fei Li

机器人的Bitter Lesson：数据不匹配 + 物理复杂性

核心要点：Richard Sutton的"Bitter Lesson"（简单模型+海量数据总会赢）在机器人领域还远未被验证，因为机器人面临数据获取困难和物理系统复杂性的双重挑战。

Ben Horowitz建议Lenny问Fei-Fei Li：为什么Bitter Lesson单独不能解决机器人问题？Fei-Fei Li的回答：ImageNet论文出现在Bitter Lesson之前——"对我来说那不是苦涩的教训，是甜蜜的教训，因为我正是相信大数据的作用才做了ImageNet。"
数据不匹配问题：语言模型有一个"完美设定"——训练数据是文本，输出也是文本，输入输出完美对齐。但机器人需要的输出是3D世界中的动作，而训练数据（网络视频）不包含动作。"就像试图把方形塞进圆孔。"目前的补救方案包括遥操作数据和合成数据，但问题远未解决。
物理系统复杂性：机器人更像自动驾驶汽车而非语言模型——不仅需要"大脑"，还需要物理身体和应用场景。Stanford的Sebastian Thrun 2005-2006年带领Stanford的车赢得DARPA挑战赛，到今天Waymo在旧金山街头运营，用了整整20年——而自动驾驶汽车只是"在2D路面上行驶的金属盒子，目标是不碰任何东西"。机器人是"在3D世界中运作的3D物体，目标是碰东西"。

"Self-driving cars are much simpler robots. They're just metal boxes running on 2D surfaces. And the goal is not to touch anything. Robots are 3D things running in 3D world and the goal is to touch things." —— Fei-Fei Li

World Labs与Marble：世界首个大型世界模型产品

核心要点：World Labs团队约30人，用一年多时间打造了世界首个能生成真正3D世界的生成模型，产品名Marble，支持"prompt to worlds"。

World Labs由Fei-Fei Li与三位联合创始人Justin Johnson、Kristoff Lassner和Ben Mildenhall在约18个月前创立，四人都来自AI、计算机图形学和计算机视觉研究领域。投资方包括Andreessen Horowitz（Ben Horowitz是Fei-Fei Li多年旧识）。
Marble是World Labs推出的首个产品，基于他们从零打造的frontier模型。用户可以用一句话或一张图片（或多张图片）生成可导航的3D世界。支持VR眼镜体验（"戴上眼镜就能在里面走来走去"）。
一个有趣的产品细节：Marble进入世界时先展示"点阵"效果再渲染出完整纹理——这其实不是模型本身的特性，而是工程团队故意设计的过渡动画。大量用户反馈说这个效果令人愉悦——Lenny提到它让人想起《黑客帝国》。Fei-Fei Li承认这是一个"研究者学到产品课"的时刻：不只是硬核模型，UX设计同样能创造用户喜悦。

Marble应用：VFX 40倍加速、心理学研究等意外场景

核心要点：Marble已在虚拟制作、游戏、机器人仿真和心理学研究中被使用，VFX场景下制作时间缩短40倍。

虚拟制作/VFX：World Labs与Sony合作使用Marble拍摄发布视频。技术导演和艺术家反馈"制作时间缩短40倍"——实际上可能更多（"I had to because we only had one month to work on this project"）。使用方式是将Marble生成的3D世界与摄像机对齐，演员在其中表演。
游戏开发：用户已在将Marble场景的mesh导出用于VR游戏和其他游戏开发。
机器人仿真：Fei-Fei Li自己作为机器人研究者深知痛点——训练机器人需要大量多样化的合成数据（不同环境、不同物体），手动构建每个场景资产太慢。Marble可以近乎实时地生成这些仿真环境。
心理学研究（意外场景）：一个心理学团队主动联系World Labs，希望用Marble为精神科患者生成不同特征的沉浸式场景（如凌乱的vs整洁的房间），用于研究大脑对不同环境的反应。传统方法需要耗费大量时间和预算。Lenny还联想到暴露疗法——恐高症、蜘蛛恐惧症等都可以用Marble生成场景。Fei-Fei Li说一位朋友前一晚刚打电话问Marble是否可以用于恐高症治疗。

与视频模型的本质区别：真正的3D空间智能

核心要点：World Labs做的不是生成2D视频，而是生成真正的3D世界——用户可以导航、交互、导出mesh，这与V3等视频生成模型有本质区别。

Fei-Fei Li用Plato的洞穴寓言解释视觉的本质：一个被绑在椅子上的囚犯只能看到墙壁上的投影，他的任务是从2D投影推断出背后3D世界的真实情况。"空间智能就是从2D中理解3D甚至4D世界的能力。"
视频模型生成的是平面的2D视频，用户只能被动观看。Marble生成的是有3D结构的世界，用户可以自由移动摄像机、导出视频（比如按导演想要的镜头轨迹），甚至可以导出mesh用于其他工具。
World Labs几周前还发布了世界首个在单块H100 GPU上实现实时视频生成的demo——但这只是技术的一部分，核心差异化在于3D。

创始人旅程：知识无畏与人才竞争的震撼

核心要点：Fei-Fei Li的职业选择一以贯之——跟随热情、追随优秀的人、不过度思考失败场景。但AI人才竞争的烈度仍然超出了她的预期。

19岁时她在美国开了一家干洗店（家庭移民创业），然后走学术路线。从Princeton即将拿到终身教职时选择跳到Stanford重新计时，因为"Stanford的人和硅谷的生态系统太了不起了"。后来成为SAIL（Stanford AI Lab）首位女性主任——当时她还是相对年轻的教授。再到Google Cloud AI，只因为想和Jeff Dean、Jeff Hinton、Demis Hassabis等人一起工作。
她的核心建议是"知识无畏"（intellectual fearlessness）：创造新事物意味着没人做过，必须允许自己无畏和勇敢。"我不会过度思考所有可能出错的事情，因为那太多了。"
她对年轻AI人才的忠告：不要过度优化每一个维度——薪资、title、公司估值、技术栈。"我发现自己不断进入'导师模式'，看到一个出色的年轻人在考虑工作时纠结于每一个细枝末节。"她建议聚焦三件事：你的热情在哪里？你认同这个使命吗？你信任这个团队吗？
让她始料未及的是AI人才竞争的烈度：World Labs成立时还没有"某些顶级人才要价多少"的惊人故事，现在这些数字让她时常感到焦虑。

"I don't overthink of all possible things that can go wrong because that's too many." —— Fei-Fei Li

Stanford HAI：从学术象牙塔到华盛顿国会山

核心要点：Fei-Fei Li在Google的经历让她意识到AI是"文明级技术"，必须有人类中心的治理框架。Stanford HAI现已成为全球最大的AI研究机构，涉及8个学院数百教授。

2018年她在Google的经历让她做出一个关键判断：AI将是文明级技术，需要一个以人为中心的发展框架。她在《纽约时报》发文阐述这个理念，并与John Hennessy、James Landy、Chris Manning等教授联合创立HAI。
HAI六七年后已覆盖Stanford全部8个学院——从医学到教育到可持续发展到商学到工程到人文到法律。研究横跨数字经济、法律研究、政治科学、新药发现、超越Transformer的新算法等。
政策方面的实际行动：创建国会"AI训练营"（congressional boot camp）、发布AI Index报告、参与推动National AI Research Cloud法案（在第一届Trump政府期间通过）、参与州级AI监管讨论。
她创立HAI的一个核心发现是：当时硅谷和华盛顿DC之间几乎没有对话。"鉴于这项技术有多重要，我们需要让所有人参与进来。"

人人都有AI中的角色：从艺术家到农民到护士

核心要点：Fei-Fei Li在全球旅行中被问得最多的问题是"我在AI中有什么角色"——她的回答是每个人都有，但核心是人类尊严和能动性不可被技术剥夺。

她批评硅谷的话语习惯："我们总是随便抛出'无限生产力'、'无限闲暇时间'、'无限算力'这种词，但到头来AI是关于人的。"
她对不同人群的具体建议：
年轻艺术家：拥抱AI作为工具，"因为你讲故事的方式是独一无二的，世界仍然需要它"，但同时要学会用最好的工具来讲你独特的故事。
临近退休的农民：AI仍然与你相关，因为你是公民，你可以参与社区关于AI使用的决策，应该有发言权。
护士：Fei-Fei Li在自己的职业生涯中做了大量医疗保健AI研究，因为护士过度劳累和疲劳，而老龄化社会需要更多照护。AI可以通过智能摄像头提供更多信息、通过机器人辅助来帮助。
她的底线判断："没有任何技术应该剥夺人的尊严。人的尊严和能动性应该在每一项技术的开发、部署和治理中处于核心位置。"

"No technology should take away human dignity and the human dignity and agency should be at the heart of the development, the deployment as well as the governance of every technology." —— Fei-Fei Li

附录：关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Dr. Fei-Fei Li | Stanford教授，ImageNet创建者，World Labs联合创始人，前Google Cloud AI首席科学家，Stanford HAI联合创始人 |

| World Labs | Fei-Fei Li创立的spatial intelligence公司，约30人团队，成立约18个月 |

| Marble | World Labs首个产品，世界首个"prompt-to-worlds" 3D世界生成应用 |

| Justin Johnson / Kristoff Lassner / Ben Mildenhall | World Labs联合创始人，均来自AI/计算机图形学/计算机视觉研究领域 |

| ImageNet | 2006-2007年启动，1500万张图片，22,000个概念类别，催生现代AI |

| Jeff Hinton | 多伦多大学教授，2012年用ImageNet+2块GPU取得深度学习突破 |

| Alex Wong | Scale AI创始人，早期写信告知Fei-Fei Li ImageNet启发了Scale |

| Sebastian Thrun | Stanford教授，2005-2006年赢得DARPA自动驾驶挑战赛 |

| Stanford HAI | 2018年创立，全球最大人类中心AI研究机构，覆盖Stanford全部8个学院 |

| John McCarthy | 1956年Dartmouth Workshop上创造"人工智能"一词 |

| Percy Liang / Chris Manning | Stanford NLP教授，与Fei-Fei Li讨论语言模型未来 |

| Richard Sutton | "Bitter Lesson"论文作者，图灵奖获得者，强化学习专家 |

| Ben Horowitz | a16z联合创始人，World Labs投资人 |

| VFX制作加速 | 与Sony合作测试中制作时间缩短40倍 |

| 人脑功耗 | 约20瓦——比房间里任何灯泡都暗 |

| 自动驾驶时间线 | 从2005年DARPA原型到2025年Waymo上路，用了20年 |

| 单H100实时视频生成 | World Labs发布的世界首个在单块GPU上实现实时视频生成的demo |