20 min 2026-04

Robotics' End Game: Nvidia's Jim Fan

Sequoia Capital · Jim Fan

查看原始内容 →

概要

Jim Fan 提出机器人领域的「大平行」框架：复制 LLM 的预训练-对齐-RL 三步范式，用世界动作模型取代 VLA，用人类第一视角视频取代遥操作，预测2040年前到达机器人终局。

核心洞察

机器人领域正在复制 LLM 的成功路径。 Jim Fan 提出"The Great Parallel"框架：模拟下一个物理世界状态（对应 next token prediction）→ 动作微调对齐到真实机器人（对应 SFT）→ 强化学习跑完最后一程（对应 RL），这三步构成机器人的"终局"路线图。
模型策略正从 VLA 转向世界动作模型（WAM）。 现有的 Vision-Language-Action 模型本质上是"LVA"——大部分参数用于语言而非物理。Jim Fan 发布 Dream Zero，一种联合解码未来世界状态和动作的新模型，能零样本完成训练中未见过的任务，标志着 VLA 时代的终结。
数据策略的重心正从遥操作转向人类第一视角视频。 Ego-Scale 用 21K 小时野外人类第一视角视频预训练，仅需 50 小时动捕+4 小时遥操作就能完成动作微调（不到训练总量的 0.1%），并发现了灵巧性的神经缩放定律——距语言模型的缩放定律恰好 6 年。
环境生成正成为后训练的核心瓶颈。 从 iPhone 3D 扫描+数字孪生到 Dream Dojo 神经模拟器，Nvidia 正在构建"compute = environments = data"的飞轮，让 RL 可以在大规模并行环境中训练机器人。
贯穿全场的核心线索是"抄作业"——Jim Fan 坦言机器人领域的每一步突破都在复制 LLM 已验证的范式，从预训练到缩放定律到 RL 后训练，区别只在于把字符串换成物理世界状态。他给出的终极预测：2040 年前以 95% 确定性到达机器人终局。

从 DGX-1 签名到三步函数：LLM 范式的回顾

核心要点：LLM 只用了三个阶跃函数、6 年时间就走到了今天——这正是机器人想要复制的速度。

2016 年夏天，Jensen 穿着标志性皮夹克，把第一台 DGX-1 扛到 OpenAI 办公室，金属托盘上写着"To Elon and the OpenAI team, to the future of computing and humanity"。当时还是实习生的 Jim Fan 冲去签名，Andrej Karpathy 的名字就签在旁边。
Jim Fan 自嘲"我们要进计算机历史博物馆了，我感觉自己像个恐龙"，然后引用 Ilya 的名言引出主题。

"If you believe in deep learning, deep learning will believe in you. And oh boy, did deep learning believe in all of us big time." —— Ilya Sutskever

LLM 的三个阶跃函数：GPT-3 预训练（next token prediction 学会语法和语言形态）→ 2022 InstructGPT 有监督微调（将模拟对齐到有用工作）→ o1 推理（RL 超越模仿学习）→ 自动研究（加速整个循环超越人类可能）。
"所有实验室都在打最终 Boss"——LLM 已进入终局，Jim Fan 说自己"非常嫉妒"，因为 LLM 的人在"神话生物 methos 上速通 AGI，大开派对"。

The Great Parallel：机器人的抄作业框架

核心要点：不能打败就加入——机器人的终局路线图是 LLM 范式的一一映射。

Jim Fan 坦言"作为一个自尊的科学家，我抄作业然后取个新名字"。The Great Parallel 的映射关系：
模拟下一个字符串 → 模拟下一个物理世界状态（预训练）
有监督微调 → 动作微调，将世界模拟对齐到对真实机器人有意义的薄层上
RL 跑完最后一程
这个框架将整个演讲组织为两条主线：模型策略（怎么建模世界）和数据策略（怎么获取训练数据），加上环境策略（怎么做 RL 后训练）。

模型策略一：VLA 的根本缺陷——"头重脚轻，重在错误的地方"

核心要点：VLA 模型大部分参数都花在语言上，物理和动作是二等公民——知识和名词强，物理和动词弱。

过去 3 年由 VLA（Vision-Language-Action）主导，Nvidia 的 Pi 和 Groot 都属于此类。VLA 假设预训练由大语言模型完成，只需在上面接一个动作头。
但 Jim Fan 指出这些模型其实是"LVA"——最多参数给了语言（第一公民），其次视觉，最后才是动作。"Head heavy in the wrong places."
经典 VLA 论文示例：把可乐罐移到 Taylor Swift 照片旁边——模型确实泛化了（没见过 Taylor Swift 也能做），但这不是机器人真正需要的预训练能力。

"VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs." —— Jim Fan

模型策略二：视频世界模型——物理从像素预测中涌现

核心要点：AI 视频生成看似"slop"，实则在内部学会了模拟物理世界状态——重力、浮力、光照全是涌现的。

Jim Fan 展示了猫弹班卓琴的安防摄像头视频，调侃"这是巅峰互联网，我能看一整天"，全场笑声。但他随即转折：没人把 AI 视频当回事，直到意识到这些模型在内部学会模拟下一个世界状态。
VEO-3 的能力展示：模型自主学会了重力、浮力、光照、反射、折射——没有任何物理规则被编码进去，"物理从大规模预测下一块像素中涌现"。
VEO-3 能在像素空间解迷宫——通过向前模拟来做视觉规划。Jim Fan 特别指出右下角的例子："VEO-3 发现只要你不看着，几何就是可选的"——他称之为"physics slop"，现场笑声。

Dream Zero：世界动作模型取代 VLA

核心要点：Dream Zero 联合解码未来世界状态和动作，让视觉和动作都成为第一公民，能零样本完成未见过的任务。

Dream Zero 是新型策略模型：向前"做梦"几秒的未来，据此行动。关键洞察：电机动作是高维连续信号，形态上就像像素，可以和视频一起渲染、一起解码。
Dream Zero 联合解码下一个世界状态和下一个动作，这使视觉和动作都成为第一公民（不再是语言的附属品）。
实际效果：能零样本完成训练中从未见过的任务和动作。执行时可以可视化机器人正在"做梦"的内容——"如果视频预测对了，动作就对了；如果视频产生幻觉，动作就失败。"
团队在实验室里随意推着机器人走，在提示框里随便打字——Dream Zero 不会 100% 完成所有任务，但"就像 GPT-2，它在每个案例中都试图把动作的形态做对。"
Jim Fan 正式为 VLA 举行"默哀仪式"：Rest in peace. Long live World Action Models (WAM).

"Dream Zero is our first step towards open-ended open vocabulary prompting for robotics." —— Jim Fan

数据策略一：遥操作的物理极限

核心要点：遥操作被 24 小时/机器人/天的物理极限锁死，实际只有约 3 小时——而且机器人"一直在闹脾气"。

Jim Fan 展示了 Nvidia 首席科学家 Bill Dally 在实验室做遥操作的照片，调侃"按他的薪资，这大概是人类历史上最贵的遥操作轨迹。"
过去 3 年是遥操作的黄金时代：VR 头显、极致优化的串流延迟、看起来像"中世纪刑具"的复杂设备——行业投入巨大，痛苦也巨大。
但遥操作的天花板是 24 小时/机器人/天，"实际上大概 3 小时/机器人/天，而且只在机器人之神开恩的时候，因为它们一直在闹脾气。"

数据策略二：UMI 和 Dex UMI——穿戴式采集打破遥操作枷锁

核心要点：把机器人执行器戴在人手上直接采集数据，绕开机器人本体——这个"看似简单到过分"的想法催生了两家独角兽。

UMI（Universal Manipulation Interface）：把机器人执行器戴在手上，以人类方式直接采集数据，"把机器人身体的其余部分踢出循环"。Jim Fan 称 UMI"可能是机器人数据领域有史以来最伟大的论文之一"。
UMI 催生了两家独角兽创业公司：Genesis（改进设计让你戴着夹爪采集）和 Sunday（三指数据手套）。
Dex UMI 更进一步：设计了与五指灵巧机器人手一一映射的外骨骼。现场演示对比：左侧人类直接采集（最快），右侧遥操作（"我们最熟练的博士也要小心翼翼地对准，超级慢，成功率也低"），中间外骨骼直接采集。
关键成果：用 Dex UMI 数据训练的全自主机器人策略，基于零遥操作数据。"我们打破了 24 小时/机器人/天的诅咒——看看这些机器人多开心，因为它们不再需要参与数据采集了。"

数据策略三：Ego-Scale——21K 小时人类视频训练出灵巧机器人

核心要点：99.9% 的训练来自人类第一视角视频，遥操作仅占 0.1% 以下，并发现了灵巧性的神经缩放定律。

Jim Fan 用 Tesla FSD/Waymo 做类比：你开车时就在贡献最大的物理数据飞轮，而且"你甚至感觉不到，因为数据上传是后台进程。"穿戴式设备仍然笨重、有侵入性——需要一个 FSD 等价物，让数据采集退到背景中。
Ego-Scale 的训练配方：
预训练：21K 小时野外人类第一视角视频，零机器人数据，预测手关节和手腕姿态
动作微调：50 小时高精度动捕手套 + 4 小时遥操作——不到训练总量的 0.1%
结果：端到端策略，直接从摄像头像素映射到 22 自由度灵巧机器人手
泛化能力：分拣卡片、操作注射器、转移液体、折衣服（仅需测试时一次示范即可学会不同的折叠策略）。Jim Fan 调侃"也许有天我们家里会有机器人护士"。
最引人注目的发现：灵巧性的神经缩放定律——预训练小时数与最优验证损失之间是干净的对数线性数学方程，距语言模型原始缩放定律恰好 6 年。
数据策略全景图（X 轴：与机器人硬件的对齐程度，Y 轴：可扩展性）：遥操作（最不可扩展）→ 数据穿戴（可达数十万小时）→ 第一视角视频（一年内轻松达到千万小时级，如果 FSD 飞轮启动的话）。分界线左侧的新范式：感知化人类数据。
预测：未来 1-2 年，遥操作将降至几乎可忽略不计；数据穿戴针对不同硬件定制；机器人的"主食"将是第一视角视频。
第二场"默哀仪式"：Rest in peace, teleop. Long live sensorized human data.

环境策略：从 iPhone 扫描到 Dream Dojo 神经模拟器

核心要点：机器人的后训练需要百万级环境——从 iPhone 3D 扫描到视频世界模型充当神经模拟器，核心方程是"compute = environments = data"。

LLM 前沿实验室已花费大量预算获取数百万代码环境做 RL。机器人同样急需扩展环境。
在 Nvidia 实验室，RL 可将特定任务推到接近 100% 成功率——"看着机器人自己组装 GPU 还挺治愈的"。但扩展到 100 万环境就需要 100 万台机器人。
Real-to-sim-to-real 流程：iPhone 拍照 → 3D 世界扫描管线提取所有物体（扫描后全部可交互）→ 经典物理模拟器 → 数字孪生（digital cousins）无限增强变体。"iPhone 变成了口袋世界扫描仪。"
Dream Dojo：将视频世界模型升级为完整的神经模拟器。输入连续动作信号，输出下一帧 RGB + 传感器状态，实时运行。"你看到的每一个像素都不是真实的"。没有物理方程，没有图形引擎——纯数据驱动学习不同机器人的力学特性。
新的后训练范式：大规模并行 RL 系统 = 少量真实机器人站 + 一堆图形核心运行世界扫描 + 重度推理计算运行世界模型。

"Compute now equals environment now equals data. Or as a wise man would say, the more you buy, the more you save." —— Jim Fan（引用 Jensen 名言）

终局三阶段：物理图灵测试 → 物理API → 物理自动研究

核心要点：Jim Fan 以 95% 确定性预测 2040 年前到达机器人终局——从 AlexNet 到 AI Ascent 用了 14 年，再加 14 年且技术指数增长。

Jim Fan 用文明游戏的科技树类比：机器人还剩三个成就要解锁，然后"我就能退休了"。
物理图灵测试：在广泛活动中无法区分人类还是机器人在执行任务。"不是喝醉的人类"——关于单位能量输入、单位劳动输出。Jim Fan 看着机器人摆出性感姿势说"看这造型，我们的工作路径已经很清晰了"——大约 2-3 年内实现。
物理 API：整支机器人车队像软件一样用 API 和命令行配置，"有朝一日由 Opus 9.0 编排"。应用场景：无人工厂（"原子打印机"——输入 markdown 设计文件，输出完全组装好的产品）和自动化湿实验室（加速化学、生物、医学发现）。
物理自动研究：机器人开始自己设计、改进、构建下一代自身，远超人类可能。
终极预测：AlexNet 2012 年（勉强分辨猫狗）→ AI Ascent 2026 年（讨论自动研究的 agentic AI）= 14 年。2026 正好处于 2012 和 2040 的中点。"技术不是线性推进的，是指数推进的"——以 95% 确定性，2040 年前到达终局。

"If you believe in robotics, robotics will believe in you." —— Jim Fan

附录：关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Jim Fan | Nvidia 具身自主研究组负责人 |

| Jensen Huang | Nvidia CEO，2016 年送 DGX-1 给 OpenAI |

| Andrej Karpathy | 在 DGX-1 上签名，演讲中多次提及 |

| Ilya Sutskever | "If you believe in deep learning" 名言作者 |

| Bill Dally | Nvidia 首席科学家，亲自做遥操作 |

| DGX-1 | Nvidia 首台深度学习超级计算机，2016 年交付 OpenAI |

| VLA | Vision-Language-Action 模型，过去 3 年主导范式 |

| Pi / Groot | Nvidia 的 VLA 模型 |

| WAM | World Action Models，Jim Fan 提出的新范式取代 VLA |

| Dream Zero | WAM 的首个实现，联合解码世界状态+动作 |

| VEO-3 | Google 视频生成模型，展示物理涌现 |

| UMI | Universal Manipulation Interface，穿戴式数据采集 |

| Dex UMI | 五指灵巧手外骨骼数据采集 |

| Genesis | UMI 衍生独角兽，改进夹爪穿戴设计 |

| Sunday | UMI 衍生独角兽，三指数据手套 |

| Ego-Scale | 人类第一视角视频预训练方案 |

| Dream Dojo | 视频世界模型作为神经模拟器 |

| 21K 小时 | Ego-Scale 预训练的人类视频数据量 |

| 50 小时 + 4 小时 | Ego-Scale 动作微调所需的动捕+遥操作数据 |

| <0.1% | 遥操作在 Ego-Scale 训练总量中的占比 |

| 22 DOF | Ego-Scale 控制的灵巧机器人手自由度 |

| 2-3 年 | 物理图灵测试预计达成时间 |

| 2040 年 | 机器人终局预计完成时间（95%确定性） |

| 14 年 | AlexNet(2012)→AI Ascent(2026)的跨度 |