Yann LeCun: World Models: Enabling the next AI revolution

节目

Computer Vision and Geometry Group, ETH Zurich

嘉宾

Yann LeCun

日期

2026-06

时长

59 min

查看原始内容 →

概要

开场一句"机器学习很烂（machine learning sucks）"定调全场。 LeCun 用一连串对比说明机器与人/动物的学习鸿沟：任何青少年几小时就能学会开车，而自动驾驶公司握着数百万小时数据，至今造不出 L5；这背后是 Moravec 悖论——对人难的（下棋、证明定理）对机器易，对人易的（物理常识）对机器极难。

他给"靠 scaling LLM 走向 AGI"判了死刑，论据是一笔数据账。 今天的 LLM 训练约 20 万亿词（≈10^14 字节），人读完要 40 万年；而一个 4 岁孩子通过视觉接收的数据量同样是 10^14 字节，只用了约 16 小时清醒时间、相当于 30 分钟的 YouTube 上传量。"光靠文本训练，永远到不了人类水平的智能，这件事不会发生。"

正确的推理方式不是前向传播，而是优化。 LLM 是把输入跑过固定层数、逐 token 生成，"让它推理的唯一办法是诱骗它多吐 token，但人不是在 token 空间里思考的"。LeCun 主张的是通过能量最小化（energy minimization）在推理时搜索最优动作——这需要一个世界模型（world model）。

世界模型的正确形态是 JEPA（联合嵌入预测架构），不是生成式、不是视频生成、不是数字孪生。 关键差别：生成式要在像素级重建未来（不可能，未来有无限种可能），JEPA 则在抽象表示空间里预测，主动剔除掉那些根本无法预测的信息。"很多人做视频生成还管它叫世界模型——它们不是世界模型，是视频生成系统。"

这套主张已有可验证的成果：V-JEPA 自发习得了"常识"。 给它看一段违反物理的视频（球凭空消失），其内部预测误差会飙升——就像看到悬空小车不掉下来会惊讶的婴儿。LeCun 称这是他见过的第一个完全自监督、却获得了某种常识的系统。

开场暴论："机器学习很烂"——我们一直撞在 Moravec 悖论上

核心要点：当前最强的 AI 技术处理不了真实世界，因为真实世界是连续、高维、含噪的，而语言相比之下"简单得多"。

LeCun 上来就对台下一屋子机器学习研究者说"我有个坏消息：machine learning sucks"。人和动物能用极少样本快速学会新任务、有物理常识、能零样本（zero-shot）完成从没见过的事，机器做不到。
自动驾驶是最锋利的反例：任何青少年几小时练习就能学会开车，而自驾公司有"字面意义上数百万小时"的训练数据，却无法靠模仿人类把可靠性做到同一水平。"否则我们早就有 L5 自动驾驶了，但我们没有"——消费车最多 L2/L3，robotaxi 是靠各种传感器重度工程化堆出来的。
Moravec 悖论：对人类困难的事（下棋、符号积分、解方程、证明数学定理）对计算机不难；对人类轻而易举的事（常识、物理直觉）对计算机却极难。一个 10 岁小孩第一次被要求做家务机器人的活，没受过训练也能做——可能不情愿，但能做。
LeCun 借此回到一个立场之争：智能是否必须有"具身落地（grounding）"？"有些哲学家、尤其是搞语言的人不认为这是必要的，但我认为是。"

"语言相比之下是简单的。真实世界才是一团乱麻。" —— Yann LeCun

智能不是知识、也不是技能的累积，而是适应力——所以"AGI"是个无意义的词

核心要点：人类智能是高度专门化的，特征不是"什么都会"，而是"能极快地学会任何新东西"。

LeCun 引用一句常被归于皮亚杰（Piaget）的话："智能不是你知道什么，而是你不知道时该怎么做。"（他特意澄清：皮亚杰其实从没这么说过，是后人把他的思想提炼成了这句话。）
由此推出两个否定：智能不是陈述性知识（declarative knowledge）的累积——LLM 正是这种累积，它有用恰恰因为攒了海量陈述性知识；智能也不是一堆技能的集合——只要砸够资源，你几乎能造机器完成任何单一任务（包括自动驾驶），但那不是智能。
真正的智能是适应：能在约 20 小时内学会开车、能用极少训练学会任何新任务。正因如此，"智能不会有简单的度量标准"——任何具体任务只要花足够力气总能攻克，关键在于你有多强的适应性。
这条逻辑直接通向他对"AGI"的嘲讽："AGI 这个提法完全是胡说。人类智能本身就是专门化的。"我们每个人掌握的知识、拥有的技能都不同，因为我们被不同环境塑造、要解决不同问题——这才是智能。

"AGI 作为一个词组毫无意义。问题不是'你会不会做所有事'，而是'你能不能快速学会做任何事'。" —— Yann LeCun

人类是怎么学的：婴儿靠"看"就建起了世界模型

核心要点：生命早期的大量学习发生在观察中，几乎不依赖行动——这正是世界模型可以被自监督学习复制的关键证据。

两个月大的婴儿基本无法改变世界（动不了物体），却能纯靠观察学到大量东西。最早学会的一件事是"世界是三维的"——因为"每个点都离我们有一段距离"是解释"我移动头部时视野如何变化"的最佳方式。婴儿即使自己不动，也会被大人抱着移动，从视差中推导出三维。LeCun 强调：今天的学习机器仅靠被动看视频，也能学到世界是三维的。
直觉物理需要更长时间：物体恒存（object permanence）、稳定性、刚性学得很快；但惯性、重力这类"直觉物理"，人类婴儿要约 9 个月才掌握（动物更短）。
一个具象的实验：把八九个月的婴儿放上高脚椅、给一堆玩具，他大概率会系统性地把玩具一个个扔到地上、观察结果——这是在亲手做"重力对一切都适用"的实验。
心理学如何测量"婴儿学没学会某个概念"：用"违反预期（violation of expectation）"。给婴儿看小车被推下平台后悬在空中：6 个月大的几乎不看（还没学会重力），10 个月大的会非常惊讶。LeCun 指出，同一套方法可以用来检验机器学习系统是否获得了某种常识。

"婴儿在高脚椅上把玩具一个个扔下去看结果——他们在做重力适用于万物的实验。" —— Yann LeCun

那笔判死刑的数据账：纯文本永远到不了人类智能

核心要点：四岁孩子通过眼睛接收的信息量，和人类公开文本全部读 40 万年是同一个量级——视觉数据的体量碾压文本。

仍有很多人（"尤其在美国西海岸"）相信靠 scaling LLM、加合成数据、加一点后训练和强化学习就能到 AGI。LeCun："我认为这不可能。"
算给你看：今天典型 LLM 训练约 20 万亿词 ≈ 30 万亿 token ≈ 每 token 约 3 字节 ≈ 数据量 10^14 字节；任何人读完这些要约 40 万年。
对照四岁孩子：约 16 小时清醒时间（按视觉累计），相当于约 30 分钟的 YouTube 上传量；人有 200 万根视神经纤维、每根每秒约携带 1 字节——算下来通过视觉（可能还有触觉）接收的数据量同样是约 10^14 字节。四岁孩子用视觉接收的数据，等于全人类公开文本被读 40 万年。
有人会反驳"视频比文本冗余得多"。LeCun 反将一军："那是特性，不是缺陷。"自监督学习恰恰需要数据里的冗余——没有冗余，你什么都学不到（但也不能太多）。

"光靠文本训练，我们永远到不了任何接近人类智能的东西。这件事不会发生。" —— Yann LeCun

推理的两种模式：前向传播 vs 优化——LLM 选错了

核心要点：智能系统的关键属性是"推理模式"。把输出当作一个需要被搜索/优化出来的解，比跑过固定层数强大得多。

两种推理：一种是把输入跑过固定层数的神经网络直接得到输出（反应式 reactive system，LLM 属此类）；另一种是搜索出一个"与输入最兼容"的输出——你想象一个动作，再让智能系统判断"这个动作对当前观察是不是好的、能不能完成我想要的任务"。
这里引入一个"目标（objective）"作为成本函数（cost function）：它不用于学习，只用于推理；可以理解为概率模型里的负似然，或 LeCun 更偏爱的说法——能量函数（energy function）。推理就是在推理时搜索一个让能量最小化的输出。"这在计算上本质就比跑过固定层数更强大。"
对 LLM 的犀利批评：自回归（auto-regressive）逐 token 生成，每个 token 都只花固定算力跑过固定层数，"这不是好的推理模型。逼 LLM 推理的唯一办法是诱骗它生成更多 token，但人不是这样推理的——我们在内部推理，根本不在 token 空间、甚至不在语言里推理。"
右边的替代模型：感知世界 → 得到当前状态 → 想象一串动作 → 喂给内部世界模型预测结果 → 用目标衡量任务完成度 → 通过优化搜索出最优动作序列。"这是个强大得多的模型，但你需要一个世界模型。"

"我们在脑子里推理，不在 token 空间里推理，甚至不在语言里。" —— Yann LeCun

世界模型架构：自带"护栏"，本质安全、无法越狱

核心要点：把目标拆成"任务目标 + 护栏目标"，让系统的每一个输出都必须服从安全约束——这是 LLM 做不到的。

完整流程：感知模块产出"当前所见"的状态表示 → 与记忆（memory）结合得到对世界的完整认知 → 连同动作序列提案喂给世界模型 → 预测结果 → 喂给能量函数（任务完成则输出 0，否则为正数并可衡量距离）。
护栏目标（guardrail objectives）：另设一组目标，确保系统让世界经历的任何状态序列都不会伤人、不会造成有害后果。"这样构造的系统可以做到本质安全（intrinsically safe），因为它的每个输出都必须优化护栏目标。"
与 LLM 的根本对比：LLM 只能靠微调（fine-tuning）变得"安全/无毒"，而"总有办法破解这种条件约束、越狱（jailbreak）"；而这种世界模型系统"你没法越狱，它除了优化护栏目标和任务目标之外什么都做不了"。
这套思路并不新——多步应用世界模型、对动作序列每一步施加护栏，等价于模型预测控制（MPC, Model Predictive Control），是最优控制里非常经典的东西，可追溯到 1960 年代。LeCun 顺带提到他 2022 年放上网的一篇长论文（约 5 年前定型的架构）系统阐述了这一切，现场还放了 QR 码。

"你没法越狱这样一个系统——它除了优化护栏目标，什么都做不了。" —— Yann LeCun

分层规划：一个完全没解决的问题，也是绝佳的博士课题

核心要点：人和动物都做分层规划，但没人知道怎么让机器做——这是当前最开放的难题之一。

LeCun 用自己举例：人在 NYU 办公室、想明天到巴黎。绝不可能用 10 毫秒级的肌肉动作（人类的基本动作单元）去规划整趟旅程——一是太长，二是信息不足（你不知道下楼后要等多久才打到车）。
所以只能分层：高层先定"去机场、赶飞机"这个两步计划（不需要知道细节）；子目标"到机场"再分解为下楼、打车；"下楼"再分解为走到电梯、按按钮、出门……一路向下，直到动作简单到不需要规划（你站起来不用思考，那可以是一个现成策略 policy）。
"如何让系统做分层规划，是个未解问题。如果你是机器人、具身 AI 或 agentic AI 方向、正要开始读博，这是个绝佳课题——完全开放，没人知道怎么做，或者说没人证明自己知道怎么做。"

"没人知道如何做分层规划，或者说没人证明过自己知道。这是个完全开放的问题。" —— Yann LeCun

15 年踩坑得来的教训：训练世界模型，生成式（generative）是死路

核心要点：自监督学习对文本极其成功，但把同一套"预测被遮盖部分"的思路用到视频像素级，就会失败——因为未来有无限种可能。

LeCun 坦言自己做世界模型类的东西约 15 年，"前 10 年基本都在失败，因为我一直在试图训练生成式模型"。
SSL 对文本的成功：拿一串词、去掉/破坏一部分、让大网络恢复缺失部分——BERT 就是这么干的，而 LLM 是其特例（只去掉最后一个词，于是整个系统就是在预测下一个词）。"做对了它还能 scale。"
但对视频不行：给系统看视频开头、让它在像素级预测接下来会发生什么，效果很差。根因是你根本无法预测视频里会发生的一切——文本里词是有限的，可以输出一个概率分布；视频帧的可能性近乎无限。
一个直击要害的例子：拍这个房间的视频，相机慢慢转，停下让系统续写——它也许能猜到这是个礼堂、房间有限大、那边可能有窗，但"它绝无可能预测出你们每个人长什么样、哪些椅子空着。信息根本不在那里。当你训练系统做这种预测，你就把它毁了。"
至于"可我们能生成漂亮视频啊"——LeCun 回应：视频生成的预测通常发生在表示空间，再由第二阶段转成高清视频，而且它只需产出一个好看的视频，不需要表示所有可能的视频，"那是个简单得多的问题"。十年前他们用神经网络预测短视频片段只能得到模糊结果（系统预测的是所有可能情况的平均），后来扩散模型（diffusion models）能产出漂亮视频，但"它们真的理解世界吗？证据是：不"。

"很多人在做视频生成，还管它叫世界模型。它们不是世界模型，是视频生成系统。如果你想控制机器人或工业过程、想理解世界——别去做生成。" —— Yann LeCun

LeCun 的解法：JEPA——在抽象表示空间里预测

核心要点：联合嵌入预测架构（JEPA）同时编码 X 和 Y，在表示空间做预测，从而主动剔除不可预测的信息，让预测更抽象、却更准确。

左边是生成式：观察 X、动作 A，试图在最细节处重建 Y。右边是 JEPA（Joint Embedding Predictive Architecture）：把 X 和 Y 都编码，预测发生在表示空间。
关键差别：系统在构造 Y 的表示时，可以把 Y 里所有"根本不可预测"的信息直接消除掉——这让预测更抽象、细节更少，但某种意义上更准确。
训练生成式很容易（成本就是重建误差，可做成自编码器/去噪自编码器，扩散模型是其特例），但坏消息是：用这种方式学到的图像表示并不好，喂给下游监督任务，效果一般。"要拿到好结果，必须用联合嵌入架构。所有用自监督学习训练图像/视频表示的最强系统，全都用联合嵌入，没有一个用重建。"
JEPA 正在流行：Google Scholar 上约有 1700 篇论文提到"联合嵌入预测架构"。

"所有最强的图像/视频自监督表示系统，全部用联合嵌入，没有一个用重建。" —— Yann LeCun

JEPA 的命门是"坍缩"，防坍缩靠信息最大化与能量基模型

核心要点：联合嵌入系统会坍缩成"忽略输入、输出常数表示"，整个自监督学习的技巧就在于如何防止坍缩。

坍缩（collapse）：系统可以完全无视输入、产出恒定表示，于是预测问题变得平凡——光训它最小化预测误差，它就会坍缩，对你毫无用处。
LeCun 最偏爱的防坍缩思路是信息最大化（information maximization）：设计一个目标函数衡量表示的信息含量，并最大化它（成本函数 = 负信息量）。过去六七年涌现一批技术：VICReg、Barlow Twins（来自 LeCun 团队）、MNCR（Berkeley）、MCR²（NYU 神经科学同事）等。
难点：信息含量需要可微度量才能反向传播，但我们既没有客观度量（正确定义都依赖分布，而我们只有编码器吐出的样本），所有经验度量又都是上界（最大化需要下界）。"于是我们想个好的上界，然后祈祷，再证几个定理。"
更底层的统一框架是能量基模型（EBM, Energy-Based Models），LeCun 倡导约 20 年。它用来捕捉 X、Y 之间"没有函数关系的依赖"（同一个 X 对应多个合理的 Y）：把数据点想象成能量地形里的山谷（"在瑞士这里就是湖"），离数据越远能量越高；给定 X，可以搜索出让能量最小的多个 Y。"概率模型只是能量取特定形式、损失取特定形式的特例"——EBM 是更一般的框架。
两类防坍缩方法：对比法（contrastive，在数据区外生成点、把能量推高）；正则化法（regularized，通过压缩"能取低能量的空间体积"来防坍缩，LeCun 更偏爱后者）。在信息最大化的矩阵视角下：让"行都不同"是样本对比法，让"列都不同"是维度对比法（每个表示变量都尽量解耦、携带独立信息）。"CLIP 就是一种样本对比法，在图像和文本间做联合嵌入。"

"整个自监督学习的窍门，就是如何防止系统坍缩。" —— Yann LeCun

为什么世界模型必须在抽象空间：从粒子物理到心理学

核心要点：科学的本质就是发明抽象、忽略下层细节来做长程预测；世界模型也必须如此，绝不能是模拟器。

原则上 LeCun 可以用量子场论模拟这房间里每个粒子的轨迹，连每个人的脑过程都能算出来，从而判断"你们谁在听懂我说话、谁睡着了、谁无聊透顶"——但这"完全不切实际"。
科学的做法是发明抽象：量子场→粒子→原子→分子→蛋白质→细胞→器官→个体→社会→生态系统，每一层都是一个抽象层级，忽略下层大量细节，换来更长程的预测。"所以理解此刻这房间里发生的事，靠心理学层面比靠粒子物理层面更有效。"且每个抽象层都包含下层并不显然的新知识（化学并不直接从物理推导出来）。
类比设计飞机：你做计算流体力学，用速度、密度刻画机翼周围每个小立方体的空气状态、解纳维-斯托克斯方程，而绝不会去模拟空气分子互相碰撞——太复杂，而且细节太多会很快偏离现实。"你必须忽略细节，才能做出准确的长期预测。"
结论：世界模型不应是模拟器、不该是"数字孪生（digital twin）"这种时髦词、绝不该是生成式、更不该是视频生成。 它们应工作在抽象空间，用来控制那些"写不出动力学方程"的复杂系统——涡轮喷气机、化工厂、病人，或与真实世界复杂交互的机器人。"机器人自己翻跟头、打功夫很简单，写出动力学方程模拟就行；可一旦它开始与真实世界交互，就复杂得多、难以化简为方程，这时只能学一个系统的现象学模型（phenomenological model）。"

"世界模型不该是模拟器。它们应该工作在抽象空间。" —— Yann LeCun

最新武器 SIGReg：用随机投影逼出各向同性高斯

核心要点：LeCun 特别看好的新技术 SIGReg，通过大量随机投影把表示分布逼成各向同性高斯，从而让各维度相互独立、信息最大化。

SIGReg = Sketched Isotropic Gaussian Regularization（草图各向同性高斯正则化）。把一批样本跑过编码器，得到表示空间里一堆点；目标是让这些点的分布变成各向同性高斯（isotropic Gaussian）——因为这种分布下所有变量相互独立、单独看信息量最大（也是给定方差下熵最大，但 LeCun 说他不在乎熵，在乎的是独立性）。
怎么做（高维下没有分布、只有离散点）：把点投影到某个单一方向，得到边缘分布的离散点 → 算其经验累积分布（一个阶梯函数）与理想高斯累积分布的距离 → 对每个点判断它在理想高斯的左边还是右边，由此得到一个梯度（该往哪挪）。沿这一个投影做梯度下降，能让该方向的边缘分布变高斯。有定理保证：沿足够多方向都这么做，极限下联合分布就是各向同性高斯。
因此做法是：做大量投影、对每个投影算梯度、反向传播改权重，让整体分布越来越高斯。
实践效果：已用于训练动作条件（action-conditioned）的世界模型并做规划，效果不错；"源码开放、非常简单，单张 GPU 就能训"。能在 push-T、双摆等模拟机器人场景里规划简单动作，下一步是 scale up。几天前还出了一篇理论论文：若假设底层数据本就是各向同性高斯、观测是其复杂非线性变换（如螺旋变换），用 SIGReg 训练的网络能在表示空间里把原始高斯恢复出来（精确到一个旋转）。

"源码是公开的，非常简单，你用一张 GPU 就能训练它。我们要做的就是把它 scale up。" —— Yann LeCun

已规模化的另一条路：蒸馏方法与 V-JEPA 习得的"常识"

核心要点：基于蒸馏（distillation）的方法（DINO、V-JEPA 等）已被成功 scale up，产出当前最强的图像/视频表示，而 V-JEPA 甚至自发获得了物理常识。

SIGReg 是 LeCun 概念上最爱、但太新还没规模化；真正已经被 scale up 并拿到好结果（图像和视频都有）的，是蒸馏方法。
蒸馏机制：仍是两个编码器（JEPA 架构），但右边编码器不回传梯度，而是用左边编码器权重的指数移动平均（EMA）——左边一直被梯度更新，右边更新更慢。这思路源自 DeepMind 用来稳定强化学习方差的技巧，后被用于图像自监督，称为 BYOL（Bootstrap Your Own Latent）。
代表系统：
I-JEPA：结果很好，且不仅优于生成式的 MAE（掩码自编码器），训练还快得多。
DINO（Meta 巴黎前同事所做）：完全自监督、联合嵌入 + 蒸馏，"目前能产出最好的通用图像表示——任何视觉任务，它大概都是最好的图像编码器"。机器人 demo 里就有项目用了 DINO。
V-JEPA 习得常识（最让 LeCun 兴奋的发现）：V-JEPA 用 16 帧窗口在视频上滑动、预测接下来 15-16 帧。给它看违反物理的视频（球被抛出后凭空消失），其内部预测误差会飙升——就像看到悬空小车不掉的婴儿。"这是我第一次看到一个完全自监督的系统获得了某种程度的常识，能告诉你什么可能、什么不可能。"
V-JEPA 2.1 → 单图深度预测：呼应开头"婴儿靠视差学会三维"，团队在 V-JEPA 2.1 的表示之上训练一个深度预测头，仅凭单张图预测深度，效果很好、优于 DINOv3。"这说明系统仅仅通过在表示层面填补视频空白，就理解了世界是三维的"——也理解了物体的概念（用其表示做图像分割也相当不错）。

"你给它看一段不可能发生的视频，球凭空消失，预测误差就冲破屋顶——就像那个看着小车不掉下来而惊讶的小女孩。" —— Yann LeCun

收尾立场：抛弃生成式、抛弃概率模型、少用 RL，去做物理 AI

核心要点：LeCun 给出一组旗帜鲜明（也"不讨硅谷喜欢"）的方向建议，并宣布离开 Meta、创办专做真实世界 AI 的新公司。

一连串"abandon（抛弃）"：抛弃生成式模型，转向联合嵌入架构（若你在做 LLM——"你不该做 LLM，尤其在学术界，绝对不该做，你在那带不来任何新东西"）；抛弃概率模型，转向能量基模型；用基于变量（而非样本）的信息最大化 / 正则化方法；少用强化学习——"我不是真要你抛弃 RL，是要你尽量少用，因为它的样本效率低得可怕。RL 是走投无路、别无他法时才用的东西。"绝大部分学习应靠观察完成，有了好表示之后再在上面用一点 RL，就不需要太多样本。
"如你所料，这套主张让我在硅谷不太受欢迎。"
新公司：LeCun 在 2025 年底离开 Meta，创办 AMI Labs（"先进机器智能"），目标是真实世界 / 物理 AI——机器人只是用例之一，还包括工业过程控制等"一切高维、连续、含噪、LLM 完全无能为力"的问题。

"RL 是你走投无路、再没别的办法时才用的东西。真要在真实世界 AI 上取得进展，别做 LLM，也别做生成式模型。" —— Yann LeCun

Q&A：约束/护栏怎么进入"表示空间"？

核心要点：工程师习惯在状态空间（如三维）里写约束，但 LeCun 的系统在表示空间工作——答案是训一个极小的投影头。

提问：MPC 受工程师喜爱，因为能把约束写在状态空间（比如"别撞墙"）。但你的系统一切都在表示空间里，我怎么把"别撞墙"这种约束放进去？是系统自己学约束，还是工程师能手动放进去？
LeCun 回答：你需要在表示之上训一个很小的头（head）/投影器（projector），把表示映射到你关心的那个约束量。这部分要训练，但"用极少样本就行，因为它本质就是一个投影"。
追问"是不是每种约束都要一个不同编码器？"——LeCun 澄清：不是不同编码器，而是每个约束一个不同的投影器。比如任务是"开门"，那不是约束、是任务目标，你需要一个成本函数告诉你门开没开——这个可能要在训练完成任务时一起训，"但基本上只需要两个样本"。

"你需要在表示之上训一个很小的头……但可以用极少样本，因为它本质上就是个投影。开门这种任务目标，基本上只要两个样本。" —— Yann LeCun

附录：关键人 / 机构 / 概念 / 数据

项目	详情
Yann LeCun	主讲人。Turing 奖得主、卷积网络之父、前 Meta 首席 AI 科学家；2025 年底离开 Meta
AMI Labs	LeCun 创办的新公司（"Advanced Machine Intelligence"，先进机器智能），专做真实世界 / 物理 AI
ETH Zürich	演讲地点，「Frontiers of Embodied AI」活动，由 Computer Vision and Geometry Group 主办
Piaget（皮亚杰）	心理学家，对 LeCun 影响很大；"智能是你不知道时怎么做"被归于他（实为后人提炼）
Chomsky / Seymour Papert	1970s 末法国"语言天生 vs 习得"辩论双方相关人物；Papert（MIT）曾写书"杀死"神经网络领域，后又为其辩护
DeepMind	EMA 稳定 RL 方差的思路来源，后衍生出 BYOL
Moravec 悖论	对人难的（下棋、证明定理）对机器易；对人易的（物理常识）对机器难
违反预期 (violation of expectation)	心理学测婴儿是否习得某概念的方法，也可用于测机器是否有常识
JEPA	Joint Embedding Predictive Architecture，联合嵌入预测架构；在表示空间预测，剔除不可预测信息
I-JEPA / V-JEPA	JEPA 的图像版 / 视频版；V-JEPA 习得物理常识，V-JEPA 2.1 单图深度优于 DINOv3
EBM	Energy-Based Model，能量基模型；LeCun 倡导约 20 年，概率模型是其特例
collapse（坍缩）	联合嵌入系统忽略输入、产出常数表示的失败模式
信息最大化技术	VICReg、Barlow Twins（LeCun 团队）、MNCR（Berkeley）、MCR²（NYU）
SIGReg	Sketched Isotropic Gaussian Regularization；随机投影逼出各向同性高斯，单 GPU 可训、源码开放
蒸馏方法	EMA 编码器 + BYOL（Bootstrap Your Own Latent）；DINO 产出最强通用图像表示
MAE / DINOv3 / CLIP	MAE=掩码自编码器（生成式，被 I-JEPA 超越）；DINOv3 被 V-JEPA 2.1 深度任务超越；CLIP 是样本对比法
MPC	Model Predictive Control，模型预测控制，源自 1960s 最优控制
10^14 字节	LLM 训练数据量（≈20 万亿词），人读需约 40 万年；也是 4 岁儿童视觉接收的数据量
1700 篇	Google Scholar 上提及"联合嵌入预测架构"的论文数
9 个月	人类婴儿掌握重力等"直觉物理"所需时间（动物更短）