概要
- 开场一句"机器学习很烂(machine learning sucks)"定调全场。 LeCun 用一连串对比说明机器与人/动物的学习鸿沟:任何青少年几小时就能学会开车,而自动驾驶公司握着数百万小时数据,至今造不出 L5;这背后是 Moravec 悖论——对人难的(下棋、证明定理)对机器易,对人易的(物理常识)对机器极难。
- 他给"靠 scaling LLM 走向 AGI"判了死刑,论据是一笔数据账。 今天的 LLM 训练约 20 万亿词(≈10^14 字节),人读完要 40 万年;而一个 4 岁孩子通过视觉接收的数据量同样是 10^14 字节,只用了约 16 小时清醒时间、相当于 30 分钟的 YouTube 上传量。"光靠文本训练,永远到不了人类水平的智能,这件事不会发生。"
- 正确的推理方式不是前向传播,而是优化。 LLM 是把输入跑过固定层数、逐 token 生成,"让它推理的唯一办法是诱骗它多吐 token,但人不是在 token 空间里思考的"。LeCun 主张的是通过能量最小化(energy minimization)在推理时搜索最优动作——这需要一个世界模型(world model)。
- 世界模型的正确形态是 JEPA(联合嵌入预测架构),不是生成式、不是视频生成、不是数字孪生。 关键差别:生成式要在像素级重建未来(不可能,未来有无限种可能),JEPA 则在抽象表示空间里预测,主动剔除掉那些根本无法预测的信息。"很多人做视频生成还管它叫世界模型——它们不是世界模型,是视频生成系统。"
- 这套主张已有可验证的成果:V-JEPA 自发习得了"常识"。 给它看一段违反物理的视频(球凭空消失),其内部预测误差会飙升——就像看到悬空小车不掉下来会惊讶的婴儿。LeCun 称这是他见过的第一个完全自监督、却获得了某种常识的系统。
开场暴论:"机器学习很烂"——我们一直撞在 Moravec 悖论上
核心要点:当前最强的 AI 技术处理不了真实世界,因为真实世界是连续、高维、含噪的,而语言相比之下"简单得多"。
- LeCun 上来就对台下一屋子机器学习研究者说"我有个坏消息:machine learning sucks"。人和动物能用极少样本快速学会新任务、有物理常识、能零样本(zero-shot)完成从没见过的事,机器做不到。
- 自动驾驶是最锋利的反例:任何青少年几小时练习就能学会开车,而自驾公司有"字面意义上数百万小时"的训练数据,却无法靠模仿人类把可靠性做到同一水平。"否则我们早就有 L5 自动驾驶了,但我们没有"——消费车最多 L2/L3,robotaxi 是靠各种传感器重度工程化堆出来的。
- Moravec 悖论:对人类困难的事(下棋、符号积分、解方程、证明数学定理)对计算机不难;对人类轻而易举的事(常识、物理直觉)对计算机却极难。一个 10 岁小孩第一次被要求做家务机器人的活,没受过训练也能做——可能不情愿,但能做。
- LeCun 借此回到一个立场之争:智能是否必须有"具身落地(grounding)"?"有些哲学家、尤其是搞语言的人不认为这是必要的,但我认为是。"
"语言相比之下是简单的。真实世界才是一团乱麻。" —— Yann LeCun
智能不是知识、也不是技能的累积,而是适应力——所以"AGI"是个无意义的词
核心要点:人类智能是高度专门化的,特征不是"什么都会",而是"能极快地学会任何新东西"。
- LeCun 引用一句常被归于皮亚杰(Piaget)的话:"智能不是你知道什么,而是你不知道时该怎么做。"(他特意澄清:皮亚杰其实从没这么说过,是后人把他的思想提炼成了这句话。)
- 由此推出两个否定:智能不是陈述性知识(declarative knowledge)的累积——LLM 正是这种累积,它有用恰恰因为攒了海量陈述性知识;智能也不是一堆技能的集合——只要砸够资源,你几乎能造机器完成任何单一任务(包括自动驾驶),但那不是智能。
- 真正的智能是适应:能在约 20 小时内学会开车、能用极少训练学会任何新任务。正因如此,"智能不会有简单的度量标准"——任何具体任务只要花足够力气总能攻克,关键在于你有多强的适应性。
- 这条逻辑直接通向他对"AGI"的嘲讽:"AGI 这个提法完全是胡说。人类智能本身就是专门化的。"我们每个人掌握的知识、拥有的技能都不同,因为我们被不同环境塑造、要解决不同问题——这才是智能。
"AGI 作为一个词组毫无意义。问题不是'你会不会做所有事',而是'你能不能快速学会做任何事'。" —— Yann LeCun
人类是怎么学的:婴儿靠"看"就建起了世界模型
核心要点:生命早期的大量学习发生在观察中,几乎不依赖行动——这正是世界模型可以被自监督学习复制的关键证据。
- 两个月大的婴儿基本无法改变世界(动不了物体),却能纯靠观察学到大量东西。最早学会的一件事是"世界是三维的"——因为"每个点都离我们有一段距离"是解释"我移动头部时视野如何变化"的最佳方式。婴儿即使自己不动,也会被大人抱着移动,从视差中推导出三维。LeCun 强调:今天的学习机器仅靠被动看视频,也能学到世界是三维的。
- 直觉物理需要更长时间:物体恒存(object permanence)、稳定性、刚性学得很快;但惯性、重力这类"直觉物理",人类婴儿要约 9 个月才掌握(动物更短)。
- 一个具象的实验:把八九个月的婴儿放上高脚椅、给一堆玩具,他大概率会系统性地把玩具一个个扔到地上、观察结果——这是在亲手做"重力对一切都适用"的实验。
- 心理学如何测量"婴儿学没学会某个概念":用"违反预期(violation of expectation)"。给婴儿看小车被推下平台后悬在空中:6 个月大的几乎不看(还没学会重力),10 个月大的会非常惊讶。LeCun 指出,同一套方法可以用来检验机器学习系统是否获得了某种常识。
"婴儿在高脚椅上把玩具一个个扔下去看结果——他们在做重力适用于万物的实验。" —— Yann LeCun
那笔判死刑的数据账:纯文本永远到不了人类智能
核心要点:四岁孩子通过眼睛接收的信息量,和人类公开文本全部读 40 万年是同一个量级——视觉数据的体量碾压文本。
- 仍有很多人("尤其在美国西海岸")相信靠 scaling LLM、加合成数据、加一点后训练和强化学习就能到 AGI。LeCun:"我认为这不可能。"
- 算给你看:今天典型 LLM 训练约 20 万亿词 ≈ 30 万亿 token ≈ 每 token 约 3 字节 ≈ 数据量 10^14 字节;任何人读完这些要约 40 万年。
- 对照四岁孩子:约 16 小时清醒时间(按视觉累计),相当于约 30 分钟的 YouTube 上传量;人有 200 万根视神经纤维、每根每秒约携带 1 字节——算下来通过视觉(可能还有触觉)接收的数据量同样是约 10^14 字节。四岁孩子用视觉接收的数据,等于全人类公开文本被读 40 万年。
- 有人会反驳"视频比文本冗余得多"。LeCun 反将一军:"那是特性,不是缺陷。"自监督学习恰恰需要数据里的冗余——没有冗余,你什么都学不到(但也不能太多)。
"光靠文本训练,我们永远到不了任何接近人类智能的东西。这件事不会发生。" —— Yann LeCun
推理的两种模式:前向传播 vs 优化——LLM 选错了
核心要点:智能系统的关键属性是"推理模式"。把输出当作一个需要被搜索/优化出来的解,比跑过固定层数强大得多。
- 两种推理:一种是把输入跑过固定层数的神经网络直接得到输出(反应式 reactive system,LLM 属此类);另一种是搜索出一个"与输入最兼容"的输出——你想象一个动作,再让智能系统判断"这个动作对当前观察是不是好的、能不能完成我想要的任务"。
- 这里引入一个"目标(objective)"作为成本函数(cost function):它不用于学习,只用于推理;可以理解为概率模型里的负似然,或 LeCun 更偏爱的说法——能量函数(energy function)。推理就是在推理时搜索一个让能量最小化的输出。"这在计算上本质就比跑过固定层数更强大。"
- 对 LLM 的犀利批评:自回归(auto-regressive)逐 token 生成,每个 token 都只花固定算力跑过固定层数,"这不是好的推理模型。逼 LLM 推理的唯一办法是诱骗它生成更多 token,但人不是这样推理的——我们在内部推理,根本不在 token 空间、甚至不在语言里推理。"
- 右边的替代模型:感知世界 → 得到当前状态 → 想象一串动作 → 喂给内部世界模型预测结果 → 用目标衡量任务完成度 → 通过优化搜索出最优动作序列。"这是个强大得多的模型,但你需要一个世界模型。"
"我们在脑子里推理,不在 token 空间里推理,甚至不在语言里。" —— Yann LeCun
世界模型架构:自带"护栏",本质安全、无法越狱
核心要点:把目标拆成"任务目标 + 护栏目标",让系统的每一个输出都必须服从安全约束——这是 LLM 做不到的。
- 完整流程:感知模块产出"当前所见"的状态表示 → 与记忆(memory)结合得到对世界的完整认知 → 连同动作序列提案喂给世界模型 → 预测结果 → 喂给能量函数(任务完成则输出 0,否则为正数并可衡量距离)。
- 护栏目标(guardrail objectives):另设一组目标,确保系统让世界经历的任何状态序列都不会伤人、不会造成有害后果。"这样构造的系统可以做到本质安全(intrinsically safe),因为它的每个输出都必须优化护栏目标。"
- 与 LLM 的根本对比:LLM 只能靠微调(fine-tuning)变得"安全/无毒",而"总有办法破解这种条件约束、越狱(jailbreak)";而这种世界模型系统"你没法越狱,它除了优化护栏目标和任务目标之外什么都做不了"。
- 这套思路并不新——多步应用世界模型、对动作序列每一步施加护栏,等价于模型预测控制(MPC, Model Predictive Control),是最优控制里非常经典的东西,可追溯到 1960 年代。LeCun 顺带提到他 2022 年放上网的一篇长论文(约 5 年前定型的架构)系统阐述了这一切,现场还放了 QR 码。
"你没法越狱这样一个系统——它除了优化护栏目标,什么都做不了。" —— Yann LeCun
分层规划:一个完全没解决的问题,也是绝佳的博士课题
核心要点:人和动物都做分层规划,但没人知道怎么让机器做——这是当前最开放的难题之一。
- LeCun 用自己举例:人在 NYU 办公室、想明天到巴黎。绝不可能用 10 毫秒级的肌肉动作(人类的基本动作单元)去规划整趟旅程——一是太长,二是信息不足(你不知道下楼后要等多久才打到车)。
- 所以只能分层:高层先定"去机场、赶飞机"这个两步计划(不需要知道细节);子目标"到机场"再分解为下楼、打车;"下楼"再分解为走到电梯、按按钮、出门……一路向下,直到动作简单到不需要规划(你站起来不用思考,那可以是一个现成策略 policy)。
- "如何让系统做分层规划,是个未解问题。如果你是机器人、具身 AI 或 agentic AI 方向、正要开始读博,这是个绝佳课题——完全开放,没人知道怎么做,或者说没人证明自己知道怎么做。"
"没人知道如何做分层规划,或者说没人证明过自己知道。这是个完全开放的问题。" —— Yann LeCun
15 年踩坑得来的教训:训练世界模型,生成式(generative)是死路
核心要点:自监督学习对文本极其成功,但把同一套"预测被遮盖部分"的思路用到视频像素级,就会失败——因为未来有无限种可能。
- LeCun 坦言自己做世界模型类的东西约 15 年,"前 10 年基本都在失败,因为我一直在试图训练生成式模型"。
- SSL 对文本的成功:拿一串词、去掉/破坏一部分、让大网络恢复缺失部分——BERT 就是这么干的,而 LLM 是其特例(只去掉最后一个词,于是整个系统就是在预测下一个词)。"做对了它还能 scale。"
- 但对视频不行:给系统看视频开头、让它在像素级预测接下来会发生什么,效果很差。根因是你根本无法预测视频里会发生的一切——文本里词是有限的,可以输出一个概率分布;视频帧的可能性近乎无限。
- 一个直击要害的例子:拍这个房间的视频,相机慢慢转,停下让系统续写——它也许能猜到这是个礼堂、房间有限大、那边可能有窗,但"它绝无可能预测出你们每个人长什么样、哪些椅子空着。信息根本不在那里。当你训练系统做这种预测,你就把它毁了。"
- 至于"可我们能生成漂亮视频啊"——LeCun 回应:视频生成的预测通常发生在表示空间,再由第二阶段转成高清视频,而且它只需产出一个好看的视频,不需要表示所有可能的视频,"那是个简单得多的问题"。十年前他们用神经网络预测短视频片段只能得到模糊结果(系统预测的是所有可能情况的平均),后来扩散模型(diffusion models)能产出漂亮视频,但"它们真的理解世界吗?证据是:不"。
"很多人在做视频生成,还管它叫世界模型。它们不是世界模型,是视频生成系统。如果你想控制机器人或工业过程、想理解世界——别去做生成。" —— Yann LeCun
LeCun 的解法:JEPA——在抽象表示空间里预测
核心要点:联合嵌入预测架构(JEPA)同时编码 X 和 Y,在表示空间做预测,从而主动剔除不可预测的信息,让预测更抽象、却更准确。
- 左边是生成式:观察 X、动作 A,试图在最细节处重建 Y。右边是 JEPA(Joint Embedding Predictive Architecture):把 X 和 Y 都编码,预测发生在表示空间。
- 关键差别:系统在构造 Y 的表示时,可以把 Y 里所有"根本不可预测"的信息直接消除掉——这让预测更抽象、细节更少,但某种意义上更准确。
- 训练生成式很容易(成本就是重建误差,可做成自编码器/去噪自编码器,扩散模型是其特例),但坏消息是:用这种方式学到的图像表示并不好,喂给下游监督任务,效果一般。"要拿到好结果,必须用联合嵌入架构。所有用自监督学习训练图像/视频表示的最强系统,全都用联合嵌入,没有一个用重建。"
- JEPA 正在流行:Google Scholar 上约有 1700 篇论文提到"联合嵌入预测架构"。
"所有最强的图像/视频自监督表示系统,全部用联合嵌入,没有一个用重建。" —— Yann LeCun
JEPA 的命门是"坍缩",防坍缩靠信息最大化与能量基模型
核心要点:联合嵌入系统会坍缩成"忽略输入、输出常数表示",整个自监督学习的技巧就在于如何防止坍缩。
- 坍缩(collapse):系统可以完全无视输入、产出恒定表示,于是预测问题变得平凡——光训它最小化预测误差,它就会坍缩,对你毫无用处。
- LeCun 最偏爱的防坍缩思路是信息最大化(information maximization):设计一个目标函数衡量表示的信息含量,并最大化它(成本函数 = 负信息量)。过去六七年涌现一批技术:VICReg、Barlow Twins(来自 LeCun 团队)、MNCR(Berkeley)、MCR²(NYU 神经科学同事)等。
- 难点:信息含量需要可微度量才能反向传播,但我们既没有客观度量(正确定义都依赖分布,而我们只有编码器吐出的样本),所有经验度量又都是上界(最大化需要下界)。"于是我们想个好的上界,然后祈祷,再证几个定理。"
- 更底层的统一框架是能量基模型(EBM, Energy-Based Models),LeCun 倡导约 20 年。它用来捕捉 X、Y 之间"没有函数关系的依赖"(同一个 X 对应多个合理的 Y):把数据点想象成能量地形里的山谷("在瑞士这里就是湖"),离数据越远能量越高;给定 X,可以搜索出让能量最小的多个 Y。"概率模型只是能量取特定形式、损失取特定形式的特例"——EBM 是更一般的框架。
- 两类防坍缩方法:对比法(contrastive,在数据区外生成点、把能量推高);正则化法(regularized,通过压缩"能取低能量的空间体积"来防坍缩,LeCun 更偏爱后者)。在信息最大化的矩阵视角下:让"行都不同"是样本对比法,让"列都不同"是维度对比法(每个表示变量都尽量解耦、携带独立信息)。"CLIP 就是一种样本对比法,在图像和文本间做联合嵌入。"
"整个自监督学习的窍门,就是如何防止系统坍缩。" —— Yann LeCun
为什么世界模型必须在抽象空间:从粒子物理到心理学
核心要点:科学的本质就是发明抽象、忽略下层细节来做长程预测;世界模型也必须如此,绝不能是模拟器。
- 原则上 LeCun 可以用量子场论模拟这房间里每个粒子的轨迹,连每个人的脑过程都能算出来,从而判断"你们谁在听懂我说话、谁睡着了、谁无聊透顶"——但这"完全不切实际"。
- 科学的做法是发明抽象:量子场→粒子→原子→分子→蛋白质→细胞→器官→个体→社会→生态系统,每一层都是一个抽象层级,忽略下层大量细节,换来更长程的预测。"所以理解此刻这房间里发生的事,靠心理学层面比靠粒子物理层面更有效。"且每个抽象层都包含下层并不显然的新知识(化学并不直接从物理推导出来)。
- 类比设计飞机:你做计算流体力学,用速度、密度刻画机翼周围每个小立方体的空气状态、解纳维-斯托克斯方程,而绝不会去模拟空气分子互相碰撞——太复杂,而且细节太多会很快偏离现实。"你必须忽略细节,才能做出准确的长期预测。"
- 结论:世界模型不应是模拟器、不该是"数字孪生(digital twin)"这种时髦词、绝不该是生成式、更不该是视频生成。 它们应工作在抽象空间,用来控制那些"写不出动力学方程"的复杂系统——涡轮喷气机、化工厂、病人,或与真实世界复杂交互的机器人。"机器人自己翻跟头、打功夫很简单,写出动力学方程模拟就行;可一旦它开始与真实世界交互,就复杂得多、难以化简为方程,这时只能学一个系统的现象学模型(phenomenological model)。"
"世界模型不该是模拟器。它们应该工作在抽象空间。" —— Yann LeCun
最新武器 SIGReg:用随机投影逼出各向同性高斯
核心要点:LeCun 特别看好的新技术 SIGReg,通过大量随机投影把表示分布逼成各向同性高斯,从而让各维度相互独立、信息最大化。
- SIGReg = Sketched Isotropic Gaussian Regularization(草图各向同性高斯正则化)。把一批样本跑过编码器,得到表示空间里一堆点;目标是让这些点的分布变成各向同性高斯(isotropic Gaussian)——因为这种分布下所有变量相互独立、单独看信息量最大(也是给定方差下熵最大,但 LeCun 说他不在乎熵,在乎的是独立性)。
- 怎么做(高维下没有分布、只有离散点):把点投影到某个单一方向,得到边缘分布的离散点 → 算其经验累积分布(一个阶梯函数)与理想高斯累积分布的距离 → 对每个点判断它在理想高斯的左边还是右边,由此得到一个梯度(该往哪挪)。沿这一个投影做梯度下降,能让该方向的边缘分布变高斯。有定理保证:沿足够多方向都这么做,极限下联合分布就是各向同性高斯。
- 因此做法是:做大量投影、对每个投影算梯度、反向传播改权重,让整体分布越来越高斯。
- 实践效果:已用于训练动作条件(action-conditioned)的世界模型并做规划,效果不错;"源码开放、非常简单,单张 GPU 就能训"。能在 push-T、双摆等模拟机器人场景里规划简单动作,下一步是 scale up。几天前还出了一篇理论论文:若假设底层数据本就是各向同性高斯、观测是其复杂非线性变换(如螺旋变换),用 SIGReg 训练的网络能在表示空间里把原始高斯恢复出来(精确到一个旋转)。
"源码是公开的,非常简单,你用一张 GPU 就能训练它。我们要做的就是把它 scale up。" —— Yann LeCun
已规模化的另一条路:蒸馏方法与 V-JEPA 习得的"常识"
核心要点:基于蒸馏(distillation)的方法(DINO、V-JEPA 等)已被成功 scale up,产出当前最强的图像/视频表示,而 V-JEPA 甚至自发获得了物理常识。
- SIGReg 是 LeCun 概念上最爱、但太新还没规模化;真正已经被 scale up 并拿到好结果(图像和视频都有)的,是蒸馏方法。
- 蒸馏机制:仍是两个编码器(JEPA 架构),但右边编码器不回传梯度,而是用左边编码器权重的指数移动平均(EMA)——左边一直被梯度更新,右边更新更慢。这思路源自 DeepMind 用来稳定强化学习方差的技巧,后被用于图像自监督,称为 BYOL(Bootstrap Your Own Latent)。
- 代表系统:
- I-JEPA:结果很好,且不仅优于生成式的 MAE(掩码自编码器),训练还快得多。
- DINO(Meta 巴黎前同事所做):完全自监督、联合嵌入 + 蒸馏,"目前能产出最好的通用图像表示——任何视觉任务,它大概都是最好的图像编码器"。机器人 demo 里就有项目用了 DINO。
- V-JEPA 习得常识(最让 LeCun 兴奋的发现):V-JEPA 用 16 帧窗口在视频上滑动、预测接下来 15-16 帧。给它看违反物理的视频(球被抛出后凭空消失),其内部预测误差会飙升——就像看到悬空小车不掉的婴儿。"这是我第一次看到一个完全自监督的系统获得了某种程度的常识,能告诉你什么可能、什么不可能。"
- V-JEPA 2.1 → 单图深度预测:呼应开头"婴儿靠视差学会三维",团队在 V-JEPA 2.1 的表示之上训练一个深度预测头,仅凭单张图预测深度,效果很好、优于 DINOv3。"这说明系统仅仅通过在表示层面填补视频空白,就理解了世界是三维的"——也理解了物体的概念(用其表示做图像分割也相当不错)。
"你给它看一段不可能发生的视频,球凭空消失,预测误差就冲破屋顶——就像那个看着小车不掉下来而惊讶的小女孩。" —— Yann LeCun
收尾立场:抛弃生成式、抛弃概率模型、少用 RL,去做物理 AI
核心要点:LeCun 给出一组旗帜鲜明(也"不讨硅谷喜欢")的方向建议,并宣布离开 Meta、创办专做真实世界 AI 的新公司。
- 一连串"abandon(抛弃)":抛弃生成式模型,转向联合嵌入架构(若你在做 LLM——"你不该做 LLM,尤其在学术界,绝对不该做,你在那带不来任何新东西");抛弃概率模型,转向能量基模型;用基于变量(而非样本)的信息最大化 / 正则化方法;少用强化学习——"我不是真要你抛弃 RL,是要你尽量少用,因为它的样本效率低得可怕。RL 是走投无路、别无他法时才用的东西。"绝大部分学习应靠观察完成,有了好表示之后再在上面用一点 RL,就不需要太多样本。
- "如你所料,这套主张让我在硅谷不太受欢迎。"
- 新公司:LeCun 在 2025 年底离开 Meta,创办 AMI Labs("先进机器智能"),目标是真实世界 / 物理 AI——机器人只是用例之一,还包括工业过程控制等"一切高维、连续、含噪、LLM 完全无能为力"的问题。
"RL 是你走投无路、再没别的办法时才用的东西。真要在真实世界 AI 上取得进展,别做 LLM,也别做生成式模型。" —— Yann LeCun
Q&A:约束/护栏怎么进入"表示空间"?
核心要点:工程师习惯在状态空间(如三维)里写约束,但 LeCun 的系统在表示空间工作——答案是训一个极小的投影头。
- 提问:MPC 受工程师喜爱,因为能把约束写在状态空间(比如"别撞墙")。但你的系统一切都在表示空间里,我怎么把"别撞墙"这种约束放进去?是系统自己学约束,还是工程师能手动放进去?
- LeCun 回答:你需要在表示之上训一个很小的头(head)/投影器(projector),把表示映射到你关心的那个约束量。这部分要训练,但"用极少样本就行,因为它本质就是一个投影"。
- 追问"是不是每种约束都要一个不同编码器?"——LeCun 澄清:不是不同编码器,而是每个约束一个不同的投影器。比如任务是"开门",那不是约束、是任务目标,你需要一个成本函数告诉你门开没开——这个可能要在训练完成任务时一起训,"但基本上只需要两个样本"。
"你需要在表示之上训一个很小的头……但可以用极少样本,因为它本质上就是个投影。开门这种任务目标,基本上只要两个样本。" —— Yann LeCun
附录:关键人 / 机构 / 概念 / 数据
| 项目 | 详情 |
|---|---|
| Yann LeCun | 主讲人。Turing 奖得主、卷积网络之父、前 Meta 首席 AI 科学家;2025 年底离开 Meta |
| AMI Labs | LeCun 创办的新公司("Advanced Machine Intelligence",先进机器智能),专做真实世界 / 物理 AI |
| ETH Zürich | 演讲地点,「Frontiers of Embodied AI」活动,由 Computer Vision and Geometry Group 主办 |
| Piaget(皮亚杰) | 心理学家,对 LeCun 影响很大;"智能是你不知道时怎么做"被归于他(实为后人提炼) |
| Chomsky / Seymour Papert | 1970s 末法国"语言天生 vs 习得"辩论双方相关人物;Papert(MIT)曾写书"杀死"神经网络领域,后又为其辩护 |
| DeepMind | EMA 稳定 RL 方差的思路来源,后衍生出 BYOL |
| Moravec 悖论 | 对人难的(下棋、证明定理)对机器易;对人易的(物理常识)对机器难 |
| 违反预期 (violation of expectation) | 心理学测婴儿是否习得某概念的方法,也可用于测机器是否有常识 |
| JEPA | Joint Embedding Predictive Architecture,联合嵌入预测架构;在表示空间预测,剔除不可预测信息 |
| I-JEPA / V-JEPA | JEPA 的图像版 / 视频版;V-JEPA 习得物理常识,V-JEPA 2.1 单图深度优于 DINOv3 |
| EBM | Energy-Based Model,能量基模型;LeCun 倡导约 20 年,概率模型是其特例 |
| collapse(坍缩) | 联合嵌入系统忽略输入、产出常数表示的失败模式 |
| 信息最大化技术 | VICReg、Barlow Twins(LeCun 团队)、MNCR(Berkeley)、MCR²(NYU) |
| SIGReg | Sketched Isotropic Gaussian Regularization;随机投影逼出各向同性高斯,单 GPU 可训、源码开放 |
| 蒸馏方法 | EMA 编码器 + BYOL(Bootstrap Your Own Latent);DINO 产出最强通用图像表示 |
| MAE / DINOv3 / CLIP | MAE=掩码自编码器(生成式,被 I-JEPA 超越);DINOv3 被 V-JEPA 2.1 深度任务超越;CLIP 是样本对比法 |
| MPC | Model Predictive Control,模型预测控制,源自 1960s 最优控制 |
| 10^14 字节 | LLM 训练数据量(≈20 万亿词),人读需约 40 万年;也是 4 岁儿童视觉接收的数据量 |
| 1700 篇 | Google Scholar 上提及"联合嵌入预测架构"的论文数 |
| 9 个月 | 人类婴儿掌握重力等"直觉物理"所需时间(动物更短) |