← 返回
VIDEO INSIGHT

前Meta AI总监田渊栋:解析大模型护城河、记忆存储瓶颈与Agent对社会冲击

嘉宾
日期
2026-03
时长
62 min

概要

  • AI Lab的可持续护城河排序为"数据 > Infra > 算法 ≈ 人才"。田渊栋认为蒸馏技术让模型差距在1-2个月内即可被追平,算法改动目前处于"要么改不动、要么出现颠覆性跳变"的稳态,人才在硅谷的高频流动使秘密难以保留超过2-3个月。数据——尤其是垂直领域稀缺数据——是最难复制的壁垒。
  • 大模型记忆存在"上下文短期记忆"与"权重长期记忆"两层架构。田渊栋团队2023年6月发表Position Interpolation,通过将位置信息除以2即可低成本扩展context window,成为该方向开山之作。当前记忆研究的核心trade-off是"全量存储(慢但准)vs 选择性遗忘(快但可能丢信息)"。
  • 强化学习的推理能力上界可能被预训练锁死。预训练提供100种思维路径,强化学习只是找到并放大其中正确的那一条。如果预训练对世界理解不够深刻,强化学习无法凭空创造新的解题思路——这解释了test-time compute的scaling曲线可能趋于饱和。
  • 隐空间推理向量类似"量子叠加态",可同时承载多条推理路径,效率高于语言推理;并行推理(Parallel Thinking)则让多个子问题同时展开,类似"领导讲话五点要求各自独立推进"。这两个方向是田渊栋看好的未来3-5年推理演进路线。
  • Agent将颠覆电商和组织协作的底层逻辑。Agent没有"点击欲望",广告对它无效;水管工如果不用AI bot 24小时接单,就会被同行淘汰。田渊栋警告"洪水马上来了,很多非AI从业者还在岁月静好",直到某天发现全行业逻辑已变、技能在任何地方都没有用。
  • 贯穿全场的核心线索是记忆的质变——从搜索时代的机械匹配到大模型将知识整合进权重后的"灵动理解",从小孩死记硬背到某天突然顿悟,从预训练的世界表征到强化学习的推理放大,田渊栋反复从不同角度回到同一个命题:真正的智能飞跃不在于存储更多,而在于表征发生质变
01

核心洞察

  • AI Lab的可持续护城河排序为"数据 > Infra > 算法 ≈ 人才"。田渊栋认为蒸馏技术让模型差距在1-2个月内即可被追平,算法改动目前处于"要么改不动、要么出现颠覆性跳变"的稳态,人才在硅谷的高频流动使秘密难以保留超过2-3个月。数据——尤其是垂直领域稀缺数据——是最难复制的壁垒。
  • 大模型记忆存在"上下文短期记忆"与"权重长期记忆"两层架构。田渊栋团队2023年6月发表Position Interpolation,通过将位置信息除以2即可低成本扩展context window,成为该方向开山之作。当前记忆研究的核心trade-off是"全量存储(慢但准)vs 选择性遗忘(快但可能丢信息)"。
  • 强化学习的推理能力上界可能被预训练锁死。预训练提供100种思维路径,强化学习只是找到并放大其中正确的那一条。如果预训练对世界理解不够深刻,强化学习无法凭空创造新的解题思路——这解释了test-time compute的scaling曲线可能趋于饱和。
  • 隐空间推理向量类似"量子叠加态",可同时承载多条推理路径,效率高于语言推理;并行推理(Parallel Thinking)则让多个子问题同时展开,类似"领导讲话五点要求各自独立推进"。这两个方向是田渊栋看好的未来3-5年推理演进路线。
  • Agent将颠覆电商和组织协作的底层逻辑。Agent没有"点击欲望",广告对它无效;水管工如果不用AI bot 24小时接单,就会被同行淘汰。田渊栋警告"洪水马上来了,很多非AI从业者还在岁月静好",直到某天发现全行业逻辑已变、技能在任何地方都没有用。
  • 贯穿全场的核心线索是记忆的质变——从搜索时代的机械匹配到大模型将知识整合进权重后的"灵动理解",从小孩死记硬背到某天突然顿悟,从预训练的世界表征到强化学习的推理放大,田渊栋反复从不同角度回到同一个命题:真正的智能飞跃不在于存储更多,而在于表征发生质变
02

AI Lab竞争格局:大厂路径依赖 vs 创业公司融资驱动

核心要点:模型领先优势的半衰期极短,大厂和创业公司发布模型的动机完全不同——前者证明技术实力,后者争取下一轮融资续命。

  • 蒸馏技术(distillation)让弱模型可以通过学习强模型的输出快速追平,这使得模型差距"不可避免"地在1-2个月内被缩小。从2022年底大模型爆发以来,这一趋势持续加剧,迭代速度"已经快接近人类生理极限"
  • 大厂(如Google)发布模型的目的是向市场展示技术实力和人才储备,证明自己仍处AI第一梯队。田渊栋举例:Google通过Gemini 3.1 Pro在困难数学问题上找到此前未解问题的证明,成功维持"Google仍然领先"的认知
  • 创业公司发模型则是为了证明自身价值、获取融资、活下去。但"总有一天钱烧完",必须在烧完之前找到商业模式
  • OpenAI已在考虑在ChatGPT对话中插入广告——在对话内容旁边栏展示相关广告信息,寻找现金流收入
"迭代速度已经快接近人类生理极限了。" —— 田渊栋
03

AI Lab护城河:数据 > Infra > 算法 ≈ 人才

核心要点:田渊栋给四个维度排序为数据第一、Infra第二,算法和人才并列末位。

  • 数据最重要,尤其是垂直领域的稀缺数据。"没办法用很少的数据训练很好的模型",数据壁垒最难复制
  • Infra目前重要但壁垒在下降——AI写代码的趋势让基础设施构建门槛降低。田渊栋自己感受到"三个月前相比,效率提高了至少十倍"
  • 算法目前处于稳态:"改来改去改不出东西,要不就是完全不一样的颠覆性新方案"。DeepSeek约一个月前发布残差连接(residual connection)魔改论文,被认为有意思但后来有人发现简化版效果差不多
  • 人才流动性太高,硅谷"很难有一个秘密保留很久"。某个大佬两个月前在这家公司,两个月后跑到另一家。新想法通过人员流动在1-2个月内就会传开
  • 未来格局可能是"几家大模型独大 + 几个垂直领域数据独特的小公司"
"硅谷里面很难有一个秘密能保留很久,可能一个新的方案弄出来之后,过了一两个月、两三个月,大家可能都知道一点了。" —— 田渊栋
04

开源模型:核武器式威慑与技术平权

核心要点:开源模型的意义不在于技术优劣,而在于防止指数增长的技术被少数人垄断,形成"核武器式"平衡。

  • 田渊栋早在2023年就坚持模型必须有开源的一席之地。他的核心担忧是:指数增长的技术如果被少数人掌握,"大部分人获得不了技术带来的便利",还会产生巨大的等级区分
  • 开源让所有人拥有大致相同的计算和模型能力,形成威慑平衡——"如果大家都有核武器了,就会有一个比较好的平衡点"
  • Meta之前"比较积极想要开源",但现在更偏闭源策略。田渊栋认为这没问题,公司策略取决于开源或闭源哪个更有利于自身竞争和发展
  • 开源模型参数量标配已从70B升至600B-1T。"以前觉得70B差不多,现在胃口变大了",低于这个规模的模型能力可能不够
05

大模型记忆的两层架构:上下文 vs 权重

核心要点:大模型记忆分为上下文窗口中的"短期记忆"和预训练权重中的"长期记忆",两者的形成机制和可改变性完全不同。

  • 上下文记忆(短期):当前对话的窗口内容。核心问题是"全量存储 vs 选择性遗忘"的trade-off——存所有上下文则速度慢、存储大;选择性丢弃则快但可能忘记关键信息
  • 权重记忆(长期):从预训练开始建立,通过海量互联网数据训练,权重从初始化逐步演化到稳定状态。这部分记忆规定了模型对世界的整体理解,"很难被改变"
  • 预训练好的模型像聪明的孩子"一点就通",在后训练中快速适应并举一反三;预训练差的模型像笨孩子,"什么事情都必须讲得很清楚才能记下来,无法举一反三"
  • 当前记忆研究的最大难题是从死记硬背到顿悟的飞跃——田渊栋用自己女儿学习的过程类比:3-4岁前怎么教都记不住,"突然在某一天这些事情他都会了"。内部记忆发生了重组,表示发生变化,突然理解了之前无法理解的逻辑
"我一直在想这个问题,就是这个小孩子这个脑子是怎么长的?他会在某些情况下,一定时间之后,内部的记忆发生了重组,让他突然理解了之前无法理解的逻辑。" —— 田渊栋
06

Position Interpolation与长上下文扩展

核心要点:田渊栋团队2023年6月发表的Position Interpolation是长上下文扩展方向的开山之作,核心发现极其简单——把位置信息除以2。

  • 2023年之前,扩展context window的标准做法是用更长数据重新训练,过程"非常慢、非常痛苦、花很多卡,而且质量还不一定好"。原本2K/4K token的窗口一旦训练完成就"定死了"
  • 田渊栋团队发现:只要把长上下文的位置信息映射到短上下文窗口(简单地将每个token的位置除以2),再做少量微调,"所需训练代价就很小很小,质量还不错"
  • 这一发现"被广泛运用",从2023年下半年开始引爆了长上下文研究热潮。Gemini、Kimi等都随后开展了长上下文扩展工作
07

记忆压缩方案:Attention Sink、H2O与线性注意力

核心要点:记忆压缩领域存在路线之争——全量保留(精确但昂贵)vs 压缩/丢弃(快速但有损),目前没有完美方案。

  • Attention Sink(注意力陷阱/注意力沉淀):只保留句子前几个token,去掉中间所有内容,模型仍能输出连贯的话。"虽然中间部分去掉,事实会出现幻觉,但说话至少不会爆炸"
  • H2O(Heavy Hitter Oracle):把被丢弃的重要记忆取回来,保证关键问题还能回答正确。记忆大小固定的同时兼顾准确性
  • 线性注意力(如TTT Learning):将过去的上下文压缩成固定长度向量。好处是内存消耗很少;问题是"有限空间容纳不下无限的过去历史",无法回溯所有细节
  • Google TTT Learning(Nasty Learning):试图将神经网络每部分都映射为Associative Memory——输入一个东西就出来一个东西,像一张查询表。田渊栋认为这个思路"挺有意思"但他不认同,因为Associative Memory"效率不高,只是记住一个点然后弹出来",缺少人类那种"观其大略"式的整体理解
  • Claude Code的记忆机制被田渊栋专门提及:用markdown文件组织记忆,human readable,可以手动删除不想让AI记住的内容,有短期/长期分层。他认为这个设计"挺有意思"
"诸葛亮说的'观其大略'——不看细节,但对大概理解非常深入之后,很快能对问题有答案。" —— 田渊栋
08

预训练Scaling Law:路径依赖与收益递减

核心要点:大厂继续走Scaling Law路线是因为路径依赖和"见效快",但收益递减最终会迫使他们寻找替代方案。

  • 田渊栋一直认为Scaling Law是work的,但需要指数级资源支撑——存储瓶颈、电力供应稳定性都是实际制约
  • 大厂已将团队架构完全围绕Scaling Law搭建,各司其职,"很难让大厂转方向去做一个不太可能或很难看到希望的新方向"。这是典型的路径依赖
  • "人的insight + 大量数据生成和训练"确实能让模型变强,问题在于diminishing returns:再加十倍算力、十倍数据、十倍人力,可能只提升一点点
  • "到了最后发现return越来越少之后,大厂们才会去想一些别的方法"
  • 新范式探索中:Continual Learning、不用model weight updates的强化学习等方向"挺有意思,可以尝试,但还没有成气候",要scale仍然困难
09

强化学习推理上界被预训练锁死

核心要点:强化学习的推理能力不可能超越预训练所提供的"思维素材"的上界——预训练提供100种方法,强化学习只是找到并放大其中正确的那一种。

  • O1模型(2024年下半年推出)引爆了test-time compute方向,"突然间所有人都去做强化学习推理"
  • 强化学习能work的根本原因:预训练提供了大量思维素材和思维方式,大部分不对,"可能100种中只有1种是对的"。强化学习通过搜索找到这1种并加以放大
  • 如果预训练对世界理解不够深刻,"永远无法发现后面的解题思路"——这直接解释了为什么有人观察到强化学习存在上界
  • Test-time compute的scaling曲线可能呈S型:初期看到明显提升,但"再往后scale的时候可能会趋于饱和"
  • 这正是Continual Learning受关注的原因:人们意识到单纯后训练推理不改变模型权重是不够的,"希望在后训练推理过程中同时改变模型权重",让模型获得更好的世界表征
10

隐空间推理与并行推理:未来3-5年的推理演进

核心要点:田渊栋看好两条推理效率提升路线——隐空间推理(latent space reasoning)用高维向量替代语言,并行推理(Parallel Thinking)让子问题同时展开。

  • 隐空间推理:推理过程的每一步不用人类语言,而用高维向量表示。一个向量可以编码一句话甚至更长的内容,使推理链变短、速度变快。田渊栋团队已证明隐空间推理向量可以"同时存几个不同的推理路径",类似量子力学叠加态。代价是存储从token ID变为整个vector,存储消耗变大——"设计算法时永远有这种trade-off"
  • 并行推理(Parallel Thinking):田渊栋用"领导讲话五点要求"做类比——一旦提纲列出,五个要求可以同时独立推理,不需要顺序进行。这可以利用更多计算资源加速推理
  • 推理剪枝:田渊栋团队有一篇叫"Deep"的工作,通过快速去掉明显错误的推理链条,降低token消耗的同时效果更好
  • 隐空间推理是串行的(每步仍然顺序),但内部表示从语言变为latent vector;并行推理仍用语言但多条路径同时展开——两者从不同维度提升效率
11

内存/存储硬件瓶颈:短期和长期都看不到好的解决方案

核心要点:AI对HBM内存的需求正在挤占全球存储产业链,Google、微软、NVIDIA的采购高管长期驻扎韩国首尔争抢三星、海力士产能,田渊栋认为短期和长期都很难找到好的解决办法。

  • 需求来自两个方向:一是训练时模型参数量标配已到600B-1T,需要大内存减少跨卡通信开销;二是context window越来越长,serving端也需要大量内存
  • H200比H100受欢迎的核心原因就是内存更大——"同样算力配更大内存,可以用更少的卡获得同样性能",算账下来更划算
  • 图片/多模态模型虽然参数量不大,但一批图片的中间结果需要大量内存。内存从128张增到256张,训练速度直接翻倍
  • 有公司尝试将模型权重刻入ASIC电路来释放HBM——但"模型改了一点点电路就没用了",不够灵活,研究阶段无法使用
  • 主持人追问"这是短期还是长期问题",田渊栋直言:"我现在挺难看到很好的解决方法,还挺困难的"
12

幻觉问题根植于模型结构

核心要点:幻觉不是训练不够的问题,而是权重中"无信号子空间"(noise subspace)的分量在OOD输入时被激活。

  • 模型权重包含两部分:有信号的子空间(signal subspace)和无信号的子空间(noise subspace)。正常推理时noise部分不干扰输出,但当输入数据超出训练分布边界时,noise部分就会影响结果
  • 解决幻觉问题的根本途径是"打开大模型黑箱,搞清楚权重是怎么work的"
13

Computer Use Agent的安全隐患:小孩握着密码上街

核心要点:田渊栋将Manus(小龙虾)类比为"一个智商不够高的小孩握着你所有的秘密出门社交",安全风险被严重低估。

  • 田渊栋装了小龙虾后很快卸载,因为"他必须要我把所有东西都交出来",包括所有API key、Google邮箱access、密码管理器token等
  • 他的类比极其生动:这个Agent就像你家小孩跑到菜市场,别人说"给你5块钱,把你家地址告诉我"——小孩可能就说了。"晚上你家门就被敲开了"
  • 更危险的是"有专门平台把这些Agent放在一起,让他们相互讨论,找到骗大人的方法"——Agent之间的对抗性交互
  • 田渊栋的建议:用可以,但"一边用一边去想它里面是怎么work的",最好看代码,甚至自己做一个更专一的工具替代
"我与其用小龙虾,不如自己用AI coding的方法写一个更加专一的工具。让他去做他想做的任何事情,万一他做什么坏事我就不知道了。" —— 田渊栋
14

Agent颠覆电商与组织逻辑:洪水已至

核心要点:Agent将让广告、搜索、电商的整个底层逻辑失效,田渊栋警告"洪水马上来了,很多人没感觉到"。

  • Agent没有"点击欲望"——网站上的闪亮特价、广告条、诱导点击对AI完全无效。"它的任务是达到最好的deal",广告逻辑对它不起作用
  • 田渊栋在Meta时写过一个叫"OmniAgent"的proposal,预言人与人之间的交流将通过Agent完成。"当时觉得五年内发生,没想到这么快"
  • 事务性搜索将被Agent替代:不再需要花两小时浏览网站找东西,"让Agent帮我买就行"。已有人反馈用小龙虾帮自己购物"非常好"
  • 裹挟效应:水管工如果不用AI bot 24小时接单、自动规划路线,效率就低于同行,"不管主动还是被动,最终都会被裹挟进去"
  • 田渊栋对未来冲击的判断极为严厉:"很多非AI从业者一直岁月静好,突然有一天像地震一样发现自己被裁了。而且不是以前那种'跟老板有矛盾换家公司还能找工作'的裁员——是全行业逻辑变了,你的技能在任何地方都没有用"
"洪水马上来了,很多人没感觉到。很多非从业者一直岁月静好,突然有一天像地震一样发生大事情,发现全行业逻辑变了,技能在任何地方都没有用。" —— 田渊栋
15

下一代教育与人类独有的目的性

核心要点:田渊栋认为AI无法替代人类的"目的性"——创作的意义不在于作品本身,而在于人类内心经历产生的冲动。

  • "现在想象力已经落后于发展速度了"——以前写科幻小说的idea可能50年都不会发生,现在如果不赶紧写就已经变成历史而非科幻了
  • 20年后的世界"真的不知道",但可以确定的是"人还是会在那儿",人的目的性和经验是机器不能替代的
  • 一部小说、一件作品的意义在于艺术家"通过内心经历产生的冲动"——这个冲动和动机是人类独有的。"这部分被AI替代之后,作品是没有意义的"
  • 教育下一代最重要的是让他有动力做自己想做的事情,"有动力的话学习过程就会变得非常愉快"
16

田渊栋的下一站:创业融资中

核心要点:田渊栋已从Meta离职创业,正在融Series A,"马上就要结束了",方向和人员暂不公开。

  • 在Meta近11年后离职,主要研究方向为强化学习、搜索优化、大模型推理与调优
  • 创业方向和团队组成暂时保密,等待关键时间点公布
  • 融资进展顺利——"很多人愿意投"
17

附录:关键人/机构/产品/数据

项目详情
田渊栋前Meta AI研究总监,在Meta近11年,现创业中
Position Interpolation田渊栋团队2023年6月发表,长上下文扩展开山之作
Attention Sink保留前几个token即可维持连贯输出的发现
H2O (Heavy Hitter Oracle)从压缩记忆中取回重要信息的方法
TTT Learning (Google)将神经网络各部分映射为Associative Memory
RecurLM (MIT)上下文作为数据库动态调用的语言模型
Gemini 3.1 ProGoogle模型,找到了此前未解数学问题的证明
DeepSeek~600B+ parameters,发表残差连接魔改论文
Claude Code被田渊栋评价做得很好,记忆机制设计"有意思"
MiniMax 2.5被评价"还不错,比较快"
OmniAgent田渊栋在Meta写的proposal,预言Agent中介人际交流
小龙虾/ManusComputer Use Agent,田渊栋因安全顾虑卸载
600B-1T参数当前开源模型的标配规模,70B已不够
效率提升10倍田渊栋用AI写代码比3个月前效率提高的倍数
1-2个月硅谷秘密/技术差距被追平的典型时间窗口