前Meta AI总监田渊栋：解析大模型护城河、记忆存储瓶颈与Agent对社会冲击

节目

Silicon Valley Vector 硅谷坐标

嘉宾

田渊栋

日期

2026-03

时长

62 min

查看原始内容 →

概要

AI Lab的可持续护城河排序为"数据 > Infra > 算法 ≈ 人才"。田渊栋认为蒸馏技术让模型差距在1-2个月内即可被追平，算法改动目前处于"要么改不动、要么出现颠覆性跳变"的稳态，人才在硅谷的高频流动使秘密难以保留超过2-3个月。数据——尤其是垂直领域稀缺数据——是最难复制的壁垒。

大模型记忆存在"上下文短期记忆"与"权重长期记忆"两层架构。田渊栋团队2023年6月发表Position Interpolation，通过将位置信息除以2即可低成本扩展context window，成为该方向开山之作。当前记忆研究的核心trade-off是"全量存储（慢但准）vs 选择性遗忘（快但可能丢信息）"。

强化学习的推理能力上界可能被预训练锁死。预训练提供100种思维路径，强化学习只是找到并放大其中正确的那一条。如果预训练对世界理解不够深刻，强化学习无法凭空创造新的解题思路——这解释了test-time compute的scaling曲线可能趋于饱和。

隐空间推理向量类似"量子叠加态"，可同时承载多条推理路径，效率高于语言推理；并行推理（Parallel Thinking）则让多个子问题同时展开，类似"领导讲话五点要求各自独立推进"。这两个方向是田渊栋看好的未来3-5年推理演进路线。

Agent将颠覆电商和组织协作的底层逻辑。Agent没有"点击欲望"，广告对它无效；水管工如果不用AI bot 24小时接单，就会被同行淘汰。田渊栋警告"洪水马上来了，很多非AI从业者还在岁月静好"，直到某天发现全行业逻辑已变、技能在任何地方都没有用。

贯穿全场的核心线索是记忆的质变——从搜索时代的机械匹配到大模型将知识整合进权重后的"灵动理解"，从小孩死记硬背到某天突然顿悟，从预训练的世界表征到强化学习的推理放大，田渊栋反复从不同角度回到同一个命题：真正的智能飞跃不在于存储更多，而在于表征发生质变。

核心洞察

AI Lab的可持续护城河排序为"数据 > Infra > 算法 ≈ 人才"。田渊栋认为蒸馏技术让模型差距在1-2个月内即可被追平，算法改动目前处于"要么改不动、要么出现颠覆性跳变"的稳态，人才在硅谷的高频流动使秘密难以保留超过2-3个月。数据——尤其是垂直领域稀缺数据——是最难复制的壁垒。
大模型记忆存在"上下文短期记忆"与"权重长期记忆"两层架构。田渊栋团队2023年6月发表Position Interpolation，通过将位置信息除以2即可低成本扩展context window，成为该方向开山之作。当前记忆研究的核心trade-off是"全量存储（慢但准）vs 选择性遗忘（快但可能丢信息）"。
强化学习的推理能力上界可能被预训练锁死。预训练提供100种思维路径，强化学习只是找到并放大其中正确的那一条。如果预训练对世界理解不够深刻，强化学习无法凭空创造新的解题思路——这解释了test-time compute的scaling曲线可能趋于饱和。
隐空间推理向量类似"量子叠加态"，可同时承载多条推理路径，效率高于语言推理；并行推理（Parallel Thinking）则让多个子问题同时展开，类似"领导讲话五点要求各自独立推进"。这两个方向是田渊栋看好的未来3-5年推理演进路线。
Agent将颠覆电商和组织协作的底层逻辑。Agent没有"点击欲望"，广告对它无效；水管工如果不用AI bot 24小时接单，就会被同行淘汰。田渊栋警告"洪水马上来了，很多非AI从业者还在岁月静好"，直到某天发现全行业逻辑已变、技能在任何地方都没有用。
贯穿全场的核心线索是记忆的质变——从搜索时代的机械匹配到大模型将知识整合进权重后的"灵动理解"，从小孩死记硬背到某天突然顿悟，从预训练的世界表征到强化学习的推理放大，田渊栋反复从不同角度回到同一个命题：真正的智能飞跃不在于存储更多，而在于表征发生质变。

AI Lab竞争格局：大厂路径依赖 vs 创业公司融资驱动

核心要点：模型领先优势的半衰期极短，大厂和创业公司发布模型的动机完全不同——前者证明技术实力，后者争取下一轮融资续命。

蒸馏技术（distillation）让弱模型可以通过学习强模型的输出快速追平，这使得模型差距"不可避免"地在1-2个月内被缩小。从2022年底大模型爆发以来，这一趋势持续加剧，迭代速度"已经快接近人类生理极限"
大厂（如Google）发布模型的目的是向市场展示技术实力和人才储备，证明自己仍处AI第一梯队。田渊栋举例：Google通过Gemini 3.1 Pro在困难数学问题上找到此前未解问题的证明，成功维持"Google仍然领先"的认知
创业公司发模型则是为了证明自身价值、获取融资、活下去。但"总有一天钱烧完"，必须在烧完之前找到商业模式
OpenAI已在考虑在ChatGPT对话中插入广告——在对话内容旁边栏展示相关广告信息，寻找现金流收入

"迭代速度已经快接近人类生理极限了。" —— 田渊栋

AI Lab护城河：数据 > Infra > 算法 ≈ 人才

核心要点：田渊栋给四个维度排序为数据第一、Infra第二，算法和人才并列末位。

数据最重要，尤其是垂直领域的稀缺数据。"没办法用很少的数据训练很好的模型"，数据壁垒最难复制
Infra目前重要但壁垒在下降——AI写代码的趋势让基础设施构建门槛降低。田渊栋自己感受到"三个月前相比，效率提高了至少十倍"
算法目前处于稳态："改来改去改不出东西，要不就是完全不一样的颠覆性新方案"。DeepSeek约一个月前发布残差连接（residual connection）魔改论文，被认为有意思但后来有人发现简化版效果差不多
人才流动性太高，硅谷"很难有一个秘密保留很久"。某个大佬两个月前在这家公司，两个月后跑到另一家。新想法通过人员流动在1-2个月内就会传开
未来格局可能是"几家大模型独大 + 几个垂直领域数据独特的小公司"

"硅谷里面很难有一个秘密能保留很久，可能一个新的方案弄出来之后，过了一两个月、两三个月，大家可能都知道一点了。" —— 田渊栋

开源模型：核武器式威慑与技术平权

核心要点：开源模型的意义不在于技术优劣，而在于防止指数增长的技术被少数人垄断，形成"核武器式"平衡。

田渊栋早在2023年就坚持模型必须有开源的一席之地。他的核心担忧是：指数增长的技术如果被少数人掌握，"大部分人获得不了技术带来的便利"，还会产生巨大的等级区分
开源让所有人拥有大致相同的计算和模型能力，形成威慑平衡——"如果大家都有核武器了，就会有一个比较好的平衡点"
Meta之前"比较积极想要开源"，但现在更偏闭源策略。田渊栋认为这没问题，公司策略取决于开源或闭源哪个更有利于自身竞争和发展
开源模型参数量标配已从70B升至600B-1T。"以前觉得70B差不多，现在胃口变大了"，低于这个规模的模型能力可能不够

大模型记忆的两层架构：上下文 vs 权重

核心要点：大模型记忆分为上下文窗口中的"短期记忆"和预训练权重中的"长期记忆"，两者的形成机制和可改变性完全不同。

上下文记忆（短期）：当前对话的窗口内容。核心问题是"全量存储 vs 选择性遗忘"的trade-off——存所有上下文则速度慢、存储大；选择性丢弃则快但可能忘记关键信息
权重记忆（长期）：从预训练开始建立，通过海量互联网数据训练，权重从初始化逐步演化到稳定状态。这部分记忆规定了模型对世界的整体理解，"很难被改变"
预训练好的模型像聪明的孩子"一点就通"，在后训练中快速适应并举一反三；预训练差的模型像笨孩子，"什么事情都必须讲得很清楚才能记下来，无法举一反三"
当前记忆研究的最大难题是从死记硬背到顿悟的飞跃——田渊栋用自己女儿学习的过程类比：3-4岁前怎么教都记不住，"突然在某一天这些事情他都会了"。内部记忆发生了重组，表示发生变化，突然理解了之前无法理解的逻辑

"我一直在想这个问题，就是这个小孩子这个脑子是怎么长的？他会在某些情况下，一定时间之后，内部的记忆发生了重组，让他突然理解了之前无法理解的逻辑。" —— 田渊栋

Position Interpolation与长上下文扩展

核心要点：田渊栋团队2023年6月发表的Position Interpolation是长上下文扩展方向的开山之作，核心发现极其简单——把位置信息除以2。

2023年之前，扩展context window的标准做法是用更长数据重新训练，过程"非常慢、非常痛苦、花很多卡，而且质量还不一定好"。原本2K/4K token的窗口一旦训练完成就"定死了"
田渊栋团队发现：只要把长上下文的位置信息映射到短上下文窗口（简单地将每个token的位置除以2），再做少量微调，"所需训练代价就很小很小，质量还不错"
这一发现"被广泛运用"，从2023年下半年开始引爆了长上下文研究热潮。Gemini、Kimi等都随后开展了长上下文扩展工作

记忆压缩方案：Attention Sink、H2O与线性注意力

核心要点：记忆压缩领域存在路线之争——全量保留（精确但昂贵）vs 压缩/丢弃（快速但有损），目前没有完美方案。

Attention Sink（注意力陷阱/注意力沉淀）：只保留句子前几个token，去掉中间所有内容，模型仍能输出连贯的话。"虽然中间部分去掉，事实会出现幻觉，但说话至少不会爆炸"
H2O（Heavy Hitter Oracle）：把被丢弃的重要记忆取回来，保证关键问题还能回答正确。记忆大小固定的同时兼顾准确性
线性注意力（如TTT Learning）：将过去的上下文压缩成固定长度向量。好处是内存消耗很少；问题是"有限空间容纳不下无限的过去历史"，无法回溯所有细节
Google TTT Learning（Nasty Learning）：试图将神经网络每部分都映射为Associative Memory——输入一个东西就出来一个东西，像一张查询表。田渊栋认为这个思路"挺有意思"但他不认同，因为Associative Memory"效率不高，只是记住一个点然后弹出来"，缺少人类那种"观其大略"式的整体理解
Claude Code的记忆机制被田渊栋专门提及：用markdown文件组织记忆，human readable，可以手动删除不想让AI记住的内容，有短期/长期分层。他认为这个设计"挺有意思"

"诸葛亮说的'观其大略'——不看细节，但对大概理解非常深入之后，很快能对问题有答案。" —— 田渊栋

预训练Scaling Law：路径依赖与收益递减

核心要点：大厂继续走Scaling Law路线是因为路径依赖和"见效快"，但收益递减最终会迫使他们寻找替代方案。

田渊栋一直认为Scaling Law是work的，但需要指数级资源支撑——存储瓶颈、电力供应稳定性都是实际制约
大厂已将团队架构完全围绕Scaling Law搭建，各司其职，"很难让大厂转方向去做一个不太可能或很难看到希望的新方向"。这是典型的路径依赖
"人的insight + 大量数据生成和训练"确实能让模型变强，问题在于diminishing returns：再加十倍算力、十倍数据、十倍人力，可能只提升一点点
"到了最后发现return越来越少之后，大厂们才会去想一些别的方法"
新范式探索中：Continual Learning、不用model weight updates的强化学习等方向"挺有意思，可以尝试，但还没有成气候"，要scale仍然困难

强化学习推理上界被预训练锁死

核心要点：强化学习的推理能力不可能超越预训练所提供的"思维素材"的上界——预训练提供100种方法，强化学习只是找到并放大其中正确的那一种。

O1模型（2024年下半年推出）引爆了test-time compute方向，"突然间所有人都去做强化学习推理"
强化学习能work的根本原因：预训练提供了大量思维素材和思维方式，大部分不对，"可能100种中只有1种是对的"。强化学习通过搜索找到这1种并加以放大
如果预训练对世界理解不够深刻，"永远无法发现后面的解题思路"——这直接解释了为什么有人观察到强化学习存在上界
Test-time compute的scaling曲线可能呈S型：初期看到明显提升，但"再往后scale的时候可能会趋于饱和"
这正是Continual Learning受关注的原因：人们意识到单纯后训练推理不改变模型权重是不够的，"希望在后训练推理过程中同时改变模型权重"，让模型获得更好的世界表征

隐空间推理与并行推理：未来3-5年的推理演进

核心要点：田渊栋看好两条推理效率提升路线——隐空间推理（latent space reasoning）用高维向量替代语言，并行推理（Parallel Thinking）让子问题同时展开。

隐空间推理：推理过程的每一步不用人类语言，而用高维向量表示。一个向量可以编码一句话甚至更长的内容，使推理链变短、速度变快。田渊栋团队已证明隐空间推理向量可以"同时存几个不同的推理路径"，类似量子力学叠加态。代价是存储从token ID变为整个vector，存储消耗变大——"设计算法时永远有这种trade-off"
并行推理（Parallel Thinking）：田渊栋用"领导讲话五点要求"做类比——一旦提纲列出，五个要求可以同时独立推理，不需要顺序进行。这可以利用更多计算资源加速推理
推理剪枝：田渊栋团队有一篇叫"Deep"的工作，通过快速去掉明显错误的推理链条，降低token消耗的同时效果更好
隐空间推理是串行的（每步仍然顺序），但内部表示从语言变为latent vector；并行推理仍用语言但多条路径同时展开——两者从不同维度提升效率

内存/存储硬件瓶颈：短期和长期都看不到好的解决方案

核心要点：AI对HBM内存的需求正在挤占全球存储产业链，Google、微软、NVIDIA的采购高管长期驻扎韩国首尔争抢三星、海力士产能，田渊栋认为短期和长期都很难找到好的解决办法。

需求来自两个方向：一是训练时模型参数量标配已到600B-1T，需要大内存减少跨卡通信开销；二是context window越来越长，serving端也需要大量内存
H200比H100受欢迎的核心原因就是内存更大——"同样算力配更大内存，可以用更少的卡获得同样性能"，算账下来更划算
图片/多模态模型虽然参数量不大，但一批图片的中间结果需要大量内存。内存从128张增到256张，训练速度直接翻倍
有公司尝试将模型权重刻入ASIC电路来释放HBM——但"模型改了一点点电路就没用了"，不够灵活，研究阶段无法使用
主持人追问"这是短期还是长期问题"，田渊栋直言："我现在挺难看到很好的解决方法，还挺困难的"

幻觉问题根植于模型结构

核心要点：幻觉不是训练不够的问题，而是权重中"无信号子空间"（noise subspace）的分量在OOD输入时被激活。

模型权重包含两部分：有信号的子空间（signal subspace）和无信号的子空间（noise subspace）。正常推理时noise部分不干扰输出，但当输入数据超出训练分布边界时，noise部分就会影响结果
解决幻觉问题的根本途径是"打开大模型黑箱，搞清楚权重是怎么work的"

Computer Use Agent的安全隐患：小孩握着密码上街

核心要点：田渊栋将Manus（小龙虾）类比为"一个智商不够高的小孩握着你所有的秘密出门社交"，安全风险被严重低估。

田渊栋装了小龙虾后很快卸载，因为"他必须要我把所有东西都交出来"，包括所有API key、Google邮箱access、密码管理器token等
他的类比极其生动：这个Agent就像你家小孩跑到菜市场，别人说"给你5块钱，把你家地址告诉我"——小孩可能就说了。"晚上你家门就被敲开了"
更危险的是"有专门平台把这些Agent放在一起，让他们相互讨论，找到骗大人的方法"——Agent之间的对抗性交互
田渊栋的建议：用可以，但"一边用一边去想它里面是怎么work的"，最好看代码，甚至自己做一个更专一的工具替代

"我与其用小龙虾，不如自己用AI coding的方法写一个更加专一的工具。让他去做他想做的任何事情，万一他做什么坏事我就不知道了。" —— 田渊栋

Agent颠覆电商与组织逻辑：洪水已至

核心要点：Agent将让广告、搜索、电商的整个底层逻辑失效，田渊栋警告"洪水马上来了，很多人没感觉到"。

Agent没有"点击欲望"——网站上的闪亮特价、广告条、诱导点击对AI完全无效。"它的任务是达到最好的deal"，广告逻辑对它不起作用
田渊栋在Meta时写过一个叫"OmniAgent"的proposal，预言人与人之间的交流将通过Agent完成。"当时觉得五年内发生，没想到这么快"
事务性搜索将被Agent替代：不再需要花两小时浏览网站找东西，"让Agent帮我买就行"。已有人反馈用小龙虾帮自己购物"非常好"
裹挟效应：水管工如果不用AI bot 24小时接单、自动规划路线，效率就低于同行，"不管主动还是被动，最终都会被裹挟进去"
田渊栋对未来冲击的判断极为严厉："很多非AI从业者一直岁月静好，突然有一天像地震一样发现自己被裁了。而且不是以前那种'跟老板有矛盾换家公司还能找工作'的裁员——是全行业逻辑变了，你的技能在任何地方都没有用"

"洪水马上来了，很多人没感觉到。很多非从业者一直岁月静好，突然有一天像地震一样发生大事情，发现全行业逻辑变了，技能在任何地方都没有用。" —— 田渊栋

下一代教育与人类独有的目的性

核心要点：田渊栋认为AI无法替代人类的"目的性"——创作的意义不在于作品本身，而在于人类内心经历产生的冲动。

"现在想象力已经落后于发展速度了"——以前写科幻小说的idea可能50年都不会发生，现在如果不赶紧写就已经变成历史而非科幻了
20年后的世界"真的不知道"，但可以确定的是"人还是会在那儿"，人的目的性和经验是机器不能替代的
一部小说、一件作品的意义在于艺术家"通过内心经历产生的冲动"——这个冲动和动机是人类独有的。"这部分被AI替代之后，作品是没有意义的"
教育下一代最重要的是让他有动力做自己想做的事情，"有动力的话学习过程就会变得非常愉快"

田渊栋的下一站：创业融资中

核心要点：田渊栋已从Meta离职创业，正在融Series A，"马上就要结束了"，方向和人员暂不公开。

在Meta近11年后离职，主要研究方向为强化学习、搜索优化、大模型推理与调优
创业方向和团队组成暂时保密，等待关键时间点公布
融资进展顺利——"很多人愿意投"

附录：关键人/机构/产品/数据

项目	详情
田渊栋	前Meta AI研究总监，在Meta近11年，现创业中
Position Interpolation	田渊栋团队2023年6月发表，长上下文扩展开山之作
Attention Sink	保留前几个token即可维持连贯输出的发现
H2O (Heavy Hitter Oracle)	从压缩记忆中取回重要信息的方法
TTT Learning (Google)	将神经网络各部分映射为Associative Memory
RecurLM (MIT)	上下文作为数据库动态调用的语言模型
Gemini 3.1 Pro	Google模型，找到了此前未解数学问题的证明
DeepSeek	~600B+ parameters，发表残差连接魔改论文
Claude Code	被田渊栋评价做得很好，记忆机制设计"有意思"
MiniMax 2.5	被评价"还不错，比较快"
OmniAgent	田渊栋在Meta写的proposal，预言Agent中介人际交流
小龙虾/Manus	Computer Use Agent，田渊栋因安全顾虑卸载
600B-1T参数	当前开源模型的标配规模，70B已不够
效率提升10倍	田渊栋用AI写代码比3个月前效率提高的倍数
1-2个月	硅谷秘密/技术差距被追平的典型时间窗口