Memory and Continual Learning: Engram's Dan Biderman and Jessy Lin

节目

Sequoia Capital

嘉宾

Dan Biderman、Jessy Lin

日期

2026-06

时长

45 min

查看原始内容 →

概要

Engram 是一家专注"记忆与持续学习"的 neolab，反对当前主流的两条路线——把越来越大的 prompt 塞进上下文窗口、或外挂 RAG。它的逆向前提（contrarian premise）是：用前沿实验室训练模型的同一套 pipeline（SFT、RL、on-policy distillation），把一支团队的知识直接烤进模型权重，让模型像"在你公司干了几年的老员工"一样懂你。
核心收益是 token 经济性：很多关于人、团队、优先级的知识散落在多处、无法靠读文件查到；模型可以隐式学会，用 100 个 token 回答前沿模型要烧 10 万 token 才能完成的事——可达 100x 的推理 token 削减，同时匹配甚至超过前沿模型。合作伙伴包括 Microsoft、Notion、Harvey。
技术上是 per-team 模型 + adapter 微调（LoRA、prefix、sparse 等几十年来的工具），需要白盒权重访问（white box access），开源 transformer 模型最易做，也能和持有闭源权重的公司合作。
两位创始人都来自学术界：Dan Biderman 是神经科学/统计学背景（Stanford 2007 起，曾在 Mosaic 做 NLP），Jessy Lin 来自计算认知科学。他们把"内化 vs 外部化"类比人脑记忆（lossy、压缩重要信息），并用"做梦"类比模型离线实验自己的能力边界。
为什么不是前沿实验室来做：前沿实验室的 P0 是 AGI（一个越来越大、越来越通用的模型）；而 Engram 的世界观是"人人都有自己的模型"——很多要学的东西是私有的、甚至互相冲突的，训不进通用 pipeline。Demis Hassabis 一个月前也在 Sequoia 活动上说，记忆和持续学习需要新突破。
贯穿全场的主线："我们的模型一直在训练"（our models are always training）——从拒绝预训练/后训练二分，到 100x token 削减，到"rag killer"，到 KV cache 压缩 1000x 的愿景，再到"人人有专属模型"，每一个判断都在回应同一个信念：当下模型的瓶颈不是原始智能，而是把新的、私有的、不断演化的上下文深深烤进权重的能力。

"我们的模型一直在训练"：拒绝预训练/后训练的二分

核心要点：当下模型的瓶颈不是原始智能（raw intelligence），而是理解"新的、不断演化的上下文"——记忆与持续学习是同一枚硬币的两面。

Engram 官网原话："我们不通过预训练或后训练的视角看世界，我们的模型一直在训练。" Jessy Lin 解释：模型今天已经很聪明、知道很多事，但让它们更有用的瓶颈不是智能，而是理解新任务、新语境。
问题被定义为：怎么把新语境"像预训练/后训练那样深深烤进权重"——这正是"记忆"和"持续学习"作为"一枚硬币两面（two sides of the same coin）"的含义。
Dan 用个人类比：人记笔记、贴便利贴很有价值，永远不该丢弃；但第二天回到工作时，我们脑子里总有某种"记忆的痕迹"，对事情该怎么做、该往哪看有了新直觉。这两者应该结合，而当前方案过于偏向"外部化记忆（externalized memory）"。

"我们认为让这些模型更有用的瓶颈，这些天来其实不是原始智能，而是理解新的、不断演化的语境。" —— Jessy Lin

外部化记忆的两个问题：token 爆炸 + 模型难消化

核心要点：靠"上下文工程"把巨大 prompt 反复喂给模型，既贵又让模型困惑——这条路在没有重大突破前走不远。

当前主流做法是"上下文工程（context engineering）"：拿一个巨大的 prompt、跟模型聊很多轮很多小时、不断重组上下文。Jessy 承认 tool use、context engineering 都会是拼图的一部分，但有一个被低估的工具：把前沿实验室让模型擅长前沿数学/代码的同一套训练 pipeline，用到公司里每一种领域、每一种语境上。
Dan 给出量级判断：我们每个人每天产生的 token 很快会到数千万（tens of millions）量级——主持人插话调侃 Sean 是"数十亿"，引发全场笑。仅仅是保存、搜索、重读这些 token 就会很贵；对模型也很难、很容易混乱，除非记忆机制有重大突破。

"我们每个人每天集体产生的 token 量很快会达到每天数千万的量级——光是保存它、搜索它、重读它，就会相当昂贵。" —— Dan Biderman

Engram 架构：per-team 模型 + adapter 微调，把语境烤进权重

核心要点：在 Notion、Microsoft、Harvey 这类工作空间里训练"每团队一个模型"，让它像工作多年的员工一样深懂公司语境，并随时间在人们在意的事上持续变好。

输入是各种工作空间里的语境：团队已写的文档、以及人们越来越多地与 agent 交互、对话、给反馈所产生的内容。目标不是"测试时读读文件（reading the files at test time）"，而是像在你公司干了多年的员工那样深懂语境——知道公司有哪些 initiative、"我们这儿是怎么做事的"、招聘 pipeline 怎么跑。
技术层面：训练 per-team 模型，做大量 adapter 微调——adapter 有很多类型，"人们研究了几十年"，无论是 LoRA、prefix 还是 sparse architectures，都是手头可用的工具。
数据层面的难题是"把任何原始文档或交互变成对模型有用的训练信号"，工具箱包括 supervised fine-tuning、RL、on-policy distillation，把这些拼成一个"在人们在意的事上持续学习"的模型。
Dan 补充关键判断：这不是赌"工具不存在"——他们的模型始终假设部分知识是外部化的、工具始终在。真正难的任务是判断"什么需要内化、什么可以外部化"；而且即便是外部化的部分，每个公司都有自己 bespoke 的工具和做法（不是人人都用前沿模型训练时见过的那套 bash CLI 工具）。

"不只是在测试时读这些文件，而是真正像一个在你公司工作了多年的员工那样理解它。" —— Jessy Lin

经济性：100 个 token 干 10 万 token 的活

核心要点：不必反复检索、重读、写巨型 system prompt，可带来两个数量级的推理 token 削减——不是省 50%，而是 100x。

削减来自三处：不必反复 research、不必反复重读、不必写"巨型 system prompt（monstrous system prompts）"。
关键洞见在"涉及人、团队、组织、优先级"的知识——这些东西"在单一文档里根本找不到，除非你极度规整地把一切都记录下来"。模型可以靠在数据上训练隐式学会，用 100 个 token 回答前沿模型要烧 10 万个 token 才能完成的问题。
另一重价值是"能力缺口窗口"：在数学、编程、cyber 这类高风险领域，模型总会领先；但对那些 bespoke、人们刚开始探索的任务，模型常落后 3 到 6 个月——能在这段时间里以极轻量的方式自主学习，就能在模型"还没完全擅长"时提供能力价值。

"它可以是 100 倍更少的 token，因为很多东西——尤其是和人、团队、组织、优先级相关的——你在一份文档里根本找不到。" —— Dan Biderman

需要白盒权重：开源模型最易，闭源可合作

核心要点：方法对任何 transformer 模型都成立，但需要白盒权重访问；开源最易，闭源权重的公司可以合作来做。

主持人追问：合作方都在用、也会继续用所有前沿模型，这套方法在前沿/闭源模型上行得通吗？Dan 答："我们需要白盒权重访问（white box access to the weights）"——可以和持有闭源权重的公司合作来做，但对开源模型最容易；任何 transformer 模型，他们都能"对它做这件事"。
主持人把前提具象化："所以我的 Notion agent 会是一个被 LoRA 微调过、用 adapter 调过的定制 agent，随着我往 Notion 工作空间里加新内容而不断学习？"——得到肯定。
为什么先做工作空间级而非个人级？Dan：两者对他们都行，只是团队"在如何收集语境、以及多年积累的语境量上更有纪律"，从这里起步更容易；但每个人的电脑和手机终有一天都是有价值的目标。"大的信息富矿现在在协作做知识工作的团队里。"

事实记忆是 feature 还是 bug：智能的本质是压缩"什么重要"

核心要点：事实学习和技能学习无法干净分离——把事实从模型里抽走，模型会变得"很不自然、连基本东西都不知道"；真正缺的环节是判断"什么重要、值得记"。

主持人抛出一派观点：模型死记"法国首都是巴黎"是坏事，更希望模型抽象地学会"国家和首都"的概念，而不是把所有事实背进权重。
Jessy 反驳这是"虚假二分"：某种程度上你必须记住东西，才能把它们组合成更复杂的概念。真正缺的是"判断什么重要值得记"。她举例：很多学术 benchmark 在考"某非洲国家一座桥的长度"——这种事实你既不想让模型耗费容量去记，人类也不会去记。
人脑记忆是 lossy（有损） 的，因为智能的一部分恰恰是"压缩重要的、把它和不重要的分开"。有人做过实验：把模型里的事实全"剥掉"、只留纯核心，结果模型变得很不自然、连基本东西都不知道。
主持人追问"为什么不能只查事实"。Jessy：如果你需要先回忆基本事实才能迈出思考的下一步，"你走不了多远"——这正是他们认为训练（而非纯检索）很重要的原因：要把东西内化，才能组合成更抽象的概念、想更深的思考。

"智能的一部分特征，就是压缩什么是重要的、并把它和不重要的东西分开。" —— Jessy Lin

算法 vs 数据库：深度学习把两者揉在一起，如今又在经济中渐渐分开

核心要点：传统 CS 把"数据库（事实）"和"算法（操作信息）"分两套课程；深度学习的魔力是把两者糅合，而 AI 进入经济的过程正让它们再次分离——但 Engram 认为必须周期性地让两者重新收敛。

Dan 的框架：传统 CS 里，数据库是"关于世界的事实"（存储、查询），算法是"如何高效操作信息、样本高效地得到答案"，是两套独立的 curriculum。深度学习的魔力是把这两者"糊在一起（mushed together）"，以至于需要 Anthropic 的 interpretability 这样的"一群聪明人"去把它们重新拆开。
现在 AI 进入经济，这两者又在逐渐分离：公司有自己的语境、小心翼翼地处理和工程化，而通用模型对这些语境完全是个"陌生人（stranger）"，在它们之上运算。
但 Dan 认为必须有"某种收敛（convergence）"、至少以某种周期，让事实、故事、细节被混进模型——这也有劣势：国家首都不常变，但很多事实一直在变，把它们烙进权重是有挑战的事。
主持人总结："所以你是说，试图把算法和数据库分开是个虚假二分；真正重要的是如何区分什么重要值得记、什么不重要。" Dan/Jessy 确认。

"深度学习的魔力，是这两样东西现在被糅在了一起——我们需要 Anthropic 可解释性团队这样的聪明人，去试着把它们掰开。" —— Dan Biderman

"做梦"类比：让模型从交互中抽离，离线实验自己的能力边界

核心要点：缺失的那个阶段是"拿一段语境、深度内化它"；Dan 用"做梦"类比模型离线实验自己的 affordances。

Jessy 受人脑"内化阶段"的启发（很松散地）：现在一切都发生在测试时——看用户给的语境、即兴思考一下，但走不远，还会犯错。缺的是"怎么把这些消化回模型，让下次做得对、走得更远"。
Dan 顺势谈"做梦"：说"我们想造一个像我们梦境的 AI"听起来有点疯（梦里没什么连贯性），但有意思的是：梦里我们看东西、自言自语、实验"在世界和社交情境中我们能做什么、不能做什么"，而且"高度偏向社交"。对应到他们造的东西：给模型时间从真实交互中"撤退（retreat）"，去实验自己的能力边界——它能做什么、知道什么、能多快处理那些"我们夜里也会梦到的长尾极端情况"。

"梦是相当疯狂的东西……我们看到东西、跟自己说话、实验我们在世界里、在社交情境里能做什么不能做什么。" —— Dan Biderman

为什么不是前沿实验室：世界观之差——"人人都有自己的模型"

核心要点：前沿实验室的 P0 是 AGI（一个越来越大的通用模型）；Engram 的世界观是人人有专属模型，因为很多要学的东西是私有的、甚至互相冲突的，训不进通用 pipeline。

Jessy 的世界观差异：前沿实验室要"一个越来越大、跨领域越来越聪明的模型"；Engram 想象的是"人人都有自己的模型"。人们想学的很多东西要么是私有的（永远不会进后训练数据集），要么是冲突的（我做任务的方式和另一家公司/另一个人不同）。
这些东西很难用机器学习几十年来的老工具训进去——那套工具要"干净的监督、ground truth 奖励信号、漂亮的环境"，而现实世界里很多事很模糊、很难说清"什么算好"。
Dan 补充前沿实验室的 P0（priority zero）：抵达 AGI，一个在编程数学上极强的通用模型，再用它自动化经济、解决密码学和国防的硬问题。推进路径很清楚——更多预训练、更大模型、更多数据、更多 RL、更多推理时计算。记忆和持续学习他们都在想，但现在更多是"产品层面的努力"，而 Engram 认为这值得专门的关注、需要发生突破。
Dan 引用：Demis Hassabis 约一个月前在 Sequoia 活动上"相当明确地说，我们需要围绕这些主题的新突破"。
Jessy 补充三件事要变：(1) 新研究突破；(2) 新基础设施——"给每个人训练小模型"而非"一个大模型一次大 run"；(3) research 和 product 要深度耦合——因为"模型一直在训练"时，用户提供的输入和模型学什么、训练信号是什么紧密相连，不能再是研究团队训完"扔过墙"给产品团队。

"在这个模型一直在训练的世界里，用户提供的输入和模型学到的东西、和训练信号，是非常紧密交织在一起的。" —— Jessy Lin

学术动机与 Dan 的神经科学路：从"自然愚蠢"到模糊记忆

核心要点：这是 AI 的大挑战之一——"在边缘处学习（learning at the edges）"；Dan 从研究意识、人如何感知，走到发现记忆与持续学习的紧迫性。

Jessy 谈动机：模型这么聪明了，"还剩什么？"——剩下的是"在边缘处学习"、学那些让模型有用的"余量（remainders）"。它也很根本，因为要回答"预训练/后训练里到底是什么让模型能以这种魔法般的涌现方式泛化"——互联网像一份"被赐予的礼物"，恰好包含了编码、写作等多样数据。要破解持续学习，就是搞清这套泛化机制并控制它，让模型学私有数据"学得和它知道法国首都、知道怎么写 Python 一样好"。
Dan 的神经科学背景：最初对意识、人类境况感兴趣。被问"模型有意识吗"，他答"我没有比你读到的更高级的想法，我觉得没有，但重要的是有聪明人在想这件事"。
他引以色列心理学家 Amos Tversky 的名言："他不对人工智能感兴趣，他对天然愚蠢（natural stupidity）感兴趣"。Dan 从研究人和动物如何体验世界，逐渐转向统计和 AI，发现记忆与持续学习的同类问题"非常非常紧迫"，而现有系统离生物学还很远。
他不主张机器要像人脑（计算机很多事做得比人好），但人脑记忆很不同：存整个代码库用电脑就能无损搞定、根本不需要 AI；而人脑在信息容量约束下进化，形成"模糊表征（fuzzy representations）"，能被抽象、形成连接、影响第二天——当前系统除了通用预训练步之外并没有这个。

"他对人工智能不感兴趣，他对天然愚蠢感兴趣。" —— Dan Biderman 引 Amos Tversky

记忆是涌现属性吗：bitter lesson、状态空间架构与"没有免费午餐"

核心要点：处理超长上下文的各种架构（如 state space）能做到 sub-quadratic，但在他们手里"总是用精度换内存"——没有免费午餐；真正 bitter-lesson 的做法是把更多算力烧在"没见过的新语境"上。

主持人的哲学问题：照 bitter lesson 看，记忆会是 LLM 内部"涌现"出来的协处理器（co-processor）吗，还是需要另一个独立架构？是不是只要更好的训练数据 + 更多算力，智能里需要的一切都会涌现？
Dan 先从部署层面回答：当前 AI 远不止 GPU——到处是爆发式增长的 sandbox、模型在别的电脑上操作、试各种东西。被追问"我说的是模型架构层面"后，他谈到：之前有很多不同架构的实验（他们也贡献过），如 state space 家族，用来更高效处理超长上下文。
但所有这些方法最终都是 trade-off，通常是内存与精度的权衡（这里的"内存"是计算机意义，不是认知意义）——相比 transformer attention 在序列长度上"二次方（quadratic）"的内存占用，这些模型号称 sub-quadratic。
"有些声称、有些确实做到了 sub-quadratic"，一些最好的中国模型有受 state space 启发、成本非二次方的层。但"在我们手里，你总是为这点内存牺牲精度，没有免费午餐"。
Dan 的立场：如果你真的 bitter-lesson-pilled，你该想的是"怎么烧更多算力、并把它烧在我没见过的新语境上"。他们和任何人一样 bitter-lesson-pilled，也不赌 AGI 方向会很快到头——只是认为还有更多算力可扩展。其间穿插玩笑："要真懂 Sean 的语境，光重读文件不行，得训练……为这家伙训个 100 万亿参数"，全场笑。

"在我们手里，你总是用精度去换这点内存——没有免费午餐。" —— Dan Biderman

人们最关心模型学什么：品牌风格、工作流、triage——facts 和 skills 方法上无区别

核心要点：app 层的人大量时间花在"让模型为我的用例工作好"——学品牌风格、学跑某个工作流、学我的写作方式；而在 Engram 的方法里，facts 和 skills 没有本质区别。

Jessy：看 app 层的人在花时间做什么，大量是"让模型为你的用例工作好"——比如"用我的品牌风格设计网站"是当下很常见的例子，此外还有学跑工作流、学你特定的写作方式。"当我们想这些方法时，facts 和 skills 的区分其实根本不存在，方法对这个区分是不可知的（agnostic）。"
Dan：几乎所有 app 层本质都是"一个前沿模型包在一个带搜索工具的循环里"，他们都想"以更快、更高效、更有语境的方式跟自己的数据交互"——"我们想把公司知识编码进某种更高效、我不必去 research 的东西里"；想让模型有针对性地知道"该把某件事 triage 给谁"。而他们正在证明：用相当轻量的训练，这些就能变成模型的"本能（instinctual）"，不必跑那些很费劲的长循环。

"从某种意义上，它是一种 rag killer。我们当然永远可以做 rag、可以检索，但人们感兴趣的是用这种方式去跟非常大的数据平面交互、自动化非常重复的事。" —— Dan Biderman

"rag killer"：联想只能发生在权重里；检索的真问题是"该查什么"

核心要点：内化 vs 检索之争尚无答案，但权重里能做"联想"——检索系统永远不知道你没问到的东西；检索真正的难点不是存哪里，而是"知道该查什么"。

主持人"对着死马再抽一鞭"追问 rag killer 到底是什么 trade-off。Jessy 坦言这是"未解之题，没人答出来过，我们都在做"——也是生物记忆的根本问题：什么该内化、什么不该。她举例：一年前住的酒店房间号需要内化到"神经组织"里吗？大概不用，记下来就好；但你家密码？接下来几年大概有用，值得烙在某处。
他们尽量"少用启发式（heuristics）"：在数据上跑过滤器、说"这个留、那个扔"很容易，但人类刷 TikTok、接触一堆垃圾信息，大脑仍能学习、不至于跑偏——模型也该如此。
短期最痛的点：agent 连跑数天的巨大推理成本。主持人插科打诨"高推理成本是好事吧"、"Sonya 和 fireworks 合作，她超爱 inference"，全场笑，Jessy 接"我们也爱 inference"。回到正题：为什么在同一个查询里、甚至全公司的人在同样文档上反复跑同样的查询、反复读同样的文件？这本该是模型"就知道"的——就像你问一个员工，他不会往搜索框里打"我昨天在做什么"，他就是知道。
主持人追问"缓存不就解决了？" Jessy：某种程度上是，但关键在"建立在你知识之上"：如果你总是在做 rag，就无法做联想（associations）——"我注意到团队里有人在做某类研究，我在抽象层面回想起有个相关的东西你可能想知道，你甚至没问"。这种联想只能发生在权重里。
Dan 补充检索系统的根本限制："问题不在于存什么、放哪里，而在于怎么寻址它、怎么 query 它——你到底知不知道该找什么？"这需要某种直觉，而模型常常没有、不知道该往哪看，尤其受限于现在易于在 RL 里 scale 的关键词搜索（keyword search）。

"这些联想只能发生在权重里，因为它们不是'你让我搜这个、我就去搜这个'那种东西。" —— Jessy Lin

KV cache 的"怪物"：80GB 装一篇维基，愿景是离线压缩 1000x

核心要点：单篇维基条目的 KV cache 就要 ~80GB HBM，而整个 70B llama 的权重才 ~100GB——gradient descent 能把海量信息塞进极少的数字里，这是 Engram 压缩 KV cache 1000x 愿景的"存在性证明"。

公司起步于对 KV cache 的深挖。Dan 描述这个"怪物（monstrosity）"：给某个 Taylor Swift 之类的维基条目做单篇 KV cache，在 GPU 上要约 80 GB HBM 内存；而一个 70B llama 模型的全部权重约 100 GB——后者"带点失真地记住了整个互联网"。
反差点出本质：一个 70B 模型这么"比特高效"，而 KV cache 拿几十 KB 的文章就膨胀成 80GB 的"大脑状态（brain state）"。这是一个存在性证明（proof of existence）：gradient descent 能把大量信息打包进极少的数字里。
愿景：当然可以缓存、加载 KV cache（会有 disk 到 HBM 的问题，有人在解决），但如果能拿那 80GB、离线花些算力（"也许也在 fireworks 上"）压缩成"小一千倍（1000x smaller）"的东西再载入缓存，对加载速度、表征保真度都有巨大意义。

"KV cache 是当前做法的一个怪物……拿几十 KB 的文章，它就变成 80GB 的大脑状态。" —— Dan Biderman

记忆的"ChatGPT 时刻"、可携带的 memory wallet 与"越投入越值"

核心要点：人们等待的"ChatGPT 时刻"是一个能被你教、并真的越来越好的实习生；与之相关的是可携带技能（memory wallet）的设想，以及"花在工具上的时间真的转化为性能"的未来。

记忆的"ChatGPT 时刻"会是什么？Jessy：很可能是"持续学习"那个一直被谈论的概念的首个 PoC——一个你能随时间教、并真的会变好的实习生。"无论上下文工程多精巧，都到不了那里"；而当它发生，会是"模型真的变聪明了，哇，它和昨天不一样了"。
Dan 提醒 ChatGPT 当年并非被预料到的；他给的画面：如果你今天辞职、唯一使命是为自己造一个更好的模型，用尽 OpenAI、Anthropic 等所有前沿模型、7×24 地工程化上下文和技能，作为个人你能撬动的极其有限——"你不如等下一版模型"。他们想要的未来是：你在某件事上花的时间，真的转化为性能质量（至少在你在意的领域）。这很难，唯一可能实现的途径是"开始 scale 算力、在这些数据上训练，而又不把它们全毁掉（这很难）"。
关于 token wallet → memory wallet/bank：会不会有一个跨数字世界随身携带的记忆钱包？Jessy 认为产品形态尚未想清；甚至连 ChatGPT memory，她也不想让它跨"个人和工作"语境记忆（"你上周在 GPU 上训了模型，所以你可能喜欢这些床单"——完全不相关），人需要对此有控制和分离。
Dan 谈"圣杯"：你去上班、烧掉一堆 token、创造一堆价值，IP 留在公司，但你学到的技能、发明的方法、做事的方式，有些能以"消毒过、不伤害任何公司 IP"的方式带去下一份工作。"我们在生物学里就这么做，签 NDA、有伦理规则"；在数字世界做这件事会很有意思、很有回报，因为它会逼每个人去推前沿、在公司和个人生活里更深地落地 AI 并因此被回报。

"我们想看到一个未来：你在这件事上花的时间，真的转化为你在意的领域里的性能质量。" —— Dan Biderman

vision vs language：Sean 的"民科理论"——光子 vs 声波的 bit rate

核心要点：Sean 抛出一个"crackpot theory"解释语言为何在 AI 里反超视觉——生物里视觉因光子 bit rate 远高于声波而占优，但计算机里一切都是电子，把视觉"削弱"、把语言"扶正"，于是在 LLM 这层两者回到同一起跑线。

Sean 铺垫：他 2007 在 Stanford 读 PhD 时 AI "无聊得要死"，全是统计学习，基本只有 vision 和 NLP 两块；2012 AlexNet 后视觉主导了约六年。他问：你们惊讶语言路线反超视觉吗？视觉还有机会回来吗？
Jessy：确实挺意外；她一直对语言感兴趣——作为"沟通的媒介"，那么多复杂抽象的事能用语言完成。长期看，语言和视觉会融合成更统一的系统，从各模态接收输入、以抽象方式理解。
Dan："我从来对语言不感兴趣"——觉得语言是极高级的能力，整个动物界有很不同的语言形式；他和很多 AI 领袖一样曾认为"自然的方式是体验世界、在其中行动，视觉和行动才是关键"。但 ChatGPT 时刻后他去 Mosaic 学了 NLP 这边"香肠怎么做"，发现震撼之处：语言本该很难（每个词是 one-hot embedding，和其他词在高维空间里完全不相似、很人工），却用比最好的视觉模型大一个数量级的模型、把事情做得相当好。他认为图像视频仍有大量"汁水可榨"，两者会以不同方式持续有趣。
Sean 的"crackpot theory"正题：生物里视觉对语言有根本优势——大脑通过眼睛处理光学数据的 bit rate"高很多个数量级"，而且很多光学处理在到达"电子"之前就发生了；声波 bit rate 从根本上比光慢得多。而计算机里"一切都是电子"，相当于把视觉"削弱（nerfed）"、把语言"扶正（promoted）"，让所有处理在同一起跑线上。所以从信息论角度，语言和视觉到了 LLM 这层就回到相近的起跑线，而 LLM 这种"非常聪明的架构"恰好更适合语言。他自嘲"这听起来有多蠢，尤其对你这位神经科学家 Don"。
Dan 没正面接招，绕回主线："我们在知识工作里做的很多事，我们根本没进化出来做——坐在电脑前读这些、写这些备忘录，大脑没为此布线，但有 LLM 替我们做仍然有用。"人类高度偏视觉，啮齿类更偏嗅觉。他玩笑说大脑视觉/语言的"地皮（real estate）"分配"得查一下 ChatGPT"——主持人"你不是凭记忆知道吗？" Dan："不，伙计，我在外部化，我在个人生活里是个坚定的 rag 信徒"，全场笑。Jessy 接："在极限处，一切都是 rag。"

"在计算机里一切都是电子，所以相当于你削弱了视觉、扶正了语言，让所有处理都在同一个起跑线上——这是我疯狂、愚蠢、非技术的民科理论。" —— Sean

五到十年愿景：人人有专属模型，Engram 做"通往数据平面的神经接口"

核心要点：一个人人都有自己的、各不相同的模型的世界；Engram 想成为"通往 data plane 的神经接口"——类比 Databricks、Oracle，但存的是个性化的"神经记忆"。

Jessy 的愿景：每个人都有自己的模型，和别人的、和前沿模型都很不同，各自服务不同目的——不只是"了解你"，还要"以对你有意义的方式帮你"，无论个人还是团队，"到处都有不同种类的智能"。
Dan 的愿景：这是神经科学一个故事的变体——记忆和导航（navigation）紧密相关，大脑里表征空间地标的同一批回路也负责 episodic memory 的某些元素。对他而言，Engram 可以成为"所有人通往数据平面（data plane）的 LLM 接口"，类比 Databricks、Oracle 这样的伟大公司——但它形成的是"碰巧是神经记忆"的记忆、用"碰巧是个性化的"模型，有数亿个，本质是"通往数据平面的神经接口"，不是如实表征文件系统，而是表征该文件系统的"大脑状态（brain state）"——更高效、更具联想性。主持人称这是"一个收尾的美好愿景"。

"它不是如实表征文件系统，而是表征那个文件系统的一种大脑状态——对我而言这就是一个愿景。" —— Dan Biderman

附录：关键人/机构/产品/数据

项目	详情
Dan Biderman	Engram 联合创始人；神经科学/统计学背景，Stanford 2007 起读 PhD，曾在 Mosaic 做 NLP
Jessy Lin	Engram 联合创始人；计算认知科学背景
Sonya Huang	Sequoia 合伙人，本期主持（"和 fireworks 合作、爱 inference"）
Sean	Sequoia 主持人，提出 vision vs language 的"crackpot theory"
Engram	"neolab"，专注记忆与持续学习（"一枚硬币两面"）
合作伙伴	Microsoft、Notion、Harvey（早期用所有前沿模型）
100x	推理 token 削减上限（100 tokens 完成前沿模型需 100,000 tokens 的任务）
3–6 个月	bespoke 任务上模型落后的"能力缺口"窗口期
80 GB / 100 GB	单篇维基条目 KV cache ≈80GB HBM；70B llama 整模权重 ≈100GB
~1000x	KV cache 离线压缩的目标量级
adapter 微调	LoRA / prefix / sparse architectures，把语境烤进权重的核心方法
数据侧工具	SFT、RL、on-policy distillation
state space 架构	sub-quadratic 超长上下文方案；精度 vs 内存"no free lunch"；部分最好的中国模型有受其启发的层
white box access	方法前提：需白盒权重访问；开源最易，闭源可合作
Demis Hassabis	约一个月前在 Sequoia 活动上说记忆/持续学习需要新突破
Amos Tversky	以色列心理学家，名言"不研究人工智能，研究天然愚蠢"
AlexNet / 2012	视觉主导约六年的起点（Sean 的时间线）
Databricks / Oracle	Dan 类比 Engram 想做的"通往数据平面的神经接口"
memory wallet	由 "token wallet" 延伸的设想：可跨数字世界携带的记忆/技能
rag killer	用轻量训练把知识变成模型"本能"，替代反复检索（但仍可做 rag）