概要
- Engram 是一家专注"记忆与持续学习"的 neolab,反对当前主流的两条路线——把越来越大的 prompt 塞进上下文窗口、或外挂 RAG。它的逆向前提(contrarian premise)是:用前沿实验室训练模型的同一套 pipeline(SFT、RL、on-policy distillation),把一支团队的知识直接烤进模型权重,让模型像"在你公司干了几年的老员工"一样懂你。
- 核心收益是 token 经济性:很多关于人、团队、优先级的知识散落在多处、无法靠读文件查到;模型可以隐式学会,用 100 个 token 回答前沿模型要烧 10 万 token 才能完成的事——可达 100x 的推理 token 削减,同时匹配甚至超过前沿模型。合作伙伴包括 Microsoft、Notion、Harvey。
- 技术上是 per-team 模型 + adapter 微调(LoRA、prefix、sparse 等几十年来的工具),需要白盒权重访问(white box access),开源 transformer 模型最易做,也能和持有闭源权重的公司合作。
- 两位创始人都来自学术界:Dan Biderman 是神经科学/统计学背景(Stanford 2007 起,曾在 Mosaic 做 NLP),Jessy Lin 来自计算认知科学。他们把"内化 vs 外部化"类比人脑记忆(lossy、压缩重要信息),并用"做梦"类比模型离线实验自己的能力边界。
- 为什么不是前沿实验室来做:前沿实验室的 P0 是 AGI(一个越来越大、越来越通用的模型);而 Engram 的世界观是"人人都有自己的模型"——很多要学的东西是私有的、甚至互相冲突的,训不进通用 pipeline。Demis Hassabis 一个月前也在 Sequoia 活动上说,记忆和持续学习需要新突破。
- 贯穿全场的主线:"我们的模型一直在训练"(our models are always training)——从拒绝预训练/后训练二分,到 100x token 削减,到"rag killer",到 KV cache 压缩 1000x 的愿景,再到"人人有专属模型",每一个判断都在回应同一个信念:当下模型的瓶颈不是原始智能,而是把新的、私有的、不断演化的上下文深深烤进权重的能力。
"我们的模型一直在训练":拒绝预训练/后训练的二分
核心要点:当下模型的瓶颈不是原始智能(raw intelligence),而是理解"新的、不断演化的上下文"——记忆与持续学习是同一枚硬币的两面。
- Engram 官网原话:"我们不通过预训练或后训练的视角看世界,我们的模型一直在训练。" Jessy Lin 解释:模型今天已经很聪明、知道很多事,但让它们更有用的瓶颈不是智能,而是理解新任务、新语境。
- 问题被定义为:怎么把新语境"像预训练/后训练那样深深烤进权重"——这正是"记忆"和"持续学习"作为"一枚硬币两面(two sides of the same coin)"的含义。
- Dan 用个人类比:人记笔记、贴便利贴很有价值,永远不该丢弃;但第二天回到工作时,我们脑子里总有某种"记忆的痕迹",对事情该怎么做、该往哪看有了新直觉。这两者应该结合,而当前方案过于偏向"外部化记忆(externalized memory)"。
"我们认为让这些模型更有用的瓶颈,这些天来其实不是原始智能,而是理解新的、不断演化的语境。" —— Jessy Lin
外部化记忆的两个问题:token 爆炸 + 模型难消化
核心要点:靠"上下文工程"把巨大 prompt 反复喂给模型,既贵又让模型困惑——这条路在没有重大突破前走不远。
- 当前主流做法是"上下文工程(context engineering)":拿一个巨大的 prompt、跟模型聊很多轮很多小时、不断重组上下文。Jessy 承认 tool use、context engineering 都会是拼图的一部分,但有一个被低估的工具:把前沿实验室让模型擅长前沿数学/代码的同一套训练 pipeline,用到公司里每一种领域、每一种语境上。
- Dan 给出量级判断:我们每个人每天产生的 token 很快会到数千万(tens of millions)量级——主持人插话调侃 Sean 是"数十亿",引发全场笑。仅仅是保存、搜索、重读这些 token 就会很贵;对模型也很难、很容易混乱,除非记忆机制有重大突破。
"我们每个人每天集体产生的 token 量很快会达到每天数千万的量级——光是保存它、搜索它、重读它,就会相当昂贵。" —— Dan Biderman
Engram 架构:per-team 模型 + adapter 微调,把语境烤进权重
核心要点:在 Notion、Microsoft、Harvey 这类工作空间里训练"每团队一个模型",让它像工作多年的员工一样深懂公司语境,并随时间在人们在意的事上持续变好。
- 输入是各种工作空间里的语境:团队已写的文档、以及人们越来越多地与 agent 交互、对话、给反馈所产生的内容。目标不是"测试时读读文件(reading the files at test time)",而是像在你公司干了多年的员工那样深懂语境——知道公司有哪些 initiative、"我们这儿是怎么做事的"、招聘 pipeline 怎么跑。
- 技术层面:训练 per-team 模型,做大量 adapter 微调——adapter 有很多类型,"人们研究了几十年",无论是 LoRA、prefix 还是 sparse architectures,都是手头可用的工具。
- 数据层面的难题是"把任何原始文档或交互变成对模型有用的训练信号",工具箱包括 supervised fine-tuning、RL、on-policy distillation,把这些拼成一个"在人们在意的事上持续学习"的模型。
- Dan 补充关键判断:这不是赌"工具不存在"——他们的模型始终假设部分知识是外部化的、工具始终在。真正难的任务是判断"什么需要内化、什么可以外部化";而且即便是外部化的部分,每个公司都有自己 bespoke 的工具和做法(不是人人都用前沿模型训练时见过的那套 bash CLI 工具)。
"不只是在测试时读这些文件,而是真正像一个在你公司工作了多年的员工那样理解它。" —— Jessy Lin
经济性:100 个 token 干 10 万 token 的活
核心要点:不必反复检索、重读、写巨型 system prompt,可带来两个数量级的推理 token 削减——不是省 50%,而是 100x。
- 削减来自三处:不必反复 research、不必反复重读、不必写"巨型 system prompt(monstrous system prompts)"。
- 关键洞见在"涉及人、团队、组织、优先级"的知识——这些东西"在单一文档里根本找不到,除非你极度规整地把一切都记录下来"。模型可以靠在数据上训练隐式学会,用 100 个 token 回答前沿模型要烧 10 万个 token 才能完成的问题。
- 另一重价值是"能力缺口窗口":在数学、编程、cyber 这类高风险领域,模型总会领先;但对那些 bespoke、人们刚开始探索的任务,模型常落后 3 到 6 个月——能在这段时间里以极轻量的方式自主学习,就能在模型"还没完全擅长"时提供能力价值。
"它可以是 100 倍更少的 token,因为很多东西——尤其是和人、团队、组织、优先级相关的——你在一份文档里根本找不到。" —— Dan Biderman
需要白盒权重:开源模型最易,闭源可合作
核心要点:方法对任何 transformer 模型都成立,但需要白盒权重访问;开源最易,闭源权重的公司可以合作来做。
- 主持人追问:合作方都在用、也会继续用所有前沿模型,这套方法在前沿/闭源模型上行得通吗?Dan 答:"我们需要白盒权重访问(white box access to the weights)"——可以和持有闭源权重的公司合作来做,但对开源模型最容易;任何 transformer 模型,他们都能"对它做这件事"。
- 主持人把前提具象化:"所以我的 Notion agent 会是一个被 LoRA 微调过、用 adapter 调过的定制 agent,随着我往 Notion 工作空间里加新内容而不断学习?"——得到肯定。
- 为什么先做工作空间级而非个人级?Dan:两者对他们都行,只是团队"在如何收集语境、以及多年积累的语境量上更有纪律",从这里起步更容易;但每个人的电脑和手机终有一天都是有价值的目标。"大的信息富矿现在在协作做知识工作的团队里。"
事实记忆是 feature 还是 bug:智能的本质是压缩"什么重要"
核心要点:事实学习和技能学习无法干净分离——把事实从模型里抽走,模型会变得"很不自然、连基本东西都不知道";真正缺的环节是判断"什么重要、值得记"。
- 主持人抛出一派观点:模型死记"法国首都是巴黎"是坏事,更希望模型抽象地学会"国家和首都"的概念,而不是把所有事实背进权重。
- Jessy 反驳这是"虚假二分":某种程度上你必须记住东西,才能把它们组合成更复杂的概念。真正缺的是"判断什么重要值得记"。她举例:很多学术 benchmark 在考"某非洲国家一座桥的长度"——这种事实你既不想让模型耗费容量去记,人类也不会去记。
- 人脑记忆是 lossy(有损) 的,因为智能的一部分恰恰是"压缩重要的、把它和不重要的分开"。有人做过实验:把模型里的事实全"剥掉"、只留纯核心,结果模型变得很不自然、连基本东西都不知道。
- 主持人追问"为什么不能只查事实"。Jessy:如果你需要先回忆基本事实才能迈出思考的下一步,"你走不了多远"——这正是他们认为训练(而非纯检索)很重要的原因:要把东西内化,才能组合成更抽象的概念、想更深的思考。
"智能的一部分特征,就是压缩什么是重要的、并把它和不重要的东西分开。" —— Jessy Lin
算法 vs 数据库:深度学习把两者揉在一起,如今又在经济中渐渐分开
核心要点:传统 CS 把"数据库(事实)"和"算法(操作信息)"分两套课程;深度学习的魔力是把两者糅合,而 AI 进入经济的过程正让它们再次分离——但 Engram 认为必须周期性地让两者重新收敛。
- Dan 的框架:传统 CS 里,数据库是"关于世界的事实"(存储、查询),算法是"如何高效操作信息、样本高效地得到答案",是两套独立的 curriculum。深度学习的魔力是把这两者"糊在一起(mushed together)",以至于需要 Anthropic 的 interpretability 这样的"一群聪明人"去把它们重新拆开。
- 现在 AI 进入经济,这两者又在逐渐分离:公司有自己的语境、小心翼翼地处理和工程化,而通用模型对这些语境完全是个"陌生人(stranger)",在它们之上运算。
- 但 Dan 认为必须有"某种收敛(convergence)"、至少以某种周期,让事实、故事、细节被混进模型——这也有劣势:国家首都不常变,但很多事实一直在变,把它们烙进权重是有挑战的事。
- 主持人总结:"所以你是说,试图把算法和数据库分开是个虚假二分;真正重要的是如何区分什么重要值得记、什么不重要。" Dan/Jessy 确认。
"深度学习的魔力,是这两样东西现在被糅在了一起——我们需要 Anthropic 可解释性团队这样的聪明人,去试着把它们掰开。" —— Dan Biderman
"做梦"类比:让模型从交互中抽离,离线实验自己的能力边界
核心要点:缺失的那个阶段是"拿一段语境、深度内化它";Dan 用"做梦"类比模型离线实验自己的 affordances。
- Jessy 受人脑"内化阶段"的启发(很松散地):现在一切都发生在测试时——看用户给的语境、即兴思考一下,但走不远,还会犯错。缺的是"怎么把这些消化回模型,让下次做得对、走得更远"。
- Dan 顺势谈"做梦":说"我们想造一个像我们梦境的 AI"听起来有点疯(梦里没什么连贯性),但有意思的是:梦里我们看东西、自言自语、实验"在世界和社交情境中我们能做什么、不能做什么",而且"高度偏向社交"。对应到他们造的东西:给模型时间从真实交互中"撤退(retreat)",去实验自己的能力边界——它能做什么、知道什么、能多快处理那些"我们夜里也会梦到的长尾极端情况"。
"梦是相当疯狂的东西……我们看到东西、跟自己说话、实验我们在世界里、在社交情境里能做什么不能做什么。" —— Dan Biderman
为什么不是前沿实验室:世界观之差——"人人都有自己的模型"
核心要点:前沿实验室的 P0 是 AGI(一个越来越大的通用模型);Engram 的世界观是人人有专属模型,因为很多要学的东西是私有的、甚至互相冲突的,训不进通用 pipeline。
- Jessy 的世界观差异:前沿实验室要"一个越来越大、跨领域越来越聪明的模型";Engram 想象的是"人人都有自己的模型"。人们想学的很多东西要么是私有的(永远不会进后训练数据集),要么是冲突的(我做任务的方式和另一家公司/另一个人不同)。
- 这些东西很难用机器学习几十年来的老工具训进去——那套工具要"干净的监督、ground truth 奖励信号、漂亮的环境",而现实世界里很多事很模糊、很难说清"什么算好"。
- Dan 补充前沿实验室的 P0(priority zero):抵达 AGI,一个在编程数学上极强的通用模型,再用它自动化经济、解决密码学和国防的硬问题。推进路径很清楚——更多预训练、更大模型、更多数据、更多 RL、更多推理时计算。记忆和持续学习他们都在想,但现在更多是"产品层面的努力",而 Engram 认为这值得专门的关注、需要发生突破。
- Dan 引用:Demis Hassabis 约一个月前在 Sequoia 活动上"相当明确地说,我们需要围绕这些主题的新突破"。
- Jessy 补充三件事要变:(1) 新研究突破;(2) 新基础设施——"给每个人训练小模型"而非"一个大模型一次大 run";(3) research 和 product 要深度耦合——因为"模型一直在训练"时,用户提供的输入和模型学什么、训练信号是什么紧密相连,不能再是研究团队训完"扔过墙"给产品团队。
"在这个模型一直在训练的世界里,用户提供的输入和模型学到的东西、和训练信号,是非常紧密交织在一起的。" —— Jessy Lin
学术动机与 Dan 的神经科学路:从"自然愚蠢"到模糊记忆
核心要点:这是 AI 的大挑战之一——"在边缘处学习(learning at the edges)";Dan 从研究意识、人如何感知,走到发现记忆与持续学习的紧迫性。
- Jessy 谈动机:模型这么聪明了,"还剩什么?"——剩下的是"在边缘处学习"、学那些让模型有用的"余量(remainders)"。它也很根本,因为要回答"预训练/后训练里到底是什么让模型能以这种魔法般的涌现方式泛化"——互联网像一份"被赐予的礼物",恰好包含了编码、写作等多样数据。要破解持续学习,就是搞清这套泛化机制并控制它,让模型学私有数据"学得和它知道法国首都、知道怎么写 Python 一样好"。
- Dan 的神经科学背景:最初对意识、人类境况感兴趣。被问"模型有意识吗",他答"我没有比你读到的更高级的想法,我觉得没有,但重要的是有聪明人在想这件事"。
- 他引以色列心理学家 Amos Tversky 的名言:"他不对人工智能感兴趣,他对天然愚蠢(natural stupidity)感兴趣"。Dan 从研究人和动物如何体验世界,逐渐转向统计和 AI,发现记忆与持续学习的同类问题"非常非常紧迫",而现有系统离生物学还很远。
- 他不主张机器要像人脑(计算机很多事做得比人好),但人脑记忆很不同:存整个代码库用电脑就能无损搞定、根本不需要 AI;而人脑在信息容量约束下进化,形成"模糊表征(fuzzy representations)",能被抽象、形成连接、影响第二天——当前系统除了通用预训练步之外并没有这个。
"他对人工智能不感兴趣,他对天然愚蠢感兴趣。" —— Dan Biderman 引 Amos Tversky
记忆是涌现属性吗:bitter lesson、状态空间架构与"没有免费午餐"
核心要点:处理超长上下文的各种架构(如 state space)能做到 sub-quadratic,但在他们手里"总是用精度换内存"——没有免费午餐;真正 bitter-lesson 的做法是把更多算力烧在"没见过的新语境"上。
- 主持人的哲学问题:照 bitter lesson 看,记忆会是 LLM 内部"涌现"出来的协处理器(co-processor)吗,还是需要另一个独立架构?是不是只要更好的训练数据 + 更多算力,智能里需要的一切都会涌现?
- Dan 先从部署层面回答:当前 AI 远不止 GPU——到处是爆发式增长的 sandbox、模型在别的电脑上操作、试各种东西。被追问"我说的是模型架构层面"后,他谈到:之前有很多不同架构的实验(他们也贡献过),如 state space 家族,用来更高效处理超长上下文。
- 但所有这些方法最终都是 trade-off,通常是内存与精度的权衡(这里的"内存"是计算机意义,不是认知意义)——相比 transformer attention 在序列长度上"二次方(quadratic)"的内存占用,这些模型号称 sub-quadratic。
- "有些声称、有些确实做到了 sub-quadratic",一些最好的中国模型有受 state space 启发、成本非二次方的层。但"在我们手里,你总是为这点内存牺牲精度,没有免费午餐"。
- Dan 的立场:如果你真的 bitter-lesson-pilled,你该想的是"怎么烧更多算力、并把它烧在我没见过的新语境上"。他们和任何人一样 bitter-lesson-pilled,也不赌 AGI 方向会很快到头——只是认为还有更多算力可扩展。其间穿插玩笑:"要真懂 Sean 的语境,光重读文件不行,得训练……为这家伙训个 100 万亿参数",全场笑。
"在我们手里,你总是用精度去换这点内存——没有免费午餐。" —— Dan Biderman
人们最关心模型学什么:品牌风格、工作流、triage——facts 和 skills 方法上无区别
核心要点:app 层的人大量时间花在"让模型为我的用例工作好"——学品牌风格、学跑某个工作流、学我的写作方式;而在 Engram 的方法里,facts 和 skills 没有本质区别。
- Jessy:看 app 层的人在花时间做什么,大量是"让模型为你的用例工作好"——比如"用我的品牌风格设计网站"是当下很常见的例子,此外还有学跑工作流、学你特定的写作方式。"当我们想这些方法时,facts 和 skills 的区分其实根本不存在,方法对这个区分是不可知的(agnostic)。"
- Dan:几乎所有 app 层本质都是"一个前沿模型包在一个带搜索工具的循环里",他们都想"以更快、更高效、更有语境的方式跟自己的数据交互"——"我们想把公司知识编码进某种更高效、我不必去 research 的东西里";想让模型有针对性地知道"该把某件事 triage 给谁"。而他们正在证明:用相当轻量的训练,这些就能变成模型的"本能(instinctual)",不必跑那些很费劲的长循环。
"从某种意义上,它是一种 rag killer。我们当然永远可以做 rag、可以检索,但人们感兴趣的是用这种方式去跟非常大的数据平面交互、自动化非常重复的事。" —— Dan Biderman
"rag killer":联想只能发生在权重里;检索的真问题是"该查什么"
核心要点:内化 vs 检索之争尚无答案,但权重里能做"联想"——检索系统永远不知道你没问到的东西;检索真正的难点不是存哪里,而是"知道该查什么"。
- 主持人"对着死马再抽一鞭"追问 rag killer 到底是什么 trade-off。Jessy 坦言这是"未解之题,没人答出来过,我们都在做"——也是生物记忆的根本问题:什么该内化、什么不该。她举例:一年前住的酒店房间号需要内化到"神经组织"里吗?大概不用,记下来就好;但你家密码?接下来几年大概有用,值得烙在某处。
- 他们尽量"少用启发式(heuristics)":在数据上跑过滤器、说"这个留、那个扔"很容易,但人类刷 TikTok、接触一堆垃圾信息,大脑仍能学习、不至于跑偏——模型也该如此。
- 短期最痛的点:agent 连跑数天的巨大推理成本。主持人插科打诨"高推理成本是好事吧"、"Sonya 和 fireworks 合作,她超爱 inference",全场笑,Jessy 接"我们也爱 inference"。回到正题:为什么在同一个查询里、甚至全公司的人在同样文档上反复跑同样的查询、反复读同样的文件?这本该是模型"就知道"的——就像你问一个员工,他不会往搜索框里打"我昨天在做什么",他就是知道。
- 主持人追问"缓存不就解决了?" Jessy:某种程度上是,但关键在"建立在你知识之上":如果你总是在做 rag,就无法做联想(associations)——"我注意到团队里有人在做某类研究,我在抽象层面回想起有个相关的东西你可能想知道,你甚至没问"。这种联想只能发生在权重里。
- Dan 补充检索系统的根本限制:"问题不在于存什么、放哪里,而在于怎么寻址它、怎么 query 它——你到底知不知道该找什么?"这需要某种直觉,而模型常常没有、不知道该往哪看,尤其受限于现在易于在 RL 里 scale 的关键词搜索(keyword search)。
"这些联想只能发生在权重里,因为它们不是'你让我搜这个、我就去搜这个'那种东西。" —— Jessy Lin
KV cache 的"怪物":80GB 装一篇维基,愿景是离线压缩 1000x
核心要点:单篇维基条目的 KV cache 就要 ~80GB HBM,而整个 70B llama 的权重才 ~100GB——gradient descent 能把海量信息塞进极少的数字里,这是 Engram 压缩 KV cache 1000x 愿景的"存在性证明"。
- 公司起步于对 KV cache 的深挖。Dan 描述这个"怪物(monstrosity)":给某个 Taylor Swift 之类的维基条目做单篇 KV cache,在 GPU 上要约 80 GB HBM 内存;而一个 70B llama 模型的全部权重约 100 GB——后者"带点失真地记住了整个互联网"。
- 反差点出本质:一个 70B 模型这么"比特高效",而 KV cache 拿几十 KB 的文章就膨胀成 80GB 的"大脑状态(brain state)"。这是一个存在性证明(proof of existence):gradient descent 能把大量信息打包进极少的数字里。
- 愿景:当然可以缓存、加载 KV cache(会有 disk 到 HBM 的问题,有人在解决),但如果能拿那 80GB、离线花些算力("也许也在 fireworks 上")压缩成"小一千倍(1000x smaller)"的东西再载入缓存,对加载速度、表征保真度都有巨大意义。
"KV cache 是当前做法的一个怪物……拿几十 KB 的文章,它就变成 80GB 的大脑状态。" —— Dan Biderman
记忆的"ChatGPT 时刻"、可携带的 memory wallet 与"越投入越值"
核心要点:人们等待的"ChatGPT 时刻"是一个能被你教、并真的越来越好的实习生;与之相关的是可携带技能(memory wallet)的设想,以及"花在工具上的时间真的转化为性能"的未来。
- 记忆的"ChatGPT 时刻"会是什么?Jessy:很可能是"持续学习"那个一直被谈论的概念的首个 PoC——一个你能随时间教、并真的会变好的实习生。"无论上下文工程多精巧,都到不了那里";而当它发生,会是"模型真的变聪明了,哇,它和昨天不一样了"。
- Dan 提醒 ChatGPT 当年并非被预料到的;他给的画面:如果你今天辞职、唯一使命是为自己造一个更好的模型,用尽 OpenAI、Anthropic 等所有前沿模型、7×24 地工程化上下文和技能,作为个人你能撬动的极其有限——"你不如等下一版模型"。他们想要的未来是:你在某件事上花的时间,真的转化为性能质量(至少在你在意的领域)。这很难,唯一可能实现的途径是"开始 scale 算力、在这些数据上训练,而又不把它们全毁掉(这很难)"。
- 关于 token wallet → memory wallet/bank:会不会有一个跨数字世界随身携带的记忆钱包?Jessy 认为产品形态尚未想清;甚至连 ChatGPT memory,她也不想让它跨"个人和工作"语境记忆("你上周在 GPU 上训了模型,所以你可能喜欢这些床单"——完全不相关),人需要对此有控制和分离。
- Dan 谈"圣杯":你去上班、烧掉一堆 token、创造一堆价值,IP 留在公司,但你学到的技能、发明的方法、做事的方式,有些能以"消毒过、不伤害任何公司 IP"的方式带去下一份工作。"我们在生物学里就这么做,签 NDA、有伦理规则";在数字世界做这件事会很有意思、很有回报,因为它会逼每个人去推前沿、在公司和个人生活里更深地落地 AI 并因此被回报。
"我们想看到一个未来:你在这件事上花的时间,真的转化为你在意的领域里的性能质量。" —— Dan Biderman
vision vs language:Sean 的"民科理论"——光子 vs 声波的 bit rate
核心要点:Sean 抛出一个"crackpot theory"解释语言为何在 AI 里反超视觉——生物里视觉因光子 bit rate 远高于声波而占优,但计算机里一切都是电子,把视觉"削弱"、把语言"扶正",于是在 LLM 这层两者回到同一起跑线。
- Sean 铺垫:他 2007 在 Stanford 读 PhD 时 AI "无聊得要死",全是统计学习,基本只有 vision 和 NLP 两块;2012 AlexNet 后视觉主导了约六年。他问:你们惊讶语言路线反超视觉吗?视觉还有机会回来吗?
- Jessy:确实挺意外;她一直对语言感兴趣——作为"沟通的媒介",那么多复杂抽象的事能用语言完成。长期看,语言和视觉会融合成更统一的系统,从各模态接收输入、以抽象方式理解。
- Dan:"我从来对语言不感兴趣"——觉得语言是极高级的能力,整个动物界有很不同的语言形式;他和很多 AI 领袖一样曾认为"自然的方式是体验世界、在其中行动,视觉和行动才是关键"。但 ChatGPT 时刻后他去 Mosaic 学了 NLP 这边"香肠怎么做",发现震撼之处:语言本该很难(每个词是 one-hot embedding,和其他词在高维空间里完全不相似、很人工),却用比最好的视觉模型大一个数量级的模型、把事情做得相当好。他认为图像视频仍有大量"汁水可榨",两者会以不同方式持续有趣。
- Sean 的"crackpot theory"正题:生物里视觉对语言有根本优势——大脑通过眼睛处理光学数据的 bit rate"高很多个数量级",而且很多光学处理在到达"电子"之前就发生了;声波 bit rate 从根本上比光慢得多。而计算机里"一切都是电子",相当于把视觉"削弱(nerfed)"、把语言"扶正(promoted)",让所有处理在同一起跑线上。所以从信息论角度,语言和视觉到了 LLM 这层就回到相近的起跑线,而 LLM 这种"非常聪明的架构"恰好更适合语言。他自嘲"这听起来有多蠢,尤其对你这位神经科学家 Don"。
- Dan 没正面接招,绕回主线:"我们在知识工作里做的很多事,我们根本没进化出来做——坐在电脑前读这些、写这些备忘录,大脑没为此布线,但有 LLM 替我们做仍然有用。"人类高度偏视觉,啮齿类更偏嗅觉。他玩笑说大脑视觉/语言的"地皮(real estate)"分配"得查一下 ChatGPT"——主持人"你不是凭记忆知道吗?" Dan:"不,伙计,我在外部化,我在个人生活里是个坚定的 rag 信徒",全场笑。Jessy 接:"在极限处,一切都是 rag。"
"在计算机里一切都是电子,所以相当于你削弱了视觉、扶正了语言,让所有处理都在同一个起跑线上——这是我疯狂、愚蠢、非技术的民科理论。" —— Sean
五到十年愿景:人人有专属模型,Engram 做"通往数据平面的神经接口"
核心要点:一个人人都有自己的、各不相同的模型的世界;Engram 想成为"通往 data plane 的神经接口"——类比 Databricks、Oracle,但存的是个性化的"神经记忆"。
- Jessy 的愿景:每个人都有自己的模型,和别人的、和前沿模型都很不同,各自服务不同目的——不只是"了解你",还要"以对你有意义的方式帮你",无论个人还是团队,"到处都有不同种类的智能"。
- Dan 的愿景:这是神经科学一个故事的变体——记忆和导航(navigation)紧密相关,大脑里表征空间地标的同一批回路也负责 episodic memory 的某些元素。对他而言,Engram 可以成为"所有人通往数据平面(data plane)的 LLM 接口",类比 Databricks、Oracle 这样的伟大公司——但它形成的是"碰巧是神经记忆"的记忆、用"碰巧是个性化的"模型,有数亿个,本质是"通往数据平面的神经接口",不是如实表征文件系统,而是表征该文件系统的"大脑状态(brain state)"——更高效、更具联想性。主持人称这是"一个收尾的美好愿景"。
"它不是如实表征文件系统,而是表征那个文件系统的一种大脑状态——对我而言这就是一个愿景。" —— Dan Biderman
附录:关键人/机构/产品/数据
| 项目 | 详情 |
|---|---|
| Dan Biderman | Engram 联合创始人;神经科学/统计学背景,Stanford 2007 起读 PhD,曾在 Mosaic 做 NLP |
| Jessy Lin | Engram 联合创始人;计算认知科学背景 |
| Sonya Huang | Sequoia 合伙人,本期主持("和 fireworks 合作、爱 inference") |
| Sean | Sequoia 主持人,提出 vision vs language 的"crackpot theory" |
| Engram | "neolab",专注记忆与持续学习("一枚硬币两面") |
| 合作伙伴 | Microsoft、Notion、Harvey(早期用所有前沿模型) |
| 100x | 推理 token 削减上限(100 tokens 完成前沿模型需 100,000 tokens 的任务) |
| 3–6 个月 | bespoke 任务上模型落后的"能力缺口"窗口期 |
| 80 GB / 100 GB | 单篇维基条目 KV cache ≈80GB HBM;70B llama 整模权重 ≈100GB |
| ~1000x | KV cache 离线压缩的目标量级 |
| adapter 微调 | LoRA / prefix / sparse architectures,把语境烤进权重的核心方法 |
| 数据侧工具 | SFT、RL、on-policy distillation |
| state space 架构 | sub-quadratic 超长上下文方案;精度 vs 内存"no free lunch";部分最好的中国模型有受其启发的层 |
| white box access | 方法前提:需白盒权重访问;开源最易,闭源可合作 |
| Demis Hassabis | 约一个月前在 Sequoia 活动上说记忆/持续学习需要新突破 |
| Amos Tversky | 以色列心理学家,名言"不研究人工智能,研究天然愚蠢" |
| AlexNet / 2012 | 视觉主导约六年的起点(Sean 的时间线) |
| Databricks / Oracle | Dan 类比 Engram 想做的"通往数据平面的神经接口" |
| memory wallet | 由 "token wallet" 延伸的设想:可跨数字世界携带的记忆/技能 |
| rag killer | 用轻量训练把知识变成模型"本能",替代反复检索(但仍可做 rag) |