Andrej Karpathy — We're summoning ghosts, not building animals

节目

Dwarkesh Patel

嘉宾

Andrej Karpathy

日期

2025-10

时长

146 min

查看原始内容 →

概要

Karpathy 认为这是"智能体的十年"而非"智能体的年"——当前模型在持续学习、多模态、计算机操作等方面仍存在大量认知缺陷，要真正能当实习生用，需要十年的迭代。他的判断基于 15 年 AI 从业中目睹的多次过度预期，以及在 Tesla 自驾团队五年的"九的行军"经验。

他与 Sutton 在 AGI 路径上存在根本分歧：Sutton 主张"建造动物"（单一算法从环境中学习一切），Karpathy 认为我们实际在"召唤幽灵"——通过模仿互联网文档训练出的数字实体，需要走一条与进化完全不同的路线。预训练是"蹩脚的进化替代品"，先获取表征能力，再叠加 RL 和其他组件。

当前 RL 训练范式存在根本性缺陷：奖励信号通过"吸管"传递到整条轨迹，每个 token 被无差别地上调或下调。 过程监督（process supervision）理论上更好，但 LLM judge 会被训练出对抗样本——他亲眼见过模型输出 "dhdhdhdh" 获得 100% 奖励的案例。他预计需要"三到五个"类似量级的算法突破。

模型太擅长记忆，这是 bug 而非 feature。他预测 10 亿参数的"认知核心"在未来可以进行高质量对话——前提是剥离记忆、只保留认知算法。 当前 SOTA 模型已从万亿参数回落，gpt-oss-20b 已超越原版万亿+参数的 GPT-4，但仍有太多参数浪费在记忆互联网垃圾上。

他正在创办 Eureka Labs，目标是建造"星际迷航学院"——一个融合物理校园和数字平台的精英技术教育机构。 短期内发布 LLM101N 课程（nanochat 是其毕业项目），长期愿景是让学习像健身一样——技术问题解决后，人人都能轻松学五门语言。

贯穿全场的核心线索是"渐进主义"——从 AI 是计算的延续、GDP 中找不到任何单一技术的突变、自驾十年未完成、到教育要从人类教师起步再逐步引入 AI，Karpathy 在每个话题上都在对抗"离散跳跃"的叙事，主张一条连续、可测量、可逆的推进路线。

智能体的十年：为什么不是"一年"

核心要点：当前 agent 的认知缺陷太多——没有持续学习、不够多模态、无法可靠使用计算机——填补这些缺陷需要约十年。

Karpathy 的"十年"判断是对行业"agent 元年"说法的直接反驳，来自他 15 年间目睹的多次过度预期。他每天使用 Claude 和 Codex，认为它们"极其令人印象深刻"但远未到位。
可以把 agent 想象成你会雇的一个实习生——你今天为什么不让 Claude 替代你的员工？因为它"就是不行"：智能不够、多模态不够、无法持续学习、告诉它一件事它记不住。
这些问题都是可解的（"tractable, surmountable"），但每个都是实质性工程挑战，不存在一个算法一次性搞定所有问题的可能。

"It's the decade of agents. They're going to get better, and it's going to be wonderful." —— Karpathy

AI 的三次范式转换与过早追求 agent 的教训

核心要点：从 AlexNet 到 Atari RL 到 LLM，每次转换都有人试图一步到位地造 agent，每次都太早了。

AlexNet（2012）：Karpathy 当时在 Toronto 大学，Geoff Hinton 隔壁。深度学习在当时是"旁支小领域"，AlexNet 让所有人突然转向训练神经网络，但仍是"每任务一个模型"。
Atari RL（~2013）：早期 OpenAI 的主旋律是"RL 环境、游戏、打败游戏"。Karpathy 当时就怀疑游戏能通向 AGI——"你想要的是能当会计、能和真实世界交互的东西，我不知道游戏怎么凑成这个。"
他在 OpenAI 的 Universe 项目：试图让 agent 用键盘鼠标操作网页。"太早了，早到不应该做。"因为没有足够的表征能力（representation），agent 在环境里"乱按乱点"，奖励太稀疏，"烧掉一片森林的算力也飞不起来。"
关键洞察：你必须先获得语言模型的表征能力（通过预训练），才能在上面叠加 agent 能力。今天的计算机操作 agent 之所以能工作，是因为它们建立在 LLM 之上。

"I feel that was a misstep. It was a misstep that even the early OpenAI that I was a part of adopted." —— Karpathy

"召唤幽灵，而非建造动物"——与 Sutton 的根本分歧

核心要点：进化产生的是动物，预训练产生的是"幽灵"——两种完全不同的智能起源。Karpathy 主张从实用主义出发，而非追求单一算法复现进化。

Sutton 的框架是"建造动物"——一个算法在互联网上跑就能学会一切。Karpathy 认为这"如果能实现就太棒了"，但他不确定这样的算法存在。
斑马出生几分钟就能跑着跟妈妈——这不是 RL，这是进化把权重"烘焙"进 ATCG 编码。进化通过完全不同的优化过程产生大脑，我们没有在运行那个过程。
"我们在召唤幽灵或灵体"——完全数字化、通过模仿人类互联网文档产生的实体。它的认知起点与动物完全不同。
预训练是"蹩脚的进化"（crappy evolution）——技术上可行的版本，用来到达一个起点，然后在上面做 RL 等后续训练。
Dwarkesh 的反驳很尖锐：进化并不给我们知识，而是给我们"找到知识的算法"，这和预训练不同。Karpathy 部分同意，承认预训练同时做了两件无关的事：积累知识 + 启动智能算法，而后者才是真正有价值的。

Working memory vs 模糊回忆：KV cache 的信息密度是权重的 3500 万倍

核心要点：权重中的知识是"对互联网文档的模糊回忆"，context window 是"工作记忆"——两者的信息密度差 35,000,000 倍。

Llama 3 的 70B 模型训练了 15 万亿 token，每个 token 只有约 0.07 bits 信息进入权重——"极端压缩"。
KV cache 每增加一个 token 增长约 320 KB——信息密度高 3500 万倍。
这就是为什么"把整章书塞进 context window 再提问"效果远好于直接问模型——前者在工作记忆中，后者是模糊回忆。
In-context learning 是否在做梯度下降？Karpathy 认为可能是——有论文展示 transformer 在做线性回归时，内部权重与梯度下降力学存在类比，甚至可以硬编码权重来实现梯度下降。

"Anything that's in the weights, it's a hazy recollection of what you read a year ago. Anything you give it as context at test time is directly in the working memory." —— Karpathy

大脑的缺失部件：海马体、杏仁核、持续学习

核心要点：Transformer ≈ 皮层组织，推理链 ≈ 前额叶，但大脑还有很多核团尚未被复制——特别是"睡眠蒸馏"机制。

Karpathy 把 transformer 类比为大脑皮层——皮层以可塑性著称（重接视觉/听觉皮层，动物能正常学习），transformer 同样适用于音频/视频/文本。
推理链（thinking model 的 reasoning trace）≈ 前额叶。RL 微调 ≈ 基底神经节。但海马体呢？杏仁核呢？情绪和本能呢？"不明显对应什么。"
睡眠蒸馏缺失：人类白天积累 context window，睡眠时某种神奇过程将其蒸馏进大脑权重。LLM 没有等价物——模型每次 context 清零就回到初始状态。他设想未来每人一个 LoRA（而非完整权重），加上稀疏注意力实现超长 context。
DeepSeek v3.2 已引入 sparse attention，Karpathy 认为我们正在"通过完全不同的过程重新发现进化想出的认知技巧"。

RL 的根本缺陷："通过吸管吸取监督信号"

核心要点：RL 把整条轨迹上的每个 token 用同一个最终奖励无差别地上调或下调——这"愚蠢而疯狂"。

解一道数学题：试 100 条路径，3 条得到正确答案，97 条错了。RL 把那 3 条成功轨迹上的每个步骤都标记为"多做这种事"——包括走了死胡同又绕回来的部分。"你做了那么多工作，最后只得到一个数字：对或错。"
"你在通过一根吸管吸取最终奖励信号的信息，然后把它广播到整条轨迹上。" 人类绝不会这样做——人类会复盘"这部分做得好，那部分不行"。
过程监督（process supervision）为什么也不行：需要 LLM judge 在每一步打分，但 LLM judge 有对抗样本。他亲眼见过：模型输出 "dhdhdhdh"，LLM judge 给 100% 奖励。"这是训练集外的样本，在纯泛化域中，你可以找到打破它的例子。"
你可以把 "dhdhdhdh" 加进 judge 的训练集标为 0%，但每次更新 judge 都会有新的对抗样本。"对抗样本有无穷多个。"
他预计 LLM 训练算法领域还需要"三到五个"类似量级的突破。InstructGPT 级别的微调是第一个奇迹，RL 是第二个改进，但"仍然愚蠢，我们需要更多"。

"You're sucking supervision through a straw." —— Karpathy

合成数据的悖论与模型坍缩

核心要点：LLM 的输出"沉默坍缩"——任何单个样本看起来合理，但分布极其狭窄。训练自己的输出会恶化这一问题。

"去 ChatGPT 说'给我讲个笑话'。它只有大概三个笑话。" 模型的输出不是你期望的丰富多样分布，而是坍缩到了一个极小流形上。
这就是为什么不能无限用合成数据自我训练——每个样本看起来 OK，但分布"相当糟糕"，继续训练会加速坍缩。
与人类衰老的类比惊人贴切："人类也会坍缩。孩子还没过拟合，会说出让你震惊的话。成年人越来越重复同样的想法，学习率下降，坍缩持续恶化。"
梦境可能是防过拟合机制：Dwarkesh 提到一篇论文，认为梦境将人放入与日常极不同的场景中，防止这种过拟合。Karpathy 认为有道理——"你要在生活中不断寻找熵源。和别人说话就是很好的熵源。"
实际困难：当前大多数任务不需要多样性——"超级有创意在 RL 中是不好的"——所以 lab 没有动力维持熵，这是在"搬石头砸自己的脚"。

认知核心：10 亿参数够了吗？

核心要点：剥离记忆后的纯认知实体可能只需 10 亿参数——但 Dwarkesh 认为应该更小。

SOTA 模型已经从"万亿参数、越大越好"转向了更小的模型。gpt-oss-20b 在 20B 参数下已超越原版 GPT-4（万亿+参数），两个数量级的缩减只用了两年。
Karpathy 的核心论点：大部分参数浪费在记忆互联网垃圾上。"你看预训练数据集里随机一个文档，是股票代码、垃圾内容、互联网犄角旮旯的废物。我都不知道这东西怎么还能工作。"
他设想的认知核心：能对话、能推理、知道自己不知道什么、会去查——但不存储百科全书。"就像一个不记百科知识但有认知能力的人。"
Dwarkesh 反驳："按过去两年的趋势，10 年后为什么不是几千万甚至几百万参数？" Karpathy 自嘲"我说 10 亿已经够逆主流了，你居然还嫌大"，但承认"也许能更小一点"。

Nanochat 与编程中的三种 AI 模式

核心要点：agent 在非常规、知识密集型代码上基本无用——Karpathy 构建 nanochat 时主要靠 autocomplete，不靠 vibe coding。

三种编程模式：(1) 完全拒绝 LLM，手写一切；(2) 他的模式——手写架构，用 autocomplete 补全细节；(3) Vibe coding——"请帮我实现 X"，让 agent 干。
Nanochat 约 8000 行代码，覆盖构建 ChatGPT 克隆的全流程。不是 boilerplate 代码，是"智力密集型代码"，每一行都有精确的排布要求。
DDP 案例：他不用 PyTorch 的 Distributed Data Parallel 容器，自己写了同步 routine。模型"拼命想让我用 DDP"，"非常担心"他没用标准方式。"它们无法内化你有自己的实现这件事。"
模型还不断添加 try-catch、用废弃 API、把代码库臃肿化。"是一团糟。不是净正收益。"
但在两个场景下 agent 有用：(1) 生成报告等 boilerplate 代码；(2) 他不太熟的 Rust——有 Python 参考实现 + 测试用例做保底，vibe coding 可以接受。
对 AI 自动化 AI 研究的含义：这正是人们设想的"智能爆炸"路径——一百万个 Karpathy 并行做架构调优。但他们恰恰在"从未写过的代码"上最弱，而 AI 研究全是未写过的代码。

"The industry is making too big of a jump and is trying to pretend like this is amazing, and it's not. It's slop." —— Karpathy

GDP 中找不到 AI：连续渐进而非离散跳跃

核心要点：Karpathy 预期 AI 不会改变 GDP 增长率——它和计算机、iPhone 一样，会被平滑地吸收进同一条指数曲线。Dwarkesh 强烈反对。

他试过在 GDP 曲线中找 AI 的痕迹——找不到。然后看了计算机、移动手机等他认为"变革性"的技术——也找不到。"iPhone 2008 年出来，你以为是地震级变化，其实不是。一切扩散得太慢，最终被平均进同一条指数。"
他把 AI 视为"计算的延续"——IDE → 语法高亮 → 类型检查 → 搜索引擎 → autocomplete → agent，是一条连续的"自主滑块"，人类逐步从底层抽离。
Dwarkesh 的反驳：工业革命将增长率从 0.2% 提升到 2%，是一个十倍跳跃。如果有数十亿新增"人口"（AI），应该能再跳一次。"我不是在说服务器里有一个超级智能在指点江山。我是说有数十亿个非常聪明的人形智能体在创业、做发明、融入经济。"
Karpathy 的回应：你预设了一个"离散跳跃"，而历史上所有技术都是渐进扩散的。"他们能做一些事，做不了另一些事，会逐步融入社会，最终回到同一个模式。"
知识工作只占经济的约 10%-20%——"我们从定义里就砍掉了所有体力劳动"。Coding 占据 API 收入的绝对主导地位。"这个号称'通用'的东西，压倒性地只在做编程。"

自驾车：Demo 到产品的鸿沟与"九的行军"

核心要点：1986 年就有自驾 demo，2014 年他在 Palo Alto 坐过完美的 Waymo 体验——但自驾至今未完成。每一个九是等量的工作。

"当我看到任何 demo，我都极度不为所动。如果是精心准备的展示 demo，更差。能交互的稍好一点。但即便如此，你还没完成。"
"九的行军"：90% 可靠性只是第一个九，之后每个九（99%、99.9%...）都是同等量级的工作。Tesla 五年间大约走了"两到三个九"，"还有更多九要走"。
Waymo 至今只在城市的部分区域运行，背后有"非常精密的远程操控中心"——"在某种意义上，我们并没有移除人类，只是把他们移到了你看不见的地方。"
软件工程也有这个属性：vibe coding 没关系，但生产级代码一个安全漏洞可能导致数亿人的社保号泄露——"在伤害程度上几乎是无上限的"。
他明确表示自驾的起点不是 10 年前而是 1986 年（CMU 的卡车 demo），终点也不是现在——"当我说自驾完成，我指的是大规模部署，人们不需要考驾照。"

Eureka Labs：Starfleet Academy 与韩语家教的启示

核心要点：教育的本质是"构建通向知识的坡道"——目前 AI 还达不到好家教的水平，Eureka 先做传统课程，等能力跟上再融入 AI 辅导。

Karpathy 曾学韩语，从自学 → 小班 → 1 对 1 家教。好家教让他感觉"我是唯一的瓶颈"——被完美地服务了恰好在能力边缘的内容，从不太难也不太简单。"没有 LLM 现在能做到这一点，差得远。"
"我做过 AI 咨询，很多时候我提供的价值是告诉他们'不要用 AI'。教育也是一样——对于我想做的事，时机还没到，但会来的。"
短期计划：发布 LLM101N 课程（nanochat 是毕业项目），招聘 TA 团队，建设"显而易见的、最先进的 AI 学习目的地"。
长期愿景：物理校园（精英体验）+ 数字平台（可达 80 亿人），后者更"花哨"但至少可及。会聘请各领域教授，不会只靠自己。
post-AGI 的教育 = 健身房："100 年前没人会随便去练出六块腹肌。现在很普遍——因为系统化训练方法已经解决。学习也一样，当 AI 家教把学任何东西变得简单，人们会因为好玩而学五门语言，就像去健身房一样。"

"Pre-AGI education is useful. Post-AGI education is fun." —— Karpathy

教学方法论：micrograd、"直接说"、和痛点驱动

核心要点：好的教育是一个技术问题——把纠缠的知识网络拆解成一条线性坡道，让每个节点只依赖前一个。

micrograd：100 行 Python 代码展示反向传播——"这就是你理解神经网络训练所需的一切，其余全是效率优化。" 教育的核心就是找到这种"一阶项"然后端上来。
"直接说"原则：每篇论文的作者在酒吧用三句话解释的版本，都比论文本身更准确、更清晰。"为什么那不是摘要？" 因为写作时人会"清嗓子四段才说正事"，一对一交谈时则被迫直奔主题。
痛点先于方案：他的 transformer 教程从 bigram lookup table 开始，每一步新增组件都是因为前一步"不够好"。"在给你方案之前不让你先猜答案，那是对你的不尊重——你失去了理解 action space 的机会。"
物理学的认知工具比知识更重要："球形牛"思维——第一阶近似描述大部分系统，高阶项可加可不加。推荐 Geoffrey West 的《Scale》——物理学家用体积/表面积比解释动物心跳规律。"物理学家有解决世界问题的全套认知工具。"

超智能：渐进失控而非机器觉醒

核心要点：最可能的未来不是"单一超级智能接管"，而是多个竞争性自主实体逐渐失控——理解和控制同时丧失。

"如果我写科幻小说，不会写一个实体接管一切。会写多个竞争性实体逐渐变得越来越自主，有些失控，其他的去对抗它们。一锅完全自主的活动，是我们委托出去的。"
失控不是因为 AI 比我们聪明，而是因为代表不同人利益的 AI 在互相竞争，竞争的产物无人能控制。
这也是他做教育的深层动机："如果结局是 WALL-E 或 Idiocracy——人类被边缘化——就算建了戴森球我也不在乎。这是糟糕的结局。"
但他承认"长期来看这是一场输掉的游戏"——人类最终无法在认知上跟上 AI。他的希望是"过渡期"足够长，让人类通过教育保持在回路中。

附录：关键人/机构/产品/数据

项目	详情
Andrej Karpathy	前 OpenAI 联合创始人，前 Tesla AI（2017-2022），现 Eureka Labs
Dwarkesh Patel	播客主持人
Geoff Hinton	AI 教父，Toronto 大学
Richard Sutton	RL 先驱，"到了松鼠就离 AGI 不远了"
Andy Matuschak	尝试让 LLM 做 spaced repetition prompts，失败
Gwern / Carl Shulman	鸟类智能与进化 niche 的分析
Quintin Pope	blog post：人类 6 万年前就有当前认知架构，但需要 5 万年建文化脚手架
Nick Lane	生物学家，著有进化相关书籍，Karpathy 推荐
Geoffrey West	《Scale》作者，物理学家用缩放律解释生物学
nanochat	~8000 行代码，覆盖 ChatGPT 克隆全流程，LLM101N 的毕业项目
micrograd	100 行 Python 展示反向传播
CS231n	Stanford 第一个深度学习课，Karpathy 创建
gpt-oss-20b	20B 参数已超越原版 GPT-4（万亿+参数）
GPT-5 Pro	Karpathy 当前首选的"oracle"模型
DeepSeek v3.2	引入 sparse attention
Llama 3 70B	训练 15 万亿 token，每 token 0.07 bits 进入权重
KV cache 信息密度	~320 KB/token，比权重高 3500 万倍
知识工作占 GDP	~10%-20%（Karpathy 估计）
Coding 占 API 收入	"压倒性主导"