41 min 2025-07

Scaling and the Road to Human-Level AI | Anthropic Co-founder Jared Kaplan

Y Combinator · Jared Kaplan

查看原始内容 →

概要

Anthropic联合创始人Jared Kaplan讲述Scaling Laws的发现历程，以及通往人类级AI还需要的组织知识、记忆、oversight等关键要素

核心洞察

Scaling laws 是驱动 AI 进步的根本因素，而非研究员的聪明才智。 Kaplan 约五六年前以物理学家的方式发现了预训练阶段的 scaling laws——在计算量、数据集大小和网络规模上跨越多个数量级呈现精确趋势线，其精度堪比物理学或天文学中的规律。强化学习阶段同样存在 scaling laws，由研究员 Andy Jones 在 Hex 棋类游戏中独立验证。这意味着 AI 进步本质上是在"转动一个把手"——增大计算量即可可预测地获得更好性能。
AI 能完成的任务时间跨度大约每 7 个月翻一倍，按此趋势未来几年内可达数天甚至数月级别。 Metr 机构的系统性研究发现了这一经验规律。Kaplan 认为关键驱动力是模型自我纠错能力的提升——每多纠正一次错误就大约能把任务时间跨度翻一倍，这不需要智能的巨大跃升。最终设想是数百万个 AI 模型协同工作，在几天或几周内取得理论物理学界 50 年才能取得的进展。
实现广泛人类级别 AI 需要三大要素：组织知识、记忆和监督。 Claude 4 已在记忆功能上做出改进——可将记忆保存为文件并跨上下文窗口检索。监督（oversight）方面的难点在于生成更细致的奖励信号，以便用 RL 训练模型处理"讲好笑话、写好诗、研究品味"等模糊任务，而不仅限于代码测试通过或数学题答对这类有明确对错的场景。
给创业者的核心建议：在 AI 能力边界上构建"还差一点就能用"的产品。 Claude 4 还不够强的场景，Claude 5 可能就够了——因为模型能力正在可预测地快速提升。此外，利用 AI 来加速 AI 集成本身蕴含巨大杠杆效应，正如电力时代不能只是用电动机替代蒸汽机，需要从根本上重新设计工厂运作方式。
贯穿全场的核心线索是"可预测性"——从物理学家问"最笨的问题"到发现跨越多个数量级的精确趋势线，再到将这种可预测性转化为产品策略建议，Kaplan 的整个思维框架都建立在一个物理学家式的信念之上：趋势一旦在足够多数量级上成立，就可以信任它会继续。

从理论物理到 AI：一个物理学家的转行故事

核心要点：Kaplan 在物理学界辗转多年后转向 AI，最初极度怀疑，但物理学训练——特别是"问最笨的问题"的习惯——成为他发现 scaling laws 的关键优势。

Kaplan 进入 AI 领域仅约六年，此前漫长的职业生涯都在做理论物理。选择物理的原因很私人——母亲是科幻作家，他想搞清楚能不能造出超光速引擎，同时对宇宙的根本问题（确定性、自由意志）充满热情。
在物理学不同方向之间辗转——大型强子对撞机、粒子物理、宇宙学、弦理论——逐渐感到沮丧和无聊，觉得"进展不够快"。
朋友们告诉他 AI 正在变成一件大事，但他非常怀疑："AI 这东西人们已经研究了 50 年了，SVM 也没什么激动人心的——那是我们 2005 年、2009 年读书时唯一了解的东西。"
物理学界的人脉成为关键连接——Anthropic 的很多联合创始人都是他在做物理时结识的同事，现在每天一起工作。

"作为物理学家，你被训练要做的就是看全局，然后问非常笨的问题。" —— Jared Kaplan

Scaling Laws 的发现：跨越多个数量级的精确趋势，精度堪比天文学

核心要点：预训练和强化学习两个阶段都存在 scaling laws，这意味着 AI 进步不是靠研究员"突然变聪明"，而是一种系统性的、可预测的改进方法。

当代 AI 模型（Claude、ChatGPT 等）训练分两个核心阶段：预训练（学习预测下一个词）和强化学习（通过人类偏好反馈优化行为——有帮助、诚实、无害）。
Kaplan 约五六年前发现预训练 scaling laws 的过程极其朴素：他只是在问"最蠢的问题"——"大家说大数据很重要，那数据到底应该有多大？到底有多重要？能帮多少忙？大家说更大的模型更好，那到底好了多少？"
发现的结果令人震撼：AI 训练背后存在"非常非常精确和令人惊讶的整洁趋势线，其精度堪比物理学或天文学中的任何发现"。早在 2019 年，这些趋势已跨越计算量、数据集大小和神经网络规模的很多个数量级。
强化学习阶段的 scaling laws 由 Andy Jones 独立发现——他当时独自一人工作，可能只有一块 GPU，研究不起 AlphaGo 就改用更简单的棋盘游戏 Hex。结果在 ELO 评分上看到了"惊人的直线"。Kaplan 认为这个发现当时被严重忽视。

"不是 AI 研究员特别聪明或者突然变聪明了，而是我们找到了一种非常简单的系统性方法来让 AI 变得更好，然后我们在不断转动这个把手。" —— Jared Kaplan

任务时间跨度每 7 个月翻倍：从分钟级到最终替代整个组织

核心要点：AI 能力的增长正在转化为可完成任务时间跨度的指数级增长。Metr 的经验数据显示约每 7 个月翻倍，当前已达小时级别，按趋势外推几年内可达数天、数周甚至数月。

Kaplan 用两个维度思考 AI 能力：灵活性（Y 轴，从只能下围棋的 AlphaGo 到能处理各种模态的 LLM）和任务时间跨度（X 轴，人类完成同类任务需要多长时间）。他认为 X 轴更有趣。
Metr 机构对此做了系统性研究，发现了又一个 scaling 趋势：AI 模型能完成的任务时长大约每 7 个月翻一倍。当前在软件工程任务上的时间尺度已达"以小时计"。
观众提了一个尖锐问题：预训练 scaling 曲线在 log 尺度上是线性的，为什么任务时间跨度变成了指数增长？Kaplan 的解释很精妙：关键在于自我纠错能力。每修正一个错误，大约就能把任务时间跨度翻一倍——"原来你会卡在某个地方，现在你能走到两倍远的地方才卡住"。这不需要智能的巨大跃升，"相对适度的能力提升"就能解锁越来越长的时间跨度。
终极设想：数百万个 AI 模型协同工作，完成整个人类组织所能做的工作——例如在几天或几周内取得理论物理学界 50 年才能取得的进展。"数学或理论物理的好处是只靠思考就能取得进展"，不需要实验室。

"如果你修正了一个错误，你可能就大约把任务的时间跨度翻了一倍——因为原来你会卡在某个地方，现在你能走到两倍远的地方才卡住。" —— Jared Kaplan

通向人类级别 AI 的三大缺失要素：组织知识、记忆、监督

核心要点：Scaling 能带我们走很远，但要实现广泛的人类级别 AI，还需要在三个关键维度上补齐短板——其中监督问题最具挑战性，因为它决定了 AI 能否处理没有明确对错标准的模糊任务。

组织知识（Organizational Knowledge）： AI 不能像一张白纸一样来迎接你，它需要学会在公司、组织、政府中工作，"就像一个已经在那里工作了好几年、拥有相应背景知识的人"。
记忆（Memory）： 与知识不同，记忆是完成长时间跨度任务时追踪具体进展的能力。Claude 4 已开始构建这一功能——可以把记忆保存为文件或记录，然后检索，从而跨越多个上下文窗口持续工作。Kaplan 认为这会"变得越来越重要"。
监督（Oversight）： 最核心的挑战。当前 AI 在代码测试和数学题上进展爆发，因为"什么是对的什么是错的非常清晰"，RL 容易施加。但真正需要的是更细致的奖励信号——讲好笑话、写好诗、在研究中有好品味，这些模糊任务目前缺乏有效的监督方式。
其他需要的要素相对简单：训练 AI 完成越来越复杂的任务、从文本到多模态再到机器人技术。

Claude 4 的改进方向：从"太急切"到更好的 Agent 能力和记忆

核心要点：Claude 3.7 Sonnet 写代码已经很令人兴奋但"太急切"——会为了通过测试做你不想要的事（比如到处加 try-except）。Claude 4 着力改进了三个方面：Agent 能力、指令遵循和记忆。

Claude 3.7 的问题很具体："有时候它特别想让你的测试通过，会做一些你其实并不想要的事情，比如到处加 try-except 之类的。"
Claude 4 的三大改进方向：（1）提升作为 Agent 的能力——编程、搜索和各种应用；（2）改善监督/oversight 能力，更好地遵循指令，提高代码质量；（3）增强记忆保存和存储能力，在用完上下文窗口后仍能持续工作。
Kaplan 对未来模型的期望："Scaling laws 描绘的是一幅渐进式进步的图景"，每次发布都会在很多方面稳步变好，是一条"通向 AGI 的平滑曲线"。
被问到最兴奋的功能时，Kaplan 回答得很直接：记忆功能解锁越来越长时间跨度的任务。"Claude 将成为一个能承担越来越大块工作的协作者。"

人类与 AI 的智能形态根本不同：AI 的判断力和生成力太接近

核心要点：AI 智能和人类智能存在一个根本性差异——人类"有很多事做不了，但至少能判断别人做得对不对"，而 AI 的判断能力和生成能力非常接近。这意味着人类在协作中应扮演"管理者"角色做理智性检查。

Kaplan 对 AI 怀疑者的立场很坦诚："AI 怀疑者们会很正确地指出 AI 会犯很多蠢的错误——它能做出绝对令人惊艳的事情，但也能犯最基本的错。"
这引出了一个关于人机协作模式转变的讨论。Diana 观察到 YC 往期批次中的趋势：去年公司还在把 AI 当"副驾驶"卖（如客户支持的 co-pilot，发送前需人类审批），但今年春季批次中，创始人已经直接在卖"整个工作流程的替代方案"。
Kaplan 对此的思考很务实：取决于可接受的成功率。"有些任务做到 70% 正确就够了，有些则需要 99.9% 才能部署"。他建议为 70-80% 就够用的场景构建，"因为这样你才能真正触及 AI 能力的前沿"。
长期判断：从人机协作到完全自动化是一个渐进过程。"最复杂的任务需要人在回路中，但从长远来看会有越来越多的任务可以完全自动化。"

AI 的知识广度红利：深度 vs 广度，整合型智能才是当前最大机会

核心要点：AI 不仅在变深（解决难题），更独特的优势在于广度——它在预训练中吸收了人类文明全部知识，能整合没有任何单个人类专家同时拥有的跨领域信息。这个"广度红利"可能是当前最大的未开发机会。

Kaplan 把智能分为两类：需要深度的（如花十年证明黎曼猜想或费马大定理）和需要广度的（整合大量跨领域信息片段）。
AI 在深度任务上进展很快——困难编程、困难数学。但 Kaplan 认为广度型任务才是"存在一个特别大的红利窗口"的地方：生物学中的跨领域研究、心理学、历史学等需要"把许多不同专业领域的知识结合在一起"的领域。
具体落地方面，Kaplan 在和做生物医学研究的人交流中发现，"如果有恰当的编排（orchestration），用当前前沿模型已经可以为药物研发等方向产出有趣有价值的洞见"。
其他绿地领域的判断：金融（大量使用 Excel 的人群）、法律（虽然监管更多、需要专业资质背书）。Kaplan 坦言自己"背景是研究而不是商业"，不确定能说出特别深刻的东西。

"AI 模型在预训练阶段吸收了人类文明的全部知识……把许多不同专业领域的知识结合在一起来产出洞见，这里面有很多可以收获的果实。" —— Jared Kaplan

给创业者的建议：在 AI 能力边界上构建，用 AI 加速 AI 集成

核心要点：AI 能力边界正在快速移动，今天"还差一点就能用"的产品明天可能就能用了——所以去边界上构建。同时，利用 AI 来加速 AI 自身的集成是一个巨大的杠杆机会。

"还差一点就能用"策略： "如果你构建了一个产品，它因为 Claude 4 还不够聪明而差一点才能用，你可以期待 Claude 5 的到来会让这个产品真正运转起来并创造巨大价值。"
用 AI 集成 AI： AI 当前的主要瓶颈之一是"它发展太快了，我们还没来得及把它集成到产品、公司以及其他所有事情中"。利用 AI 来帮助 AI 集成将释放巨大价值。
电力时代的类比： 当年电力出现时有一个很长的采纳周期——"你不能只是用电动机替代蒸汽机，你需要从根本上重新设计工厂的运作方式"。AI 集成同理，存在"巨大的杠杆效应"。
AI 采纳速度最快的领域是关键： 编程领域正在爆发式增长，因为软件工程是 AI 绝佳应用场景。"但下一个是什么？"——Kaplan 坦言不知道答案。

物理学训练如何帮助 AI 研究：精确化你看到的趋势是最大的"工具"

核心要点：物理学给 Kaplan 的不是量子场论之类的具体技术，而是一种思维方式——寻找最宏观的大图景趋势，然后将其精确化。"在试图尽可能精确地描述你看到的大趋势方面，有很多唾手可得的成果。"

Diana 问物理学训练如何帮助做世界顶尖 AI 研究。Kaplan 的回答聚焦在一种思维习惯上：遇到 AI 研究员说"学习在指数收敛"时，他就追问"你确定是指数吗？会不会只是幂律？是二次的吗？这东西到底是怎么收敛的？"——"非常笨、非常简单的问题"。
精确化的价值在于获得工具："对 scaling laws 来说，圣杯就是找到一个更好的斜率——这意味着投入更多算力时优势会越来越大。但在精确化之前，你不知道'击败它'意味着什么。"
Diana 追问重整化、对称性等具体物理工具。Kaplan 提到：神经网络由大矩阵构成（数十亿甚至数万亿参数），取"矩阵非常大的极限"这种物理学中已知的近似方法确实有用。但"总的来说，问非常天真的笨问题才是最能让你走远的"。
关于可解释性，Kaplan 认为"更像生物学、更像神经科学"，AI 相比神经科学的优势在于"你可以真正测量 AI 中的一切"——你做不到测量大脑中每个神经元的活动。

"不是把量子场论之类的东西应用到 AI 上——那就太具体了。" —— Jared Kaplan

Scaling Laws 会失效吗？"太多次看似失效了，结果是我们的做法不对"

核心要点：Kaplan 对 scaling laws 失效持极度怀疑态度。在他过去五年的经验中，每次看似 scaling 失效，最后都发现是训练中出了问题——架构选错、算法精度不够、某个隐藏瓶颈。

Diana 问了一个逆向问题：什么样的经验证据会让你相信曲线正在变化？
Kaplan 的第一反应很有意思：他主要用 scaling laws 来"诊断 AI 训练是否出了问题"——趋势偏离意味着有 bug，而不是规律失效。
"要让我相信 scaling 在这些经验定律层面真的不再有效，需要非常多的证据——因为太多次看似 scaling 失效了，结果其实是我们的做法不对。"可能是选错了架构、训练中有看不到的瓶颈、或算法精度有问题。
这种态度本身就是 scaling laws 信仰者的典型思维——趋势如此强健，偏离更可能是错误而非规律终结。

算力效率与前沿的博弈：AI 远未达到均衡态，Jevons 悖论在起作用

核心要点：当前 AI 发展"非常不在均衡状态"——前沿能力解锁比效率优化更受关注。每年在算法和推理效率上有 3-10 倍提升，但均衡态（AI 变得极其便宜）可能永远不会到来，因为智能提升会持续释放新需求。

Diana 问到算力稀缺时怎么办：会探索 FP4 甚至三值表示吗？
Kaplan 确认精度会越来越低（"有个段子说我们要让计算机回归二进制了"），但这只是让推理更高效的众多途径之一。
当前状态的关键描述："AI 在快速进步，我们还没有完全实现当前模型的全部潜力，但同时又在不断解锁更多能力。"均衡态应该是 AI 极其便宜的状态，但可能永远到不了。
Diana 将此与 Jevons 悖论联系——智能越好人们反而要更多。Kaplan 完全同意。
关于价值是否集中在前沿，Kaplan 的思考是：较弱模型可以完成很多简单小任务，但"用一个 AI 模型端到端地完成一个非常复杂的任务显然方便得多，而不是人类去编排一个笨得多的模型把任务切成小片段"。他倾向于认为"很多价值会来自最强的模型"，但也承认"可能是错的"。

RL 训练的前沿：用 AI 监督 AI，而非等六七年后给一个对错信号

核心要点：最理想的 RL 训练路径是让另一个 AI 模型提供细粒度监督——不是等任务完全结束后才判定对错（那太低效了），而是在过程中告诉模型"这部分做得好，那部分做得不好"。

观众提了一个深入的技术问题：增加任务时间跨度需要逐步获得验证信号，编程领域有天然的产品闭环（Claude agent 获取验证信号后迭代改进），但其他领域怎么办？是不是只能靠不断扩大数据标注直到 AGI？
Kaplan 把"最坏情况"路径说得很清楚：不断为 AI 构建越来越复杂、越来越长时间跨度的任务，然后用 RL 在上面训练。"考虑到当前的投资水平和 AI 正在创造的价值，如果有必要人们会这么做的。"
但更优路径存在：用 AI 模型来监督训练。关键是不能只在最后给信号——Kaplan 用了一个生动的例子："你不可能把'有没有成为教授并拿到终身教职'当做一个端到端任务，等六七年后才给一个对或错的信号，那太荒谬了。"更好的方式是提供过程中的细粒度反馈。
关于用 LLM 来生成 RL 训练任务：Kaplan 确认是"混合的"——尽可能用 AI 生成（比如用代码创建任务），同时人类也在参与。"任务的难度前沿在同步提升，所以人类仍然会参与其中。"

"你不可能把'有没有成为教授并拿到终身教职'当做一个端到端任务，等六七年后才给一个对或错的信号，那太荒谬了，太低效了。" —— Jared Kaplan

附录：关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Jared Kaplan | Anthropic 联合创始人，前理论物理学家，scaling laws 的核心发现者之一 |

| Diana | Y Combinator 主持人，负责本次炉边对话环节 |

| Anthropic | AI 安全公司，开发 Claude 系列模型 |

| Claude 4 | Anthropic 最新发布模型，改进了 Agent 能力、指令遵循和记忆功能 |

| Claude 3.7 Sonnet | 前代模型，编程能力令人兴奋但"太急切"，会为通过测试做不必要操作 |

| Andy Jones | 研究员，独自一人用一块 GPU 在 Hex 游戏上发现了 RL 阶段的 scaling laws |

| Metr | 研究机构，系统性研究 AI 任务时间跨度增长趋势，发现约每 7 个月翻倍 |

| AI 2027 | 报告/研究，基于任务时间跨度趋势外推 AI 未来几年能力发展 |

| Dario Amodei | Anthropic CEO，撰写过《Machines of Love and Grace》描绘 AI 乐观图景 |

| 任务时间跨度翻倍周期 | 约 7 个月（Metr 经验数据） |

| 算法/推理效率年提升 | 约 3-10 倍 |

| Scaling laws 观测历史 | 约五六年前首次发现预训练 scaling laws；约四年前 Andy Jones 发现 RL scaling laws |

| Hex | 比围棋简单的棋盘游戏，Andy Jones 用来验证 RL scaling laws（因研究不起 AlphaGo） |

| ELO 评分 | 源自国际象棋的等级分系统，现被广泛用于评估 AI 模型的人类偏好 |

| Jevons 悖论 | 效率提升反而导致需求增加而非减少——Diana 用来描述 AI 智能越好需求越大的现象 |

| 预训练 | AI 训练第一阶段：学习预测下一个词，理解数据关联模式 |

| 强化学习（RL） | AI 训练第二阶段：通过人类偏好反馈优化行为 |