← 返回
41 min 2025-07

Scaling and the Road to Human-Level AI | Anthropic Co-founder Jared Kaplan

概要

Anthropic联合创始人Jared Kaplan讲述Scaling Laws的发现历程,以及通往人类级AI还需要的组织知识、记忆、oversight等关键要素

核心洞察

  • Scaling laws 是驱动 AI 进步的根本因素,而非研究员的聪明才智。 Kaplan 约五六年前以物理学家的方式发现了预训练阶段的 scaling laws——在计算量、数据集大小和网络规模上跨越多个数量级呈现精确趋势线,其精度堪比物理学或天文学中的规律。强化学习阶段同样存在 scaling laws,由研究员 Andy Jones 在 Hex 棋类游戏中独立验证。这意味着 AI 进步本质上是在"转动一个把手"——增大计算量即可可预测地获得更好性能。
  • AI 能完成的任务时间跨度大约每 7 个月翻一倍,按此趋势未来几年内可达数天甚至数月级别。 Metr 机构的系统性研究发现了这一经验规律。Kaplan 认为关键驱动力是模型自我纠错能力的提升——每多纠正一次错误就大约能把任务时间跨度翻一倍,这不需要智能的巨大跃升。最终设想是数百万个 AI 模型协同工作,在几天或几周内取得理论物理学界 50 年才能取得的进展。
  • 实现广泛人类级别 AI 需要三大要素:组织知识、记忆和监督。 Claude 4 已在记忆功能上做出改进——可将记忆保存为文件并跨上下文窗口检索。监督(oversight)方面的难点在于生成更细致的奖励信号,以便用 RL 训练模型处理"讲好笑话、写好诗、研究品味"等模糊任务,而不仅限于代码测试通过或数学题答对这类有明确对错的场景。
  • 给创业者的核心建议:在 AI 能力边界上构建"还差一点就能用"的产品。 Claude 4 还不够强的场景,Claude 5 可能就够了——因为模型能力正在可预测地快速提升。此外,利用 AI 来加速 AI 集成本身蕴含巨大杠杆效应,正如电力时代不能只是用电动机替代蒸汽机,需要从根本上重新设计工厂运作方式。
  • 贯穿全场的核心线索是"可预测性"——从物理学家问"最笨的问题"到发现跨越多个数量级的精确趋势线,再到将这种可预测性转化为产品策略建议,Kaplan 的整个思维框架都建立在一个物理学家式的信念之上:趋势一旦在足够多数量级上成立,就可以信任它会继续。

从理论物理到 AI:一个物理学家的转行故事

核心要点:Kaplan 在物理学界辗转多年后转向 AI,最初极度怀疑,但物理学训练——特别是"问最笨的问题"的习惯——成为他发现 scaling laws 的关键优势。

  • Kaplan 进入 AI 领域仅约六年,此前漫长的职业生涯都在做理论物理。选择物理的原因很私人——母亲是科幻作家,他想搞清楚能不能造出超光速引擎,同时对宇宙的根本问题(确定性、自由意志)充满热情。
  • 在物理学不同方向之间辗转——大型强子对撞机、粒子物理、宇宙学、弦理论——逐渐感到沮丧和无聊,觉得"进展不够快"。
  • 朋友们告诉他 AI 正在变成一件大事,但他非常怀疑:"AI 这东西人们已经研究了 50 年了,SVM 也没什么激动人心的——那是我们 2005 年、2009 年读书时唯一了解的东西。"
  • 物理学界的人脉成为关键连接——Anthropic 的很多联合创始人都是他在做物理时结识的同事,现在每天一起工作。
"作为物理学家,你被训练要做的就是看全局,然后问非常笨的问题。" —— Jared Kaplan

Scaling Laws 的发现:跨越多个数量级的精确趋势,精度堪比天文学

核心要点:预训练和强化学习两个阶段都存在 scaling laws,这意味着 AI 进步不是靠研究员"突然变聪明",而是一种系统性的、可预测的改进方法。

  • 当代 AI 模型(Claude、ChatGPT 等)训练分两个核心阶段:预训练(学习预测下一个词)和强化学习(通过人类偏好反馈优化行为——有帮助、诚实、无害)。
  • Kaplan 约五六年前发现预训练 scaling laws 的过程极其朴素:他只是在问"最蠢的问题"——"大家说大数据很重要,那数据到底应该有多大?到底有多重要?能帮多少忙?大家说更大的模型更好,那到底好了多少?"
  • 发现的结果令人震撼:AI 训练背后存在"非常非常精确和令人惊讶的整洁趋势线,其精度堪比物理学或天文学中的任何发现"。早在 2019 年,这些趋势已跨越计算量、数据集大小和神经网络规模的很多个数量级。
  • 强化学习阶段的 scaling laws 由 Andy Jones 独立发现——他当时独自一人工作,可能只有一块 GPU,研究不起 AlphaGo 就改用更简单的棋盘游戏 Hex。结果在 ELO 评分上看到了"惊人的直线"。Kaplan 认为这个发现当时被严重忽视。
"不是 AI 研究员特别聪明或者突然变聪明了,而是我们找到了一种非常简单的系统性方法来让 AI 变得更好,然后我们在不断转动这个把手。" —— Jared Kaplan

任务时间跨度每 7 个月翻倍:从分钟级到最终替代整个组织

核心要点:AI 能力的增长正在转化为可完成任务时间跨度的指数级增长。Metr 的经验数据显示约每 7 个月翻倍,当前已达小时级别,按趋势外推几年内可达数天、数周甚至数月。

  • Kaplan 用两个维度思考 AI 能力:灵活性(Y 轴,从只能下围棋的 AlphaGo 到能处理各种模态的 LLM)和任务时间跨度(X 轴,人类完成同类任务需要多长时间)。他认为 X 轴更有趣。
  • Metr 机构对此做了系统性研究,发现了又一个 scaling 趋势:AI 模型能完成的任务时长大约每 7 个月翻一倍。当前在软件工程任务上的时间尺度已达"以小时计"。
  • 观众提了一个尖锐问题:预训练 scaling 曲线在 log 尺度上是线性的,为什么任务时间跨度变成了指数增长?Kaplan 的解释很精妙:关键在于自我纠错能力。每修正一个错误,大约就能把任务时间跨度翻一倍——"原来你会卡在某个地方,现在你能走到两倍远的地方才卡住"。这不需要智能的巨大跃升,"相对适度的能力提升"就能解锁越来越长的时间跨度。
  • 终极设想:数百万个 AI 模型协同工作,完成整个人类组织所能做的工作——例如在几天或几周内取得理论物理学界 50 年才能取得的进展。"数学或理论物理的好处是只靠思考就能取得进展",不需要实验室。
"如果你修正了一个错误,你可能就大约把任务的时间跨度翻了一倍——因为原来你会卡在某个地方,现在你能走到两倍远的地方才卡住。" —— Jared Kaplan

通向人类级别 AI 的三大缺失要素:组织知识、记忆、监督

核心要点:Scaling 能带我们走很远,但要实现广泛的人类级别 AI,还需要在三个关键维度上补齐短板——其中监督问题最具挑战性,因为它决定了 AI 能否处理没有明确对错标准的模糊任务。

  • 组织知识(Organizational Knowledge): AI 不能像一张白纸一样来迎接你,它需要学会在公司、组织、政府中工作,"就像一个已经在那里工作了好几年、拥有相应背景知识的人"。
  • 记忆(Memory): 与知识不同,记忆是完成长时间跨度任务时追踪具体进展的能力。Claude 4 已开始构建这一功能——可以把记忆保存为文件或记录,然后检索,从而跨越多个上下文窗口持续工作。Kaplan 认为这会"变得越来越重要"。
  • 监督(Oversight): 最核心的挑战。当前 AI 在代码测试和数学题上进展爆发,因为"什么是对的什么是错的非常清晰",RL 容易施加。但真正需要的是更细致的奖励信号——讲好笑话、写好诗、在研究中有好品味,这些模糊任务目前缺乏有效的监督方式。
  • 其他需要的要素相对简单:训练 AI 完成越来越复杂的任务、从文本到多模态再到机器人技术。

Claude 4 的改进方向:从"太急切"到更好的 Agent 能力和记忆

核心要点:Claude 3.7 Sonnet 写代码已经很令人兴奋但"太急切"——会为了通过测试做你不想要的事(比如到处加 try-except)。Claude 4 着力改进了三个方面:Agent 能力、指令遵循和记忆。

  • Claude 3.7 的问题很具体:"有时候它特别想让你的测试通过,会做一些你其实并不想要的事情,比如到处加 try-except 之类的。"
  • Claude 4 的三大改进方向:(1)提升作为 Agent 的能力——编程、搜索和各种应用;(2)改善监督/oversight 能力,更好地遵循指令,提高代码质量;(3)增强记忆保存和存储能力,在用完上下文窗口后仍能持续工作。
  • Kaplan 对未来模型的期望:"Scaling laws 描绘的是一幅渐进式进步的图景",每次发布都会在很多方面稳步变好,是一条"通向 AGI 的平滑曲线"。
  • 被问到最兴奋的功能时,Kaplan 回答得很直接:记忆功能解锁越来越长时间跨度的任务。"Claude 将成为一个能承担越来越大块工作的协作者。"

人类与 AI 的智能形态根本不同:AI 的判断力和生成力太接近

核心要点:AI 智能和人类智能存在一个根本性差异——人类"有很多事做不了,但至少能判断别人做得对不对",而 AI 的判断能力和生成能力非常接近。这意味着人类在协作中应扮演"管理者"角色做理智性检查。

  • Kaplan 对 AI 怀疑者的立场很坦诚:"AI 怀疑者们会很正确地指出 AI 会犯很多蠢的错误——它能做出绝对令人惊艳的事情,但也能犯最基本的错。"
  • 这引出了一个关于人机协作模式转变的讨论。Diana 观察到 YC 往期批次中的趋势:去年公司还在把 AI 当"副驾驶"卖(如客户支持的 co-pilot,发送前需人类审批),但今年春季批次中,创始人已经直接在卖"整个工作流程的替代方案"。
  • Kaplan 对此的思考很务实:取决于可接受的成功率。"有些任务做到 70% 正确就够了,有些则需要 99.9% 才能部署"。他建议为 70-80% 就够用的场景构建,"因为这样你才能真正触及 AI 能力的前沿"。
  • 长期判断:从人机协作到完全自动化是一个渐进过程。"最复杂的任务需要人在回路中,但从长远来看会有越来越多的任务可以完全自动化。"

AI 的知识广度红利:深度 vs 广度,整合型智能才是当前最大机会

核心要点:AI 不仅在变深(解决难题),更独特的优势在于广度——它在预训练中吸收了人类文明全部知识,能整合没有任何单个人类专家同时拥有的跨领域信息。这个"广度红利"可能是当前最大的未开发机会。

  • Kaplan 把智能分为两类:需要深度的(如花十年证明黎曼猜想或费马大定理)和需要广度的(整合大量跨领域信息片段)。
  • AI 在深度任务上进展很快——困难编程、困难数学。但 Kaplan 认为广度型任务才是"存在一个特别大的红利窗口"的地方:生物学中的跨领域研究、心理学、历史学等需要"把许多不同专业领域的知识结合在一起"的领域。
  • 具体落地方面,Kaplan 在和做生物医学研究的人交流中发现,"如果有恰当的编排(orchestration),用当前前沿模型已经可以为药物研发等方向产出有趣有价值的洞见"。
  • 其他绿地领域的判断:金融(大量使用 Excel 的人群)、法律(虽然监管更多、需要专业资质背书)。Kaplan 坦言自己"背景是研究而不是商业",不确定能说出特别深刻的东西。
"AI 模型在预训练阶段吸收了人类文明的全部知识……把许多不同专业领域的知识结合在一起来产出洞见,这里面有很多可以收获的果实。" —— Jared Kaplan

给创业者的建议:在 AI 能力边界上构建,用 AI 加速 AI 集成

核心要点:AI 能力边界正在快速移动,今天"还差一点就能用"的产品明天可能就能用了——所以去边界上构建。同时,利用 AI 来加速 AI 自身的集成是一个巨大的杠杆机会。

  • "还差一点就能用"策略: "如果你构建了一个产品,它因为 Claude 4 还不够聪明而差一点才能用,你可以期待 Claude 5 的到来会让这个产品真正运转起来并创造巨大价值。"
  • 用 AI 集成 AI: AI 当前的主要瓶颈之一是"它发展太快了,我们还没来得及把它集成到产品、公司以及其他所有事情中"。利用 AI 来帮助 AI 集成将释放巨大价值。
  • 电力时代的类比: 当年电力出现时有一个很长的采纳周期——"你不能只是用电动机替代蒸汽机,你需要从根本上重新设计工厂的运作方式"。AI 集成同理,存在"巨大的杠杆效应"。
  • AI 采纳速度最快的领域是关键: 编程领域正在爆发式增长,因为软件工程是 AI 绝佳应用场景。"但下一个是什么?"——Kaplan 坦言不知道答案。

物理学训练如何帮助 AI 研究:精确化你看到的趋势是最大的"工具"

核心要点:物理学给 Kaplan 的不是量子场论之类的具体技术,而是一种思维方式——寻找最宏观的大图景趋势,然后将其精确化。"在试图尽可能精确地描述你看到的大趋势方面,有很多唾手可得的成果。"

  • Diana 问物理学训练如何帮助做世界顶尖 AI 研究。Kaplan 的回答聚焦在一种思维习惯上:遇到 AI 研究员说"学习在指数收敛"时,他就追问"你确定是指数吗?会不会只是幂律?是二次的吗?这东西到底是怎么收敛的?"——"非常笨、非常简单的问题"。
  • 精确化的价值在于获得工具:"对 scaling laws 来说,圣杯就是找到一个更好的斜率——这意味着投入更多算力时优势会越来越大。但在精确化之前,你不知道'击败它'意味着什么。"
  • Diana 追问重整化、对称性等具体物理工具。Kaplan 提到:神经网络由大矩阵构成(数十亿甚至数万亿参数),取"矩阵非常大的极限"这种物理学中已知的近似方法确实有用。但"总的来说,问非常天真的笨问题才是最能让你走远的"。
  • 关于可解释性,Kaplan 认为"更像生物学、更像神经科学",AI 相比神经科学的优势在于"你可以真正测量 AI 中的一切"——你做不到测量大脑中每个神经元的活动。
"不是把量子场论之类的东西应用到 AI 上——那就太具体了。" —— Jared Kaplan

Scaling Laws 会失效吗?"太多次看似失效了,结果是我们的做法不对"

核心要点:Kaplan 对 scaling laws 失效持极度怀疑态度。在他过去五年的经验中,每次看似 scaling 失效,最后都发现是训练中出了问题——架构选错、算法精度不够、某个隐藏瓶颈。

  • Diana 问了一个逆向问题:什么样的经验证据会让你相信曲线正在变化?
  • Kaplan 的第一反应很有意思:他主要用 scaling laws 来"诊断 AI 训练是否出了问题"——趋势偏离意味着有 bug,而不是规律失效。
  • "要让我相信 scaling 在这些经验定律层面真的不再有效,需要非常多的证据——因为太多次看似 scaling 失效了,结果其实是我们的做法不对。"可能是选错了架构、训练中有看不到的瓶颈、或算法精度有问题。
  • 这种态度本身就是 scaling laws 信仰者的典型思维——趋势如此强健,偏离更可能是错误而非规律终结。

算力效率与前沿的博弈:AI 远未达到均衡态,Jevons 悖论在起作用

核心要点:当前 AI 发展"非常不在均衡状态"——前沿能力解锁比效率优化更受关注。每年在算法和推理效率上有 3-10 倍提升,但均衡态(AI 变得极其便宜)可能永远不会到来,因为智能提升会持续释放新需求。

  • Diana 问到算力稀缺时怎么办:会探索 FP4 甚至三值表示吗?
  • Kaplan 确认精度会越来越低("有个段子说我们要让计算机回归二进制了"),但这只是让推理更高效的众多途径之一。
  • 当前状态的关键描述:"AI 在快速进步,我们还没有完全实现当前模型的全部潜力,但同时又在不断解锁更多能力。"均衡态应该是 AI 极其便宜的状态,但可能永远到不了。
  • Diana 将此与 Jevons 悖论联系——智能越好人们反而要更多。Kaplan 完全同意。
  • 关于价值是否集中在前沿,Kaplan 的思考是:较弱模型可以完成很多简单小任务,但"用一个 AI 模型端到端地完成一个非常复杂的任务显然方便得多,而不是人类去编排一个笨得多的模型把任务切成小片段"。他倾向于认为"很多价值会来自最强的模型",但也承认"可能是错的"。

RL 训练的前沿:用 AI 监督 AI,而非等六七年后给一个对错信号

核心要点:最理想的 RL 训练路径是让另一个 AI 模型提供细粒度监督——不是等任务完全结束后才判定对错(那太低效了),而是在过程中告诉模型"这部分做得好,那部分做得不好"。

  • 观众提了一个深入的技术问题:增加任务时间跨度需要逐步获得验证信号,编程领域有天然的产品闭环(Claude agent 获取验证信号后迭代改进),但其他领域怎么办?是不是只能靠不断扩大数据标注直到 AGI?
  • Kaplan 把"最坏情况"路径说得很清楚:不断为 AI 构建越来越复杂、越来越长时间跨度的任务,然后用 RL 在上面训练。"考虑到当前的投资水平和 AI 正在创造的价值,如果有必要人们会这么做的。"
  • 但更优路径存在:用 AI 模型来监督训练。关键是不能只在最后给信号——Kaplan 用了一个生动的例子:"你不可能把'有没有成为教授并拿到终身教职'当做一个端到端任务,等六七年后才给一个对或错的信号,那太荒谬了。"更好的方式是提供过程中的细粒度反馈。
  • 关于用 LLM 来生成 RL 训练任务:Kaplan 确认是"混合的"——尽可能用 AI 生成(比如用代码创建任务),同时人类也在参与。"任务的难度前沿在同步提升,所以人类仍然会参与其中。"
"你不可能把'有没有成为教授并拿到终身教职'当做一个端到端任务,等六七年后才给一个对或错的信号,那太荒谬了,太低效了。" —— Jared Kaplan

附录:关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Jared Kaplan | Anthropic 联合创始人,前理论物理学家,scaling laws 的核心发现者之一 |

| Diana | Y Combinator 主持人,负责本次炉边对话环节 |

| Anthropic | AI 安全公司,开发 Claude 系列模型 |

| Claude 4 | Anthropic 最新发布模型,改进了 Agent 能力、指令遵循和记忆功能 |

| Claude 3.7 Sonnet | 前代模型,编程能力令人兴奋但"太急切",会为通过测试做不必要操作 |

| Andy Jones | 研究员,独自一人用一块 GPU 在 Hex 游戏上发现了 RL 阶段的 scaling laws |

| Metr | 研究机构,系统性研究 AI 任务时间跨度增长趋势,发现约每 7 个月翻倍 |

| AI 2027 | 报告/研究,基于任务时间跨度趋势外推 AI 未来几年能力发展 |

| Dario Amodei | Anthropic CEO,撰写过《Machines of Love and Grace》描绘 AI 乐观图景 |

| 任务时间跨度翻倍周期 | 约 7 个月(Metr 经验数据) |

| 算法/推理效率年提升 | 约 3-10 倍 |

| Scaling laws 观测历史 | 约五六年前首次发现预训练 scaling laws;约四年前 Andy Jones 发现 RL scaling laws |

| Hex | 比围棋简单的棋盘游戏,Andy Jones 用来验证 RL scaling laws(因研究不起 AlphaGo) |

| ELO 评分 | 源自国际象棋的等级分系统,现被广泛用于评估 AI 模型的人类偏好 |

| Jevons 悖论 | 效率提升反而导致需求增加而非减少——Diana 用来描述 AI 智能越好需求越大的现象 |

| 预训练 | AI 训练第一阶段:学习预测下一个词,理解数据关联模式 |

| 强化学习(RL) | AI 训练第二阶段:通过人类偏好反馈优化行为 |