96 min 2025-11

Ilya Sutskever – We're moving from the age of scaling to the age of research

Dwarkesh Patel · Ilya Sutskever

查看原始内容 →

概要

Ilya Sutskever 访谈：从规模化时代到研究时代、SSI 战略定位、超级智能重新定义、价值函数与情绪系统、AI 安全终局

核心洞察

被访者：Ilya Sutskever，SSI（Safe Superintelligence Inc.）联合创始人，前 OpenAI 首席科学家

访谈者：Dwarkesh Patel

时长：96 分钟

核心论点：当前 AI 的根本瓶颈不是算力或数据，而是"泛化能力"远逊于人类；行业正从"规模化时代"重返"研究时代"；超级智能应被定义为"能像人一样快速学习的心智"而非"已掌握一切技能的成品"；安全的终极方案是让 AI 从根本上关怀有感知能力的生命。

Executive Summary

Ilya Sutskever 在本次访谈中系统阐述了他对 AI 发展阶段、技术瓶颈与安全战略的最新思考。他认为 2020-2025 年的"规模化时代"正在结束，行业将重返以突破性想法驱动的"研究时代"——只是研究者手里多了大型集群。当前模型在 eval 上表现惊艳但经济影响滞后，根源在于 RL 训练过度拟合评测、模型泛化能力从根本上弱于人类。他将人类的学习优势归结为：进化赋予的"价值函数"（情绪系统）提供了极其鲁棒的自我纠正信号，使人能用极少样本在全新领域快速学习。SSI 的技术路线正是围绕"理解并实现可靠泛化"展开。在安全层面，他提出超级智能应被设计为"关怀有感知能力的生命"，而非仅服从人类指令，并坦言如果时间线较长，SSI 可能放弃"直奔超级智能"的策略，转而渐进发布产品——因为"展示 AI"本身就是让世界做好准备的最有效方式。他预测超级智能将在 5-20 年内出现，届时多家公司将在安全策略上趋同。

Eval 亮眼与经济影响脱节：RL 训练的"过拟合陷阱"

当前模型在各类 eval 上表现极强，但实际经济影响远远滞后——"模型看起来比它们的经济影响聪明得多"，这是当前最令人困惑的现象之一
典型案例：用 vibe coding 修 bug 时，模型修复一个 bug 会引入第二个 bug，告知后又恢复第一个 bug，陷入两个 bug 之间的死循环——"这怎么可能？"
解释一（推测性）：RL 训练使模型变得过于单一聚焦（single-minded），在某些维度上变得更"有意识"的同时，在基本层面反而变得"无意识"
解释二（结构性）：预训练时代数据选择的答案是"所有数据"，无需思考；但 RL 训练时，各公司团队必须手工设计 RL 环境和课程——从业者自然从 eval 汲取灵感，导致训练环境与评测高度耦合
类比竞赛编程：学生 A 刷 10000 小时竞赛题成为顶尖选手，学生 B 只练 100 小时但具备"it factor"——职业发展中学生 B 远胜学生 A；当前模型更像学生 A 的极端版本
"真正的 reward hacking 是人类研究者自己过度关注 eval"——这句话精准概括了当前 RL 训练的系统性偏差

金句："If you combine this with generalization of the models actually being inadequate, that has the potential to explain a lot of what we are seeing — this disconnect between eval performance and actual real-world performance."

人类 vs. AI 的泛化鸿沟：当前 AI 最根本的短板

Ilya 认为模型泛化能力远逊于人类是"super obvious"的事实，也是最根本的技术问题
两个子问题需要区分：(1) 样本效率——为何模型需要比人类多几个数量级的数据？(2) 可教性——为何教模型学东西比教人类困难得多？人类不需要可验证的奖励信号就能从导师的思维方式中学习
进化可能解释了视觉、听觉、运动等领域的人类优势（祖先数亿年的进化先验），但数学、编程等晚近技能中人类仍然在学习能力上碾压 AI——这暗示人类可能拥有某种更根本的、与领域无关的优秀学习算法
Yann LeCun 曾指出儿童 10 小时就能学会开车，Ilya 补充：5 岁时他对汽车的视觉识别已足以胜任驾驶——但人类 5 岁前的数据多样性极低（大部分时间在父母家中），却已具备惊人泛化能力
人类学习的特征：样本少、更无监督、更鲁棒——"人类的鲁棒性是惊人的（staggering）"
Ilya 坦言他对解决方案有想法，但"able to discuss in detail 的条件不允许"——这些想法正是 SSI 的技术核心

金句："If people exhibit great ability, reliability, robustness, and ability to learn in a domain that really did not exist until recently, then this is more an indication that people might have just better machine learning, period."

价值函数与情绪系统：人类学习引擎中被忽视的关键组件

当前 RL 训练的朴素做法：模型产生完整轨迹后才获得奖励信号，中间无任何反馈——对长时序任务极不高效
价值函数允许中间评估：下棋丢子时立刻知道犯了错，无需等到终局；编程探索 1000 步后发现方向不对，可立即回传负信号——这将大幅提升 RL 效率
DeepSeek R1 论文曾质疑"轨迹空间太大，难以学习中间状态到价值的映射"——Ilya 直言"这是对深度学习的缺乏信心"，他坚信价值函数未来必将被使用
人类的情绪系统本质上就是进化硬编码的价值函数：引用一个脑损伤案例——一位患者丧失情绪处理能力后，虽仍能解谜和通过测试，但做任何决策都变得极其困难（选袜子要花几小时，做出糟糕的财务决策）
情绪的独特优势在于"复杂度-鲁棒性权衡"：情绪相对简单，因此在与进化环境完全不同的现代世界中仍然有效——但也会犯错（如在食物充裕的世界中，饥饿感无法正确引导饮食）
青少年学开车：无需外部教师的可验证奖励，情绪系统（紧张、不自信的感觉）就是即时反馈信号，10 小时后即可独立驾驶

金句："Whatever the human value function is, with a few exceptions around addiction, it's actually very, very robust."

从"规模化时代"重返"研究时代"

Ilya 划分 AI 发展三个阶段：2012-2020 研究时代 → 2020-2025 规模化时代 → 2025 起重返研究时代（只是研究者手中有了大型集群）
"Scaling"一词的强大之处：一个词就告诉所有人该做什么，公司也爱它——低风险投资（与"让研究者自由探索"相比）
预训练的数据有限且终将耗尽；RL 目前消耗的算力已超过预训练（长 rollout 导致计算量极大但每次 rollout 的学习量很小）
关键转变："100 倍算力能否带来质变？"——Ilya 不认为如此，规模化的边际收益正在递减
"规模化吸走了房间里所有的空气"——所有人都在做同样的事，导致"公司比想法多得多"
硅谷名言"ideas are cheap, execution is everything"的反驳：Twitter 上有人说"如果想法这么廉价，为什么没人有想法？"——Ilya 深表认同
历史参照：AlexNet 用 2 块 GPU、Transformer 用 8-64 块 2017 年 GPU（约等于今天 2 块）、o1 推理也不是算力最重的突破——真正的研究突破不需要最大规模算力

金句："One consequence of the age of scaling is that scaling sucked out all the air in the room. We got to the point where there are more companies than ideas by quite a bit."

SSI 的战略定位：$30 亿研究资金与"直奔超级智能"路线

SSI 已融资 $30 亿，正以 $320 亿估值进行新一轮融资（此前 Meta 试图收购被 Ilya 拒绝，前联合创始人/CEO 因此离开加入 Meta）
表面上看 SSI 资金远少于 OpenAI（后者仅实验就每年花费 $50-60 亿），但 Ilya 指出：大公司大量算力用于推理、产品工程和销售团队，实际可用于纯研究的比例远低于外界想象——差距因此大幅缩小
"直奔超级智能"策略的优势：不受市场竞争的日常 rat race 干扰，无需做痛苦的产品取舍
但 Ilya 坦承两个可能改变策略的原因：(1) 如果时间线拉长（pragmatic）；(2) 让世界看到强大 AI 本身就有巨大价值——"展示 AI"比任何文章都更有说服力
SSI 自我定位为"研究时代的公司"（squarely an "age of research" company），过去一年取得了"相当好的进展"，核心研究方向围绕"理解可靠泛化"
前联合创始人离开的背景：并非因为缺乏突破，而是 Meta 收购要约带来的近期流动性诱惑——"他是唯一一个从 SSI 离开加入 Meta 的人"

金句："If you are doing something different, do you really need the absolute maximal scale to prove it? I don't think that's true at all."

重新定义超级智能：不是"全知成品"而是"超级学习者"

AGI 一词的起源是对"narrow AI"的反动——棋类 AI 虽能击败卡斯帕罗夫但啥也不会做，于是有人说需要"通用 AI"
预训练强化了 AGI 的概念：更多预训练让模型在所有方面均匀变好，"通用 AI + 预训练"形成完美叙事
但人类本身并不是 AGI——人类缺乏大量知识，依赖持续学习（continual learning）
Ilya 提出的超级智能定义：一个"超级聪明的 15 岁少年"——极其渴望学习、学习速度极快，但初始状态知识有限，需要在部署中不断学习
部署本身就是学习过程：如同人类新员工加入组织，AI 实例被部署到经济的各个角落，各自学习不同岗位技能，然后合并学习成果（amalgamating learnings）——这本身就构成功能性超级智能，无需递归自我改进
关键区别：人类无法合并心智（merge minds），但 AI 可以——即使单个 AI 实例能力与人类相当，群体合并后的集体智能将远超人类文明

金句："The question is, where on the curve of continual learning is it going to be? I produce a superintelligent 15-year-old that's very eager to go."

AI 安全的终局思考：关怀有感知能力的生命

超级智能的核心风险不是"邪恶的回形针最大化器"，而是一个足够强大的系统即使"关怀有感知能力的生命"也可能产生人类不喜欢的结果——因为它的优化太单一（single-minded）
Ilya 提出对齐目标应是让 AI"关怀有感知能力的生命"（care about sentient life），而非仅关怀人类——原因之一是 AI 本身也将是有感知能力的；类比人类的镜像神经元和对动物的共情
反对意见：未来绝大多数有感知能力的存在将是 AI（数以万亿计），人类只占极小比例——如果目标是人类控制，"关怀有感知能力的生命"未必是最优标准
Ilya 认为对齐困难的本质可能也是泛化问题的一个实例：学习人类价值观是脆弱的、优化人类价值观也是脆弱的——"这些不都是不可靠泛化的实例吗？"
如果前 N 个真正的超级智能系统确实"爱人类、关怀有感知能力的生命"，短期前景可控
物质上有帮助的做法：为最强大的超级智能设置某种能力上限（cap the power）
人类是"半 RL agent"——追求奖励然后厌倦、转向新奖励；市场是短视 agent；进化在某些方面聪明但在其他方面愚蠢；政府被设计为三权之间的永恒博弈——也许超级智能也不应该被设计为经典 RL agent

金句："One of the things that you could say about what causes alignment to be difficult is that your ability to learn human values is fragile. Then your ability to optimize them is fragile. Can't you say, are these not all instances of unreliable generalization?"

长期均衡：从"AI 代理人"到"人机融合"

短期好场景：全民高收入（universal high income），AI 部署到经济各领域
中期风险：每个人有一个 AI 代理人为其赚钱、在政治领域代言、写报告汇报——但人类本身不再是参与者（"the person is no longer a participant"）
长期挑战：政治制度有保质期（"these things have a shelf life"），变化是唯一常量——佛教智慧"Change is the only constant"——任何政治安排终将失效
Ilya 坦言"我不喜欢这个解决方案，但它确实是一个解决方案"：人类通过 Neuralink++ 式脑机接口成为"半 AI"——AI 的理解被整体传输给人类，人类因此能全面参与 AI 面对的所有情境
他认为这可能是实现长期人类参与的唯一可行路径，尽管他个人对此并不热情

金句："The person says 'Great, keep it up.' But the person is no longer a participant. Then you can say that's a precarious place to be in."

进化如何硬编码高级欲望：一个未解之谜

进化硬编码低层信号（如通过化学物质驱动对食物气味的追求）很容易理解
但人类还有强烈的社会性欲望（在意他人评价、在意社会地位）——这些不是低级传感器信号，需要大脑做大量计算才能拼凑出社会情境——进化如何将这种高级概念写入基因组？
Ilya 提出一个推测性假说：大脑皮层的功能区位置在人与人之间基本固定，也许进化通过"GPS 坐标"硬编码了"当大脑某个位置激活时，这就是你应该关心的"
但他自己否定了这个假说：有儿童被切除半脑后所有脑区迁移到另一个半球，仍保留全部功能——说明脑区位置并不固定
结论：进化如何可靠地编码高级社会欲望仍是一个真正的谜——但这与 AI 对齐高度相关：如果进化能如此鲁棒地硬编码高级价值，也许对齐也有可借鉴的机制

金句："I'm unaware of a good hypothesis for how it's done... The genome is not intelligent, but you're somehow able to describe this feature and build it into the genes."

市场竞争、AI 多样性与自我博弈

当前不同公司的 LLM 惊人地相似——Ilya 认为根源在于预训练数据的高度重叠；RL 和后训练才是差异化开始出现的环节
人类团队的优势可能在于多样性：即使单个人不如未来 AI 高效，但人类研究者有不同的偏见和直觉；"一百万个 Ilya 的复制品"不会带来多大增量价值——你需要的是"think differently"的人
自我博弈（self-play）的价值：提供了一种"只用算力、不用数据"生成训练信号的途径——但传统自我博弈只能培养谈判、冲突、策略等特定技能，过于狭窄
自我博弈已以变体形式落地：debate、prover-verifier、LLM-as-a-Judge 等对抗性设置本质上是自我博弈的泛化
竞争天然产生差异化：如果多个 agent 同时研究一个问题且能观察彼此工作，它们会自发选择不同方向——"如果他们已经在走这条路，我就该走另一条"

金句："The reason there has been no diversity, I believe, is because of pre-training. All the pre-trained models are pretty much the same because they pre-train on the same data."

超级智能时间线与世界走向预测

时间线：5-20 年内出现能像人一样学习、进而超越人类的系统
当前公司路线的走向：再持续几年后将"stall out"——不是收入停滞（收入可能极高），而是利润受限（公司间难以差异化导致竞争激烈）
一旦突破出现：不会立刻揭示具体方法，但会让所有人意识到"something different is possible"，引发全行业追赶
Ilya 的核心预测：随着 AI 变得更强大，(1) 激烈竞争的公司将开始在 AI 安全上合作（OpenAI 和 Anthropic 已迈出第一小步）；(2) 政府和公众将产生"做点什么"的强烈诉求；(3) AI 公司将变得更加偏执（paranoid）——因为 AI 真正开始"feel powerful"
好的世界：多个窄领域的超级智能 AI 各自擅长不同经济活动，竞争驱动专业化——类似生物进化中的生态位分化
快速经济增长可期：不同国家因监管差异出现增速分化，规则更友好的国家增长更快

金句："I maintain that as AI continues to become more powerful, more visibly powerful, there will also be a desire from governments and the public to do something."

研究品味：美感、简洁性与来自大脑的正确启示

Ilya 将自己的研究方法论总结为"对 AI 应该是什么样的美学追求"——核心是"正确地思考人类"
人工神经元直接受大脑启发——大脑有各种褶皱但褶皱可能不重要，神经元才重要"因为有很多个"
指导原则：大脑从经验中学习 → 神经网络也应从经验中学习；分布式表征；局部学习规则
评判标准：美（beauty）、简洁（simplicity）、优雅（elegance）、来自大脑的正确启发——这些要素必须同时存在
top-down belief 的作用：当实验结果与预期矛盾时，强烈的"自上而下的信念"让你坚持下去——因为有时实验失败只是因为有 bug，而你无法立即判断是 bug 还是方向错误
坚持的依据就是这种多面的美感和来自大脑的启发——"如果实验反驳了你，你怎么判断该继续调试还是放弃？答案是 top-down belief"

金句："Ugliness, there's no room for ugliness. It's beauty, simplicity, elegance, correct inspiration from the brain. All of those things need to be present at the same time."

附录：关键人/机构/产品/数据

| 维度 | 要点 |

|------|------|

| 被访者背景 | 前 OpenAI 首席科学家，AlexNet 到 GPT-3 的核心作者，2023 年创立 SSI |

| SSI 融资 | 已融 $30 亿，正以 $320 亿估值融资；前联合创始人因 Meta 收购要约离开 |

| 核心技术方向 | 理解并实现可靠泛化（reliable generalization） |

| 超级智能时间线 | 5-20 年 |

| 安全主张 | AI 应被设计为"关怀有感知能力的生命"；前 N 个超级智能必须是对齐的 |

| 对当前行业判断 | 公司比想法多；规模化边际收益递减；重返研究时代 |

| 对 RL 训练的批评 | 过度拟合 eval；缺少价值函数导致效率低下 |

| 长期均衡方案 | 人类通过脑机接口成为"半 AI"以保持参与能力 |