← 返回
30 min 2026-04

Andrej Karpathy on Software 3.0 and the Future of Intelligence | AI Ascent 2026

概要

Karpathy AI Ascent 2026 访谈:Software 3.0 范式、vibe coding 到 agentic engineering、可验证性决定 AI 自动化边界、神经网络将成为宿主进程

核心洞察

被访者:Andrej Karpathy(OpenAI 联合创始人、前 Tesla Autopilot 负责人)
访谈者:Stephanie Zhan,Sequoia Capital · AI Ascent 2026
时长:约 30 分钟 | 整理日期:2026-05-02

Executive Summary

Karpathy 以自身 2025 年 12 月的"顿悟时刻"为起点,完整阐述了 Software 3.0 范式——编程正从写代码(1.0)、训练权重(2.0)转向"把文本复制粘贴给 Agent"(3.0)。他用 MenuGen、OpenClaw 安装等亲身案例证明:大量现有应用"不应该存在",神经网络正在吞噬中间层代码。在自动化边界问题上,他提出可验证性(Verifiability)框架:RL 训练天然偏向可验证领域,导致模型能力呈"锯齿状"(jagged)分布——同一个 Opus 4.7 能重构十万行代码库却建议你步行去洗车。对创业者的建议是:寻找高价值但尚未被实验室覆盖的可验证 RL 环境,自行微调即可拉开差距。在人类角色层面,他区分了 Vibe Coding(提升所有人的能力下限)与 Agentic Engineering(保持专业软件的质量上限),强调人类仍需掌控品味、判断和系统设计——"你可以外包思考,但无法外包理解"。

2025 年 12 月:从"偶尔好用"到"再没改过一行"

  • Karpathy 在 2025 年 12 月假期密集使用最新模型,发现代理式工具输出的代码"直接就对了",他甚至想不起上一次手动修正是什么时候——这标志着从辅助工具到全面信任的质变
  • 他在 X/Twitter 上反复呼吁:很多人对 AI 的认知还停留在"ChatGPT 类聊天工具",但 2025 年 12 月之后,Agentic Coherent Workflow 已经"真正开始 work 了"
  • 直接后果:他的 side projects 文件夹爆炸式增长,全部采用 vibe coding 完成,进入"无限 side projects"模式

Software 3.0:编程 = 给 Agent 的复制粘贴文本

  • 1.0 → 写代码;2.0 → 整理数据集 + 训练神经网络;3.0 → Prompt + Context Window 就是你对 LLM 解释器的全部杠杆
  • OpenClaw 案例:安装不再是一个膨胀的 Shell 脚本,而是一段给 Agent 的文本指令。Agent 自带智能,能观察环境、执行操作、在循环中自动 debug,远比精确指定每个步骤强大
  • MenuGen 案例(核心叙事弧):Karpathy 花大量精力 vibe-code 了一个 Vercel 应用——拍餐厅菜单照片 → OCR 提取菜名 → 图像生成器渲染菜品图片 → 重新排版展示。但 Software 3.0 版本只需一步:把照片丢给 Gemini,说"用 Nanobanana 把菜品图片叠加到菜单上",直接在原始图片像素层面渲染出结果。整个 MenuGen 应用根本不应该存在
  • 推论:这不仅仅是"编程加速",而是全新类别的信息处理成为可能。例如他的 LLM Knowledge Bases 项目——让 LLM 为组织或个人创建 Wiki,这在以前根本没有对应的代码可写

可验证性框架:为什么 AI 能力是"锯齿状"的

  • 前沿实验室训练 LLM 本质上是巨型 RL 环境:给验证奖励 → 模型在可验证领域(数学、代码)能力飙升,在不可验证领域则"粗糙、锯齿"
  • 经典案例对比:Opus 4.7 能同时重构十万行代码库、发现 zero-day 漏洞,却会告诉你"洗车店只有 50 米远,建议步行去"——这种荒诞的锯齿感说明模型并非通用智能
  • 国际象棋轶事:GPT-3.5 到 GPT-4 国际象棋能力飞跃,很多人以为是通用能力提升,实际上是 OpenAI 有人决定把大量棋谱数据放进预训练集。用户处于实验室决策的"受摆布"位置——哪些 RL 电路被激活,完全取决于实验室选择关注什么
  • 对创业者的建议:即使实验室没有直接聚焦你的领域,只要该领域可验证、能构建 RL 环境,你就可以自行微调并获得优势。Karpathy 暗示存在一个他认为极有价值但尚未被覆盖的领域(拒绝透露具体答案——"Sorry, I don't mean to vague-post on stage")

Vibe Coding vs Agentic Engineering:下限与上限的区分

  • Vibe Coding = 提升全民能力下限:任何人都能 vibe code 出一个应用,这是了不起的民主化
  • Agentic Engineering = 维持专业软件质量上限:不允许因 vibe coding 引入安全漏洞,仍需对软件质量负全责,但要用 Agent 大幅提速
  • Karpathy 将 Agentic Engineering 定义为一门"工程学科":Agent 是 spiky、stochastic 但极其强大的实体,如何协调它们在不牺牲质量的前提下加速,就是这门学科的核心
  • 关于 10x 工程师:在 agentic 时代,顶尖工程师的倍数远超 10x,峰值差距被极大放大

人类不可替代的能力:品味、判断与系统设计

  • Agent 目前仍是"实习生级别"实体:人类负责审美、判断、品味和顶层监督
  • Stripe x Google 账户 Bug 案例:MenuGen 用户用 Google 账号注册、用 Stripe 付款,Agent 试图用 Stripe 邮箱去匹配 Google 邮箱关联资金,完全忽略了用户可能使用不同邮箱——缺少持久化 user ID 的系统设计意识
  • Agent 生成的代码质量问题:bloaty、大量 copy-paste、抽象脆弱——"it works but it's really gross"
  • MicroGPT 项目实验:Karpathy 反复提示 LLM 简化 LLM 训练代码,模型"做不到"——明显感觉到脱离了 RL 电路,像"在拔牙"而非"光速飞行"
  • 人类仍需掌握底层概念(如 tensor 的 view vs storage、内存效率),但 API 细节(keep_dims vs keep_dim、dim vs axis)可以完全交给 Agent
  • 招聘范式必须变革:不应再出编程谜题,应让候选人完成大型端到端项目(如"用 Agent 写一个 Twitter 克隆,部署后用 10 个 Codex 5.4x 尝试攻破它")

Agent-Native 世界:一切都要为 Agent 重写

  • 当前所有框架、库、文档仍是"写给人类的"——Karpathy 最大的 pet peeve:"为什么还在告诉我该做什么?我什么都不想做,直接告诉我该给 Agent 复制粘贴什么!"
  • 部署 MenuGen 时最大的痛苦不是写代码,而是配置 Vercel、DNS、各种第三方服务的设置菜单——理想状态是一句 prompt 搞定从构建到部署的全流程
  • 未来展望:神经网络成为"宿主进程",CPU 退化为"协处理器";计算花费的主体从经典计算转向 neural network inference
  • 终极形态:每个人和组织都有自己的 Agent 代表,"my agent talks to your agent"来处理会议安排等细节

教育与理解:不可外包的最后堡垒

  • Karpathy 反复引用一条让他"每隔一天就想起来"的推文:"You can outsource your thinking, but you can't outsource your understanding"
  • 他感到自己正在成为瓶颈——甚至连"我们要构建什么、为什么值得做"这些基本方向判断,都需要人脑的深度理解来支撑
  • LLM Knowledge Bases 作为理解增强工具:每读一篇文章就自动扩充个人 Wiki,通过不同视角的信息投射(synthetic data generation over fixed data)来获得洞察
  • 核心观点:LLM 在"理解"层面尚无优势,人类在此仍不可替代;理解力决定了你能否成为好的"导演"来指挥 Agent 集群

附录:关键人/机构/产品/数据

| 概念 | 定义 |

|------|------|

| Software 3.0 | 编程 = Prompt + Context Window,LLM 作为解释器 |

| 可验证性(Verifiability) | RL 训练的核心杠杆,决定模型能力的锯齿分布 |

| 锯齿智能(Jagged Intelligence) | 模型在 RL 覆盖领域飙升、在覆盖外领域崩塌的不均匀特征 |

| Ghosts vs Animals | LLM 是统计模拟电路上的"幽灵",非进化驱动的"动物"——无内在动机、好奇心或恐惧 |

| Vibe Coding | 全民编程的能力下限提升 |

| Agentic Engineering | 在保持质量上限的前提下用 Agent 加速的工程学科 |

| Agent-Native | 为 Agent 而非人类设计的基础设施、文档和工作流 |