85 min 2025-12

Inside OpenAI: 2026 is the year of agents, AI's biggest bottleneck, and why compute isn't the issue

Lenny's Podcast · Alexander Imbiricos

查看原始内容 →

概要

Codex 自 2025 年 8 月 GPT-5 发布以来增长超过 20 倍，每周处理数万亿 tokens，已成为 OpenAI API 上使用量最大的 coding model。关键转折点不是模型变强，而是从纯云端异步产品切换到 IDE 扩展 + CLI 的本地体验——降低了采纳门槛，让用户先"结对编程"再逐步过渡到委托式工作。

OpenAI 对 Codex 的愿景远超"写代码"：它是通用 agent 的核心能力层。 Alex 的核心论点是"如果你想构建任何 agent，你可能应该构建一个 coding agent"——因为代码是模型操作计算机最有效的方式，而代码天然可组合、可复用。非技术用户未来使用 coding agent 时甚至不会意识到底层在写代码，就像今天没人在意 Wi-Fi 是否开着。

Sora Android app 是 Codex 加速能力的标志性案例：2-3 个工程师在 18 天内从零构建到内部可用，28 天后公开发布，不到一个月成为 App Store 排名第一。核心方法是让 Codex 参考 iOS 代码生成 Android 实现计划并执行，本质上是跨平台"移植"。

Alex 认为当前通往 AGI 的真正瓶颈不是算力或模型智能，而是人类的打字速度和审查带宽。 写代码已经很容易了，但审查 AI 写的代码"不好玩"且成为新瓶颈。Codex 团队正在把重心从"帮你写代码"转向"帮你验证代码"——包括 AI code review、image preview 优先于 diff 查看、以及让 agent 自主验证工作结果。

贯穿全场的核心线索是 "teammate" 隐喻——从 Codex 像"不读 Slack 的聪明实习生"开始，到设想它成为能主动发现问题、理解团队上下文、甚至监控自己训练过程的完整队友。Alex 的每一个产品判断（从 Cloud → IDE 转型，到 Atlas 浏览器的 contextual action，到 Tinder 式 swipe 交互）都在服务同一个目标：让 AI 从"你必须主动问它"变成"它默认就在帮你"。

核心洞察

Codex 自 2025 年 8 月 GPT-5 发布以来增长超过 20 倍，每周处理数万亿 tokens，已成为 OpenAI API 上使用量最大的 coding model。关键转折点不是模型变强，而是从纯云端异步产品切换到 IDE 扩展 + CLI 的本地体验——降低了采纳门槛，让用户先"结对编程"再逐步过渡到委托式工作。
OpenAI 对 Codex 的愿景远超"写代码"：它是通用 agent 的核心能力层。 Alex 的核心论点是"如果你想构建任何 agent，你可能应该构建一个 coding agent"——因为代码是模型操作计算机最有效的方式，而代码天然可组合、可复用。非技术用户未来使用 coding agent 时甚至不会意识到底层在写代码，就像今天没人在意 Wi-Fi 是否开着。
Sora Android app 是 Codex 加速能力的标志性案例：2-3 个工程师在 18 天内从零构建到内部可用，28 天后公开发布，不到一个月成为 App Store 排名第一。核心方法是让 Codex 参考 iOS 代码生成 Android 实现计划并执行，本质上是跨平台"移植"。
Alex 认为当前通往 AGI 的真正瓶颈不是算力或模型智能，而是人类的打字速度和审查带宽。 写代码已经很容易了，但审查 AI 写的代码"不好玩"且成为新瓶颈。Codex 团队正在把重心从"帮你写代码"转向"帮你验证代码"——包括 AI code review、image preview 优先于 diff 查看、以及让 agent 自主验证工作结果。
贯穿全场的核心线索是 "teammate" 隐喻——从 Codex 像"不读 Slack 的聪明实习生"开始，到设想它成为能主动发现问题、理解团队上下文、甚至监控自己训练过程的完整队友。Alex 的每一个产品判断（从 Cloud → IDE 转型，到 Atlas 浏览器的 contextual action，到 Tinder 式 swipe 交互）都在服务同一个目标：让 AI 从"你必须主动问它"变成"它默认就在帮你"。

OpenAI 的速度不是口号——组织结构为不确定性而设计

核心要点：OpenAI 的"快"不是靠加班，而是靠真正 bottoms-up 的决策结构 + "ready-fire-aim"的实验文化。

Alex 在加入 OpenAI 之前做了 5 年创业公司，自认为"快"，但到 OpenAI 后"重新定义了速度和野心的含义"。他说如果未来再做任何产品，都会用完全不同的方式运营。
OpenAI 的反直觉之处：不强调"对准方向再加速"，而是承认不确定性——不知道什么能力会出现、不知道什么技术路线能走通、不知道走通了用户会不会买单。因此更重视"learn empirically, try things quickly"。
一位 research lead 的框架：在 OpenAI 可以很好地讨论一年以后的事（模糊方向），也可以很好地讨论几周内的事（战术执行），但"接近一年但不到一年"的中间地带最难推理——这是传统公司花最多精力做规划的时间窗口，在 OpenAI 反而被有意留白。
Alex 坦承：这种模式对人才密度要求极高，不能简单复制。"也许这话说得刺耳，但非常少的公司有这个人才水平来做到真正的 bottoms-up。"

"I had to reimagine what speed and ambition even means." —— Alexander Imbiricos

Codex 的 20 倍增长：关键不是模型更强，而是产品形态的转变

核心要点：Codex 从纯云端异步产品切换到本地 IDE/CLI 体验后爆发增长——用"结对编程"降低采纳门槛，再逐步引导用户走向异步委托。

Codex 自 GPT-5（2025 年 8 月）发布以来增长 超过 20 倍。Codex 模型每周服务 数万亿 tokens，是 OpenAI 内部和 API 上使用量最大的 coding model。
最初版本 Codex Cloud 是纯云端产品：有独立计算环境，可并行运行多个任务。但有两个问题：一是环境配置难（需要用户手动设置依赖和工具），二是纯异步交互像"雇了个队友但永远不能跟他打电话，只能来回发消息"。
关键转折：把 Codex 做成 IDE 扩展和 CLI 工具，agent 在用户本地计算机的 sandbox 中运行。好处是：(1) 无需配置环境，所有依赖自动可用；(2) sandbox 外的命令可以实时问用户；(3) 用户在结对中自然地"教会" agent 团队的工作方式——比如"这个服务的密码是这个"、"可以跑这个命令"。
dogfooding 陷阱：OpenAI 内部工程师天天训练推理模型，早已习惯复杂 prompting 和异步工作流，所以 Cloud 版本内部使用效果很好。但普通市场用户的使用模式完全不同——"we live too far in the future"。

"It's like if you hired a teammate, but you're never allowed to get on a call with them, and you can only go back and forth asynchronously." —— Alexander Imbiricos

Agent 三层栈：模型 + API + harness 必须一起训练

核心要点：Codex 的竞争力来自模型、API 和 harness 三层紧密协同，而非只靠模型。

Codex 团队把产品团队和研究团队高度融合，共同迭代模型和 harness。这让他们能快速实验"这三层怎么协同工作"。
compaction 功能是三层协同的典型例子：模型需要理解"我快用完 context window 了，需要准备换窗继续"；API 层需要提供 compaction endpoint；harness 层需要准备换窗的 payload。三层任一缺失都无法实现。这个功能让 Codex 可以连续运行 24 小时以上。
市场上不同 coding 产品的 tool harness 差异很大：有的主打语义搜索，有的主打结构化工具调用，Codex 的设计哲学是让模型直接用 shell。在 sandbox 中用终端操作——只优化一种范式，可以走得更快。
GPT-5.1 Codex Max（上周三发布）：同等任务快约 30%，在高推理级别"明显更聪明"，是第一个原生理解 PowerShell 的 Codex 模型（为 Windows 开发服务）。

"For a model to work continuously for 24 hours, it's going to exceed its context window. We have a solution for that — compaction." —— Alexander Imbiricos

核心论点：每个 Agent 都应该是 coding agent

核心要点：代码是模型操作计算机最高效的方式，因此"构建任何 agent"的正确方法可能就是构建一个 coding agent。

Alex 的推理链：超级助手 → 需要能"做事" → 做事需要操作计算机 → 操作计算机的方式有几种（hack OS accessibility API、point-and-click、写代码）→ 写代码是最快、最可靠的。
代码的核心优势是可组合性（composability）：agent 做过的事可以保存为脚本，下次不用重写；新队友加入可以复用已有脚本。这比 point-and-click 的一次性操作强得多。
对非技术用户：他们甚至不会知道底层在写代码，"就像今天没人在乎 Wi-Fi 是不是开着"。
已经开始看到 coding-adjacent 的使用场景：数据分析、交互式数据查看器、一次性工具代码。但团队目前保持聚焦在纯 coding 场景。

"If you want to build any agent, maybe you should be building a coding agent." —— Alexander Imbiricos

Sora Android 18 天奇迹 + Atlas 浏览器加速

核心要点：两个标志性内部案例证明 Codex 的加速能力——Sora Android 从零到 App Store 第一只用 28 天，Atlas 浏览器从"2-3 周 × 2-3 工程师"压缩到"1 周 × 1 工程师"。

Sora Android app：一个全新的 Android 应用，由 2-3 个工程师在 18 天内从零构建到内部员工可用版本，10 天后（共 28 天）公开发布 GA，不到一个月成为 App Store 排名第一。核心方法：让 Codex 参考已有的 iOS app 代码，生成 Android 端的工作计划并实现——本质上是跨平台"移植"，这是 Codex 特别擅长的场景。
Atlas 浏览器：一个很"heavy"的项目（从零构建浏览器），Atlas 团队是 Codex 的重度用户。工程师反馈：以前需要 2-3 周 × 2-3 工程师的工作量，现在 1 周 × 1 工程师就能完成。Atlas 现在在开发 Windows 版本，团队同时在帮助改进 Codex 的 Windows 支持。
Atlas 工程师的一个实践：他让 Codex 验证自己的工作，但因为 Atlas 产品特殊，验证本身不简单。他的做法是循环提示 Codex："嘿，你为什么不能验证你的工作？修好它。"反复几轮后 Codex 自己解决了验证问题。

审查 AI 代码是新瓶颈——Codex 正在从"帮你写"转向"帮你验"

核心要点：写代码曾是软件工程最有趣的部分，但 AI 接管了写代码之后，审查 AI 代码成了新瓶颈——不好玩、但必须做。Codex 团队正在把产品重心转向验证和审查。

Alex 的洞察：写代码是很多工程师最享受的工作，但现在他们的主要工作变成了审查 AI 写的代码，这往往更无聊且责任更大（"如果它做了蠢事导致生产事故呢？"）。100 个 PR 等着审核，谁去看？
产品层面的应对：(1) 正在开发 code review 功能帮助用户对 AI 代码建立信心；(2) 在 Codex Web 界面中，优先展示 image preview 而非 diff——先让用户看到效果，再看代码；(3) 让 agent 自主验证工作结果，减少人类审查负担。
Lenny 提到有公司（如 Block 的 CTO John Collison Donji 提到的 Goose 工具）已经在实践"agent 看你屏幕、听你开会、主动提交 PR / 发邮件 / 写 Slack"。Alex 认为这个方向的瓶颈恰恰是"验证 agent 做的是不是对的"。

"Writing code is actually one of the most fun parts of software engineering. And so you end up reviewing AI code, and that's often a less fun part." —— Alexander Imbiricos

PM 和设计师的角色压缩：throwaway code 和 vibe coded 原型

核心要点：Codex 正在模糊 PM、设计师、工程师的边界——PM 直接做数据分析，设计师 vibe code 动画和完整原型，产品营销直接在 Slack 里改代码。

Alex 引用 Scott Belsky 的概念 "compressing the talent stack"：角色边界变窄，因为每个人能做的事更多了。每少一层沟通边界，团队效率就提升一截。
throwaway code 大量增加：想做数据分析？不再写 SQL 然后看表格，而是让 Codex 构建一个交互式数据查看器。以前"太烦了"的事现在"完全值得花时间让 agent 去做"。
OpenAI 设计师的实践非常前沿：(1) 设计师为 Codex 的 coin 动画 vibe code 了一个动画编辑器，用编辑器做动画，再把动画 check in 到仓库；(2) 设计师维护着一个完整的 Codex app 侧原型（vibe coded），讨论产品方向时直接在原型上演示，觉得可以就把原型变成真正的 PR（Codex UI 是 Rust，如果代码太复杂就让工程师帮忙 land）。
产品营销人员直接从 Slack 改应用内字符串、更新文档——不需要工程师介入。

Atlas 浏览器的真正意图：contextual action 和 mixed-initiative UX

核心要点：OpenAI 做浏览器不是为了搜索，而是为了获取用户上下文——当 agent 每天帮你上千次时，push notification 行不通，需要"在你需要的时刻、在你正在看的地方"浮现帮助。

Alex 的创业公司做的是"屏幕共享 / 远程协作"工具，加入 OpenAI 的初衷就是构建 contextual desktop assistant。他认为"必须手动给 AI 提供上下文并想清楚它能帮什么忙"是最大的摩擦。
视频游戏类比：在 Halo 里走到一个物体前按 X 就能执行正确操作——这就是 contextual action。浏览器让 OpenAI 能知道用户在看什么，然后在那个瞬间浮现帮助。
为什么用浏览器而不是 hack 桌面软件？(1) 桌面 app 的 accessibility tree 支持参差不齐；(2) 截屏识别太慢且不可靠；(3) 浏览器可以直接接入渲染引擎，提取任意内容。
千次帮助的 UX 问题：如果 agent 每天帮你 1000 次，不可能每次都 push notify。浏览器 + contextual action 让帮助在你"正在看 dashboard 发现指标下降"的那一刻自然出现——不打断 flow，却在关键时刻介入。

"Imagine if the only way we could tell you we helped you is push notification. You get a thousand push notifications a day. That gets super annoying." —— Alexander Imbiricos

Chatter Driven Development：proactive agent 的终极形态

核心要点：Alex 的设想——当 agent 足够强大时，solopreneur 的界面可能是一个 TikTok 式的 vertical video feed，agent 主动提出建议，你只需要 swipe left/right。

这个想法源自 Alex 对"spec driven development"的质疑："很多人也不喜欢写 spec"。他认为更自然的方式是 chatter driven development——Slack 对话、社交媒体动态、客户反馈等信号流动着，agent 从中识别该做什么，自动生成代码并部署。
Tinder meets TikTok meets Codex：每个 agent 的建议以 vertical video 形式呈现，swipe left = 拒绝，swipe right = 同意，长按 = 语音反馈。"你的工作就是把这个 app 接入所有信号系统，然后坐下来 swipe。"Alex 承认"我们没有在做这个"，但认为这代表了方向。
OpenAI 已有的 Slack 集成已经展现了早期形态：@mention Codex 就能问"这个 bug 为什么发生"或"这个指标为什么变了"，答案直接回到 Slack。数据科学家大量使用这个功能。

AGI 时间线：瓶颈不是算力，是人类的打字速度

核心要点：Alex 认为 AGI 的加速曲线取决于何时 agent 能自主验证工作——2026 年 early adopter 开始出现生产力 hockey stick，之后逐年扩展到更大的公司。

"当前被低估的限制因素是人类打字速度和多任务速度。" 即使模型智能再高，如果用户还需要手动 prompt 和手动审查所有输出，生产力天花板很快到来。
关键解锁：让 agent "default useful"——不需要用户主动 prompt 就能帮忙，不需要用户逐行审查就能信任结果。
时间线判断：(1) 2026 年：如果你是创业公司，用新技术栈从零开始，agent 已经可以在很多环节自给自足；(2) 大型企业（如 SAP）有大量遗留系统，agent 不可能一夜之间自给自足——需要逐步替换或改造系统；(3) 某个模糊的中间点，当加速效应回流到 AI 实验室本身——那就是 AGI 级别。
Alex 的职业建议："Be a doer of things"——junior 工程师和新毕业生现在能做的事比以前多得多，早期职业者和资深工程师之间的能力差距在缩小。但系统工程能力、团队协作能力、以及理解"什么构成好系统"的判断力仍然深度重要。
Codex 为自己训练 on-call：一个早期实验——训练运行期间有大量图表需要人类"babysit"（因为训练非常昂贵，系统可能出错）。现在开始让 Codex 循环监控这些图表，评估趋势变化，在需要时介入——这是 agent 从写代码走向运维的信号。

"The current underappreciated limiting factor is literally human typing speed or human multitasking speed." —— Alexander Imbiricos

Lightning Round：Culture、Jujutsu Kaisen、Tesla 和"Be Kind and Candid"

推荐书：Iain Banks 的 Culture 系列——"gay space communist utopia"，一个关于 AI 未来的乐观科幻。Alex 认为"如果你不相信乐观的未来，你就无法把它创造出来。"
推荐影视：咒术回战（Jujutsu Kaisen）——喜欢它是因为主角真的很好、很善良，和 Evangelion 等解构式作品的阴郁主角形成对比。
推荐产品：Tesla 的自动驾驶——称其为"构建 agent 的大师课"。你可以在不关闭自动驾驶的情况下加速、转向、调速——mixed-initiative UI 让人感觉"被加速了"而不是"被控制了"。
人生信条："Be kind and candid"——他创业公司的第一条价值观。创始团队发现自己总是"nice"但不"candid"，总是拖延困难对话。每次提醒自己之后变得更 candid，6 个月后又发现还不够 candid。最终的领悟：把 candid 视为 kindness 的一种形式。
Alex 来美国最初是想做美国飞机（航空工程），后来转了软件。家族来自希腊 Andros 岛，跟希腊诗人 Andreas Imbiricos 是大家族里的亲戚。

附录：关键人/机构/产品/数据

项目	详情
Alexander Imbiricos	OpenAI Codex 产品负责人，前 Dropbox PM，前创业公司创始人
Codex	OpenAI 的 coding agent，IDE 扩展 + CLI + Cloud 版本
GPT-5.1 Codex Max	2025年12月发布，同等任务快 ~30%，首个原生理解 PowerShell 的模型
Codex Cloud	Codex 的初始版本，纯云端异步，有独立计算环境
compaction	context window 满时"换窗"继续的功能，支持 24h+ 连续运行
Atlas	OpenAI 的 AI 浏览器，Mac 已发布，Windows 开发中
Sora Android	18 天内部版 → 28 天 GA → App Store #1，2-3 工程师完成
Nick Turley	Head of ChatGPT，推荐 Alex 加入 OpenAI
Kevin Weil	OpenAI CPO
Karpathy	推文称赞 Codex 解决他花数小时解决不了的最难 bug
Scott Belsky	提出 "compressing the talent stack" 概念
John G Donji	Block CTO，团队用 Goose 工具做 proactive agent 实验
Goose	Block 内部的 agent 工具，看屏幕/听会议/主动提交 PR
Codex 增长	GPT-5 (8月) 以来超 20x
Codex tokens	每周数万亿 tokens
Atlas 效率	2-3 周 × 2-3 工程师 → 1 周 × 1 工程师
Culture (Iain Banks)	Alex 推荐的乐观 AI 科幻系列
Jujutsu Kaisen	Alex 推荐的动漫
"Be kind and candid"	Alex 创业公司第一条价值观