← 返回
85 min 2025-12

Inside OpenAI: 2026 is the year of agents, AI's biggest bottleneck, and why compute isn't the issue

概要

  • Codex 自 2025 年 8 月 GPT-5 发布以来增长超过 20 倍,每周处理数万亿 tokens,已成为 OpenAI API 上使用量最大的 coding model。关键转折点不是模型变强,而是从纯云端异步产品切换到 IDE 扩展 + CLI 的本地体验——降低了采纳门槛,让用户先"结对编程"再逐步过渡到委托式工作。
  • OpenAI 对 Codex 的愿景远超"写代码":它是通用 agent 的核心能力层。 Alex 的核心论点是"如果你想构建任何 agent,你可能应该构建一个 coding agent"——因为代码是模型操作计算机最有效的方式,而代码天然可组合、可复用。非技术用户未来使用 coding agent 时甚至不会意识到底层在写代码,就像今天没人在意 Wi-Fi 是否开着。
  • Sora Android app 是 Codex 加速能力的标志性案例:2-3 个工程师在 18 天内从零构建到内部可用,28 天后公开发布,不到一个月成为 App Store 排名第一。核心方法是让 Codex 参考 iOS 代码生成 Android 实现计划并执行,本质上是跨平台"移植"。
  • Alex 认为当前通往 AGI 的真正瓶颈不是算力或模型智能,而是人类的打字速度和审查带宽。 写代码已经很容易了,但审查 AI 写的代码"不好玩"且成为新瓶颈。Codex 团队正在把重心从"帮你写代码"转向"帮你验证代码"——包括 AI code review、image preview 优先于 diff 查看、以及让 agent 自主验证工作结果。
  • 贯穿全场的核心线索是 "teammate" 隐喻——从 Codex 像"不读 Slack 的聪明实习生"开始,到设想它成为能主动发现问题、理解团队上下文、甚至监控自己训练过程的完整队友。Alex 的每一个产品判断(从 Cloud → IDE 转型,到 Atlas 浏览器的 contextual action,到 Tinder 式 swipe 交互)都在服务同一个目标:让 AI 从"你必须主动问它"变成"它默认就在帮你"。

核心洞察

  • Codex 自 2025 年 8 月 GPT-5 发布以来增长超过 20 倍,每周处理数万亿 tokens,已成为 OpenAI API 上使用量最大的 coding model。关键转折点不是模型变强,而是从纯云端异步产品切换到 IDE 扩展 + CLI 的本地体验——降低了采纳门槛,让用户先"结对编程"再逐步过渡到委托式工作。
  • OpenAI 对 Codex 的愿景远超"写代码":它是通用 agent 的核心能力层。 Alex 的核心论点是"如果你想构建任何 agent,你可能应该构建一个 coding agent"——因为代码是模型操作计算机最有效的方式,而代码天然可组合、可复用。非技术用户未来使用 coding agent 时甚至不会意识到底层在写代码,就像今天没人在意 Wi-Fi 是否开着。
  • Sora Android app 是 Codex 加速能力的标志性案例:2-3 个工程师在 18 天内从零构建到内部可用,28 天后公开发布,不到一个月成为 App Store 排名第一。核心方法是让 Codex 参考 iOS 代码生成 Android 实现计划并执行,本质上是跨平台"移植"。
  • Alex 认为当前通往 AGI 的真正瓶颈不是算力或模型智能,而是人类的打字速度和审查带宽。 写代码已经很容易了,但审查 AI 写的代码"不好玩"且成为新瓶颈。Codex 团队正在把重心从"帮你写代码"转向"帮你验证代码"——包括 AI code review、image preview 优先于 diff 查看、以及让 agent 自主验证工作结果。
  • 贯穿全场的核心线索是 "teammate" 隐喻——从 Codex 像"不读 Slack 的聪明实习生"开始,到设想它成为能主动发现问题、理解团队上下文、甚至监控自己训练过程的完整队友。Alex 的每一个产品判断(从 Cloud → IDE 转型,到 Atlas 浏览器的 contextual action,到 Tinder 式 swipe 交互)都在服务同一个目标:让 AI 从"你必须主动问它"变成"它默认就在帮你"。

OpenAI 的速度不是口号——组织结构为不确定性而设计

核心要点:OpenAI 的"快"不是靠加班,而是靠真正 bottoms-up 的决策结构 + "ready-fire-aim"的实验文化。

  • Alex 在加入 OpenAI 之前做了 5 年创业公司,自认为"快",但到 OpenAI 后"重新定义了速度和野心的含义"。他说如果未来再做任何产品,都会用完全不同的方式运营。
  • OpenAI 的反直觉之处:不强调"对准方向再加速",而是承认不确定性——不知道什么能力会出现、不知道什么技术路线能走通、不知道走通了用户会不会买单。因此更重视"learn empirically, try things quickly"。
  • 一位 research lead 的框架:在 OpenAI 可以很好地讨论一年以后的事(模糊方向),也可以很好地讨论几周内的事(战术执行),但"接近一年但不到一年"的中间地带最难推理——这是传统公司花最多精力做规划的时间窗口,在 OpenAI 反而被有意留白。
  • Alex 坦承:这种模式对人才密度要求极高,不能简单复制。"也许这话说得刺耳,但非常少的公司有这个人才水平来做到真正的 bottoms-up。"
"I had to reimagine what speed and ambition even means." —— Alexander Imbiricos

Codex 的 20 倍增长:关键不是模型更强,而是产品形态的转变

核心要点:Codex 从纯云端异步产品切换到本地 IDE/CLI 体验后爆发增长——用"结对编程"降低采纳门槛,再逐步引导用户走向异步委托。

  • Codex 自 GPT-5(2025 年 8 月)发布以来增长 超过 20 倍。Codex 模型每周服务 数万亿 tokens,是 OpenAI 内部和 API 上使用量最大的 coding model。
  • 最初版本 Codex Cloud 是纯云端产品:有独立计算环境,可并行运行多个任务。但有两个问题:一是环境配置难(需要用户手动设置依赖和工具),二是纯异步交互像"雇了个队友但永远不能跟他打电话,只能来回发消息"。
  • 关键转折:把 Codex 做成 IDE 扩展和 CLI 工具,agent 在用户本地计算机的 sandbox 中运行。好处是:(1) 无需配置环境,所有依赖自动可用;(2) sandbox 外的命令可以实时问用户;(3) 用户在结对中自然地"教会" agent 团队的工作方式——比如"这个服务的密码是这个"、"可以跑这个命令"。
  • dogfooding 陷阱:OpenAI 内部工程师天天训练推理模型,早已习惯复杂 prompting 和异步工作流,所以 Cloud 版本内部使用效果很好。但普通市场用户的使用模式完全不同——"we live too far in the future"。
"It's like if you hired a teammate, but you're never allowed to get on a call with them, and you can only go back and forth asynchronously." —— Alexander Imbiricos

Agent 三层栈:模型 + API + harness 必须一起训练

核心要点:Codex 的竞争力来自模型、API 和 harness 三层紧密协同,而非只靠模型。

  • Codex 团队把产品团队和研究团队高度融合,共同迭代模型和 harness。这让他们能快速实验"这三层怎么协同工作"。
  • compaction 功能是三层协同的典型例子:模型需要理解"我快用完 context window 了,需要准备换窗继续";API 层需要提供 compaction endpoint;harness 层需要准备换窗的 payload。三层任一缺失都无法实现。这个功能让 Codex 可以连续运行 24 小时以上
  • 市场上不同 coding 产品的 tool harness 差异很大:有的主打语义搜索,有的主打结构化工具调用,Codex 的设计哲学是让模型直接用 shell。在 sandbox 中用终端操作——只优化一种范式,可以走得更快。
  • GPT-5.1 Codex Max(上周三发布):同等任务快约 30%,在高推理级别"明显更聪明",是第一个原生理解 PowerShell 的 Codex 模型(为 Windows 开发服务)。
"For a model to work continuously for 24 hours, it's going to exceed its context window. We have a solution for that — compaction." —— Alexander Imbiricos

核心论点:每个 Agent 都应该是 coding agent

核心要点:代码是模型操作计算机最高效的方式,因此"构建任何 agent"的正确方法可能就是构建一个 coding agent。

  • Alex 的推理链:超级助手 → 需要能"做事" → 做事需要操作计算机 → 操作计算机的方式有几种(hack OS accessibility API、point-and-click、写代码)→ 写代码是最快、最可靠的
  • 代码的核心优势是可组合性(composability):agent 做过的事可以保存为脚本,下次不用重写;新队友加入可以复用已有脚本。这比 point-and-click 的一次性操作强得多。
  • 对非技术用户:他们甚至不会知道底层在写代码,"就像今天没人在乎 Wi-Fi 是不是开着"。
  • 已经开始看到 coding-adjacent 的使用场景:数据分析、交互式数据查看器、一次性工具代码。但团队目前保持聚焦在纯 coding 场景。
"If you want to build any agent, maybe you should be building a coding agent." —— Alexander Imbiricos

Sora Android 18 天奇迹 + Atlas 浏览器加速

核心要点:两个标志性内部案例证明 Codex 的加速能力——Sora Android 从零到 App Store 第一只用 28 天,Atlas 浏览器从"2-3 周 × 2-3 工程师"压缩到"1 周 × 1 工程师"。

  • Sora Android app:一个全新的 Android 应用,由 2-3 个工程师18 天内从零构建到内部员工可用版本,10 天后(共 28 天)公开发布 GA,不到一个月成为 App Store 排名第一。核心方法:让 Codex 参考已有的 iOS app 代码,生成 Android 端的工作计划并实现——本质上是跨平台"移植",这是 Codex 特别擅长的场景。
  • Atlas 浏览器:一个很"heavy"的项目(从零构建浏览器),Atlas 团队是 Codex 的重度用户。工程师反馈:以前需要 2-3 周 × 2-3 工程师的工作量,现在 1 周 × 1 工程师就能完成。Atlas 现在在开发 Windows 版本,团队同时在帮助改进 Codex 的 Windows 支持。
  • Atlas 工程师的一个实践:他让 Codex 验证自己的工作,但因为 Atlas 产品特殊,验证本身不简单。他的做法是循环提示 Codex:"嘿,你为什么不能验证你的工作?修好它。"反复几轮后 Codex 自己解决了验证问题。

审查 AI 代码是新瓶颈——Codex 正在从"帮你写"转向"帮你验"

核心要点:写代码曾是软件工程最有趣的部分,但 AI 接管了写代码之后,审查 AI 代码成了新瓶颈——不好玩、但必须做。Codex 团队正在把产品重心转向验证和审查。

  • Alex 的洞察:写代码是很多工程师最享受的工作,但现在他们的主要工作变成了审查 AI 写的代码,这往往更无聊且责任更大("如果它做了蠢事导致生产事故呢?")。100 个 PR 等着审核,谁去看?
  • 产品层面的应对:(1) 正在开发 code review 功能帮助用户对 AI 代码建立信心;(2) 在 Codex Web 界面中,优先展示 image preview 而非 diff——先让用户看到效果,再看代码;(3) 让 agent 自主验证工作结果,减少人类审查负担。
  • Lenny 提到有公司(如 Block 的 CTO John Collison Donji 提到的 Goose 工具)已经在实践"agent 看你屏幕、听你开会、主动提交 PR / 发邮件 / 写 Slack"。Alex 认为这个方向的瓶颈恰恰是"验证 agent 做的是不是对的"
"Writing code is actually one of the most fun parts of software engineering. And so you end up reviewing AI code, and that's often a less fun part." —— Alexander Imbiricos

PM 和设计师的角色压缩:throwaway code 和 vibe coded 原型

核心要点:Codex 正在模糊 PM、设计师、工程师的边界——PM 直接做数据分析,设计师 vibe code 动画和完整原型,产品营销直接在 Slack 里改代码。

  • Alex 引用 Scott Belsky 的概念 "compressing the talent stack":角色边界变窄,因为每个人能做的事更多了。每少一层沟通边界,团队效率就提升一截。
  • throwaway code 大量增加:想做数据分析?不再写 SQL 然后看表格,而是让 Codex 构建一个交互式数据查看器。以前"太烦了"的事现在"完全值得花时间让 agent 去做"。
  • OpenAI 设计师的实践非常前沿:(1) 设计师为 Codex 的 coin 动画 vibe code 了一个动画编辑器,用编辑器做动画,再把动画 check in 到仓库;(2) 设计师维护着一个完整的 Codex app 侧原型(vibe coded),讨论产品方向时直接在原型上演示,觉得可以就把原型变成真正的 PR(Codex UI 是 Rust,如果代码太复杂就让工程师帮忙 land)。
  • 产品营销人员直接从 Slack 改应用内字符串、更新文档——不需要工程师介入。

Atlas 浏览器的真正意图:contextual action 和 mixed-initiative UX

核心要点:OpenAI 做浏览器不是为了搜索,而是为了获取用户上下文——当 agent 每天帮你上千次时,push notification 行不通,需要"在你需要的时刻、在你正在看的地方"浮现帮助。

  • Alex 的创业公司做的是"屏幕共享 / 远程协作"工具,加入 OpenAI 的初衷就是构建 contextual desktop assistant。他认为"必须手动给 AI 提供上下文并想清楚它能帮什么忙"是最大的摩擦。
  • 视频游戏类比:在 Halo 里走到一个物体前按 X 就能执行正确操作——这就是 contextual action。浏览器让 OpenAI 能知道用户在看什么,然后在那个瞬间浮现帮助。
  • 为什么用浏览器而不是 hack 桌面软件?(1) 桌面 app 的 accessibility tree 支持参差不齐;(2) 截屏识别太慢且不可靠;(3) 浏览器可以直接接入渲染引擎,提取任意内容。
  • 千次帮助的 UX 问题:如果 agent 每天帮你 1000 次,不可能每次都 push notify。浏览器 + contextual action 让帮助在你"正在看 dashboard 发现指标下降"的那一刻自然出现——不打断 flow,却在关键时刻介入。
"Imagine if the only way we could tell you we helped you is push notification. You get a thousand push notifications a day. That gets super annoying." —— Alexander Imbiricos

Chatter Driven Development:proactive agent 的终极形态

核心要点:Alex 的设想——当 agent 足够强大时,solopreneur 的界面可能是一个 TikTok 式的 vertical video feed,agent 主动提出建议,你只需要 swipe left/right。

  • 这个想法源自 Alex 对"spec driven development"的质疑:"很多人也不喜欢写 spec"。他认为更自然的方式是 chatter driven development——Slack 对话、社交媒体动态、客户反馈等信号流动着,agent 从中识别该做什么,自动生成代码并部署。
  • Tinder meets TikTok meets Codex:每个 agent 的建议以 vertical video 形式呈现,swipe left = 拒绝,swipe right = 同意,长按 = 语音反馈。"你的工作就是把这个 app 接入所有信号系统,然后坐下来 swipe。"Alex 承认"我们没有在做这个",但认为这代表了方向。
  • OpenAI 已有的 Slack 集成已经展现了早期形态:@mention Codex 就能问"这个 bug 为什么发生"或"这个指标为什么变了",答案直接回到 Slack。数据科学家大量使用这个功能。

AGI 时间线:瓶颈不是算力,是人类的打字速度

核心要点:Alex 认为 AGI 的加速曲线取决于何时 agent 能自主验证工作——2026 年 early adopter 开始出现生产力 hockey stick,之后逐年扩展到更大的公司。

  • "当前被低估的限制因素是人类打字速度和多任务速度。" 即使模型智能再高,如果用户还需要手动 prompt 和手动审查所有输出,生产力天花板很快到来。
  • 关键解锁:让 agent "default useful"——不需要用户主动 prompt 就能帮忙,不需要用户逐行审查就能信任结果。
  • 时间线判断:(1) 2026 年:如果你是创业公司,用新技术栈从零开始,agent 已经可以在很多环节自给自足;(2) 大型企业(如 SAP)有大量遗留系统,agent 不可能一夜之间自给自足——需要逐步替换或改造系统;(3) 某个模糊的中间点,当加速效应回流到 AI 实验室本身——那就是 AGI 级别。
  • Alex 的职业建议:"Be a doer of things"——junior 工程师和新毕业生现在能做的事比以前多得多,早期职业者和资深工程师之间的能力差距在缩小。但系统工程能力、团队协作能力、以及理解"什么构成好系统"的判断力仍然深度重要。
  • Codex 为自己训练 on-call:一个早期实验——训练运行期间有大量图表需要人类"babysit"(因为训练非常昂贵,系统可能出错)。现在开始让 Codex 循环监控这些图表,评估趋势变化,在需要时介入——这是 agent 从写代码走向运维的信号。
"The current underappreciated limiting factor is literally human typing speed or human multitasking speed." —— Alexander Imbiricos

Lightning Round:Culture、Jujutsu Kaisen、Tesla 和"Be Kind and Candid"

  • 推荐书:Iain Banks 的 Culture 系列——"gay space communist utopia",一个关于 AI 未来的乐观科幻。Alex 认为"如果你不相信乐观的未来,你就无法把它创造出来。"
  • 推荐影视咒术回战(Jujutsu Kaisen)——喜欢它是因为主角真的很好、很善良,和 Evangelion 等解构式作品的阴郁主角形成对比。
  • 推荐产品Tesla 的自动驾驶——称其为"构建 agent 的大师课"。你可以在不关闭自动驾驶的情况下加速、转向、调速——mixed-initiative UI 让人感觉"被加速了"而不是"被控制了"
  • 人生信条:"Be kind and candid"——他创业公司的第一条价值观。创始团队发现自己总是"nice"但不"candid",总是拖延困难对话。每次提醒自己之后变得更 candid,6 个月后又发现还不够 candid。最终的领悟:把 candid 视为 kindness 的一种形式
  • Alex 来美国最初是想做美国飞机(航空工程),后来转了软件。家族来自希腊 Andros 岛,跟希腊诗人 Andreas Imbiricos 是大家族里的亲戚。

附录:关键人/机构/产品/数据

项目详情
Alexander ImbiricosOpenAI Codex 产品负责人,前 Dropbox PM,前创业公司创始人
CodexOpenAI 的 coding agent,IDE 扩展 + CLI + Cloud 版本
GPT-5.1 Codex Max2025年12月发布,同等任务快 ~30%,首个原生理解 PowerShell 的模型
Codex CloudCodex 的初始版本,纯云端异步,有独立计算环境
compactioncontext window 满时"换窗"继续的功能,支持 24h+ 连续运行
AtlasOpenAI 的 AI 浏览器,Mac 已发布,Windows 开发中
Sora Android18 天内部版 → 28 天 GA → App Store #1,2-3 工程师完成
Nick TurleyHead of ChatGPT,推荐 Alex 加入 OpenAI
Kevin WeilOpenAI CPO
Karpathy推文称赞 Codex 解决他花数小时解决不了的最难 bug
Scott Belsky提出 "compressing the talent stack" 概念
John G DonjiBlock CTO,团队用 Goose 工具做 proactive agent 实验
GooseBlock 内部的 agent 工具,看屏幕/听会议/主动提交 PR
Codex 增长GPT-5 (8月) 以来超 20x
Codex tokens每周数万亿 tokens
Atlas 效率2-3 周 × 2-3 工程师 → 1 周 × 1 工程师
Culture (Iain Banks)Alex 推荐的乐观 AI 科幻系列
Jujutsu KaisenAlex 推荐的动漫
"Be kind and candid"Alex 创业公司第一条价值观