← 返回
69 min 2025-12

#364.解密 OpenAI 高效引擎:18天打造榜首 App,Codex 负责人揭秘 AI 队友的进化之路 - 跨国串门儿计划

概述

报告概述

本报告基于知名科技与产品播客《Lenny's Podcast》第364期的深度访谈内容,聚焦于 OpenAI 核心编码智能体(Agent)项目 Codex 的技术演进、组织运作模式及其对软件工程范式的根本性重塑。本次访谈邀请到 Codex 产品负责人、前创业者 Alexander Ambriques,系统揭示了 OpenAI 如何通过“以编码为起点”的战略路径,构建一个能真正实现“主动协作”的 AI 工程师队友,并在极短时间内完成从概念验证到市场爆款的跨越。报告全面梳理了 Codex 从“实习生”定位到“可自主执行任务”的进化逻辑,深入剖析其背后的技术架构——即模型、API 层与应用框架(HARNESS)三者协同的“技术站”体系,以及如何通过“吃狗粮”(internal dogfooding)机制持续优化用户体验。

报告的核心洞见在于:当前制约 AGI 实现的最大瓶颈并非模型本身,而是人类在与 AI 协作过程中的认知与操作效率,尤其是打字速度与多任务处理能力。这一观点颠覆了传统对 AI 发展的线性理解,提出“生产力循环”必须被重构,才能解锁真正的“曲棍球棒式增长”。具体案例包括:仅用18天开发并发布 Sora 安卓 App,28天内登顶应用商店榜首;ATLAS 浏览器项目由单个工程师一周内完成原需数周的工作;以及 Codex 自动审查自身训练任务中发现关键配置错误等。这些案例共同证明,当 AI 能够在代码库中“自给自足”地运行、验证与修复时,人类工程师的创造力将被彻底释放,从而进入“超级助理”时代。

此外,报告还深入探讨了 Codex 在非工程领域的潜力,如设计师利用其快速原型化动画、数据科学家通过自然语言提问获取分析结果,以及未来可能实现的“聊天驱动开发”(Chat-Driven Development)或“竖屏视频决策”等全新交互范式。最后,Alexander Ambriques 对 AGI 时间线的展望极具启发性:他认为,AGI 的到来并非某个瞬间事件,而是一个渐进过程,始于早期采纳者实现指数级生产力跃迁,最终反哺 AI 实验室,形成正向循环。这一系列深刻见解不仅揭示了 OpenAI 的内部运作哲学,更预示了整个软件产业乃至人类工作方式的未来图景。

核心观点一:Codex 的本质是“软件工程队友”的开端,而非简单的代码生成工具

Codex 的定位远超传统 IDE 插件或自动补全功能,其核心愿景是成为开发者在软件生命周期中不可或缺的“远程队友”,一个能够主动参与规划、执行、验证与维护全流程的智能合作者。这一理念源于对“团队协作”本质的深刻理解:最高效的团队成员并非被动接收指令,而是具备主动性、上下文感知力和问题解决能力的个体。正如 Alexander Ambriques 所生动比喻:“今天的 CODEX 有点像一个特别聪明的实习生,但他就是不爱看 SLACK,也不看 DATA DOG 或者 CENTURY,除非你叫他去看。” > “CODEX 其实只是一个软件工程队友的开端,它现在有点像一个特别聪明的实习生,但就是不爱看 SLACK。你不叫它,它也绝不会去主动看数据。”

这一比喻精准地揭示了当前 AI Agent 的核心局限:尽管其推理能力强大,但缺乏对工作环境的主动探索意愿。它无法像人类同事一样,通过观察 Slack 通知、邮件、会议纪要或项目管理工具来获取上下文信息,从而主动发起行动。这种“被动等待”模式严重限制了其作为“队友”的价值。因此,Codex 团队的核心目标之一,便是推动其从“被动响应”向“主动协作”转变。这要求系统不仅要能写代码,更要能理解代码库的结构、历史变更、团队规范,并在合适时机介入,例如在检测到潜在性能瓶颈或安全漏洞时,主动提出优化建议。

为了实现这一目标,Codex 的设计已超越单一功能,转向构建一个完整的“代理生态系统”。该系统不仅包含强大的推理模型,还集成了专门的 API 接口和应用框架(HARNESS),共同构成其“技术站”。这一架构允许 Codex 在沙盒环境中安全地运行代码、访问依赖项、进行测试,并通过反馈循环不断学习和改进。例如,当用户提交一个命令时,如果沙盒环境无法执行,Codex 会主动询问用户,从而建立一个高效且直观的交互闭环。> “我们不需要设置任何环境。如果一个命令在沙盒里行不通,它就会问你,这样你就能和模型形成一个非常强的反馈循环。” 这种设计使得 Codex 能够“边做边学”,逐步适应用户的实际工作流程,而不是强迫用户去适应一个僵化的工具。

进一步而言,Codex 的“队友”角色正在从“辅助编码”扩展至“赋能全链路”。在 OpenAI 内部,Codex 已被用于自动化部署、监控系统健康状态、甚至为自身的训练任务“待命 ON CALL”。> “我们已经开始看到未来的影子了。比如我们正尝试让 CODEX 为自己的训练任务待命 ON CALL。” 这意味着 Codex 不再仅仅是“写代码的人”,而是开始承担起“运维者”、“质量保证员”甚至“项目经理”的职责。它能实时监控训练过程中的图表变化,一旦发现异常(如损失函数突变、梯度消失),便能立即发出警报或尝试自动修复。这种能力的实现,标志着 Codex 正从一个“工具”进化为一个“自治实体”,其行为模式越来越接近一个真正意义上的“工程师”。

核心观点二:OpenAI 的高效运作模式源于“模糊瞄准 + 快速实践”的双轮驱动

OpenAI 能够在极短时间内催生出如 Sora APP 这样的现象级产品,其背后并非偶然,而是建立在一套独特且高度有效的组织运作哲学之上。这套模式的核心可以概括为“模糊瞄准”与“快速实践”的双轮驱动。与传统创业公司“先制定完美计划,再全力执行”的“准备瞄准开火”模式不同,OpenAI 采取的是“准备开火瞄准”的策略。> “我听下来感觉你们的做事方式更像是准备开火瞄准,而不是准备瞄准开火。” 这一比喻形象地说明了其核心思想:在面对高度不确定性的前沿技术时,过度追求完美的前期规划反而是一种浪费。与其花费大量时间去精确预测未来,不如迅速将想法付诸实践,在真实世界中获取反馈,然后根据反馈迭代。

这种模式的根基在于一种深刻的谦逊态度和对“不确定性”的接纳。Alexander Ambriques 指出,他在加入 OpenAI 前曾担任创业者和 Dropbox 产品经理,深知“每个创业公司的创始人都觉得自己公司节奏超快、人才标准超高、野心也超大”。然而,他在 OpenAI 的体验让他重新定义了这些词的含义。> “但我必须说,在 OPENAI 工作真的让我重新认识了这些词到底意味着什么。” 这种“重新认识”源于一个事实:在 OpenAI,团队的“速度”和“报复”(应为“规模”或“影响力”)远超任何其他地方。这种高速运转并非来自外部压力,而是源于对“可能性”的无限探索。当所有人都相信自己正在构建改变世界的工具时,每一个微小的进展都显得至关重要。

支撑这一高速运转的,是其独特的组织架构——“极其自下而上”(extremely bottom-up)。> “但在这里,因为我们不完全确定很快会出现什么新能力,也不知道技术上什么能行得通。就算技术上可行,我们也不知道推向市场后反响如何。” 这种不确定性恰恰是“自下而上”模式得以成立的前提。它迫使团队放弃自上而下的指令式管理,转而鼓励一线工程师和产品经理基于实验和反馈自主决策。这种模式的成功,依赖于一个前提:雇佣的都是世界上最顶尖的人才。> “我们未来几个月没有确切的计划,但关键在于你们雇佣的都是世界上最顶尖的人才,所以这感觉是……自下而上模式能成功。” 如果团队成员不具备足够的专业素养和判断力,这种模式将导致混乱。因此,OpenAI 的文化本质上是一种“信任+责任”的文化,它赋予个体极大的自由,同时也要求他们对自己的选择负责。

这种模式在实践中体现为对“吃狗粮”(dogfooding)的极致推崇。> “因为我们在 OPENAI 内部大量的吃自己的狗粮,也就是用我们自己的产品。” 这意味着所有产品团队,包括 Codex 团队,都必须首先使用自己开发的产品来完成日常工作。这种做法确保了产品的设计始终贴近真实用户的需求,避免了“闭门造车”。例如,Codex 团队在开发过程中,会直接用 Codex 来编写文档、生成测试用例、甚至修复自身代码中的 Bug。这种自我验证的过程,不仅极大地加速了产品迭代,也使其能够捕捉到那些在外部测试中难以发现的细微痛点。正是这种“用自己产品做自己事”的文化,使得 OpenAI 能够在内部就建立起一个强大的、自我强化的创新飞轮。

核心观点三:从“编码AGENT”到“超级助理”的演进路径:以代码为通用语言的智能体构建

Alexander Ambriques 提出了一项极具前瞻性的洞察:如果你想构建任何 AI 智能体(Agent),也许你都应该先从构建一个编码智能体开始。这一观点并非空穴来风,而是基于对“人机协作”本质的深刻理解。其核心逻辑在于,代码是目前最成熟、最可组合、最可互操作的“通用语言”。> “所以基本上你刚才问这是不是超级助理产品的两端CHATGPT和CODAX,在我看来,编码是任何AGENT的核心能力,包括CHATGPT。” 这意味着,无论未来 AI 将服务于何种领域(如金融分析、法律文书、艺术创作),只要它能通过“写代码”来与计算机交互,它就能获得巨大的灵活性和可扩展性。

这一路径的合理性体现在多个层面。首先,从技术实现上看,模型“用电脑”的最佳方式就是直接写代码。> “结果发现,模型用电脑最好的方式就是直接写代码。” 相比于模拟鼠标点击、键盘输入或调用复杂的 API,直接生成可执行的代码是最高效、最可靠的方式。其次,从用户体验上看,代码具有天然的“可组合性”。> “代码是可组合、可互操作的。” 一旦一个 Agent 能够编写代码,它就可以将不同的代码片段组合起来,形成更复杂的解决方案。例如,一个用于数据分析的 Agent 可以先写一段 Python 脚本读取数据,再调用另一个脚本进行清洗,最后生成可视化图表。这种模块化的能力,是其他交互方式难以比拟的。

这一演进路径的终极形态,是构建一个“超级助理”(Super Assistant),它不仅能编程,还能在各种场景下提供帮助。Alexander Ambriques 描述了一个理想化的未来:> “如果你是一个开发者,想完成某件事儿,我们希望你感觉自己拥有了超能力,能以快得多的速度前进。” 这个超级助理将无缝融入用户的工作流,无需用户时刻思考“如何调用 AI”,而是像一个随时待命的同事,只需一句简单的指令,就能完成复杂任务。> “我们希望你能够把它插入到你的工作流程中,然后它就能开始做事,而你根本不用去想它。” 这种“无感集成”是实现大规模普及的关键。

为了实现这一愿景,Codex 团队正在探索多种创新的交互范式。其中,“聊天驱动开发”(Chat-Driven Development)是一个引人注目的方向。> “所以我更倾向于那种方式,我甚至不一定非要写规范。” 这意味着,团队成员可以在 Slack 或 Teams 中直接讨论需求,而 Codex 会自动将这些对话转化为具体的开发任务。例如,当团队成员在聊天中提到“这个页面加载太慢了”,Codex 可以自动分析代码库,找出瓶颈并提出优化方案。> “聊天驱动开发CHATDRIVEN DEVELOPMENTS,就是各种事情在社交媒体上、在团队沟通工具里发生,然后结果就是代码被写出来并部署了。” 这种模式将开发过程从“正式的文档”回归到“自然的交流”,极大地降低了协作门槛。

另一个令人兴奋的设想是“竖屏视频决策”模式。> “我有一个关于未来的假设,有时会作为一种挑衅分享给别人,那就是在一个拥有真正强大AGENT的世界里,一个单人创业者会是什么样的?” 在这个设想中,Agent 会持续监听用户的手机屏幕、通话记录和社交动态,一旦发现有价值的商业机会,便会以竖屏短视频的形式呈现给用户,用户只需左右滑动即可做出决策。> “这不就是TINDER加TikTok再加CODEX吗?” 这种模式将决策过程游戏化,充分利用了现代人对短视频的注意力习惯,代表了人机交互的下一个前沿。

核心观点四:Sora APP 的诞生与 ATLAS 浏览器的革命:速度与效率的量化奇迹

Codex 的强大之处,最有力的证明莫过于其在真实项目中创造的惊人效率。其中,Sora 安卓 App 的诞生堪称典范。> “我们只用了18天就做出来了,10天之后也就是总共28天就公开发布了。” 这一数字背后,是传统软件开发周期的颠覆。通常,一个全新的移动应用从零开始,需要数月甚至数年的时间。而 Sora 项目仅用 18 天就完成了从构思到员工内测的全过程,再用 10 天完成优化并对外发布。> “所以这个速度是相当疯狂的。” 这种速度的实现,完全归功于 Codex 的深度集成。团队工程师并未手动编写每一行代码,而是将任务分解为一系列指令,交由 Codex 执行。例如,当需要为 iOS 和安卓平台分别生成应用时,工程师只需让 Codex 查看 iOS 版本的完整工作计划,然后执行即可。> “所以那个团队的工程师基本上就是让CODEX去看。iOS的应用生成需要完成的工作计划,然后去执行它。同时看着iOS和安卓,所以基本上就是两周对员工发布,总共四周。” 这种跨平台移植的自动化,极大地减少了重复劳动,将原本需要数周的工作压缩到了几天之内。

Sora 的成功并非孤例,另一项重大突破是 ATLAS 浏览器的开发。> “APP实际上是一个浏览器,而构建浏览器真的很难,所以我们必须构建很多困难的系统来做到这一点。” 浏览器是软件生态中最复杂的系统之一,涉及渲染引擎、网络协议、安全沙箱等多个层面。然而,ATLAS 项目却实现了惊人的效率提升。> “以前这种任务需要两三个工程师花两三周时间,现在一个工程师一周就搞定了。” 这种效率的飞跃,同样得益于 Codex 的深度使用。团队工程师将复杂的开发任务拆解为多个子任务,如“解析 HTML 模板”、“实现 CSS 渲染逻辑”、“编写 JavaScript 事件处理器”等,然后逐一交给 Codex 处理。> “我们和他们聊过,因为很多工程师是我创业前就认识的同事。他们会说以前这种任务需要两三个工程师花两三周时间,现在一个工程师一周就搞定了。” 这种“任务分解 + AI 执行”的模式,使得个人工程师的能力得到了几何级的放大。

这些案例共同揭示了一个核心规律:当 AI 能够在代码库中“自给自足”地运行时,其价值将呈指数级增长。> “我们已经开始看到未来的影子了,比如我们正尝试让CODEX为自己的训练任务待命ON CALL。” 这意味着,未来的开发不再是“人写代码,AI 辅助”,而是“AI 写代码,人监督”。> “我们让CODEX做代码审查,它能发现很多错误,甚至还发现过一些挺有意思的配置错误。” 这种自我审查和自我修复的能力,是实现“超级助理”愿景的关键一步。它解决了当前最大的瓶颈——人工审查 AI 生成代码的低效问题。一旦这一瓶颈被打破,人类工程师将从繁琐的重复劳动中解放出来,专注于更高层次的创造性工作,如系统架构设计、业务逻辑定义和用户体验优化。

核心观点五:人类的“打字速度”是通往 AGI 的最大瓶颈,而非模型能力

在所有关于 AI 未来的讨论中,一个常被忽视的维度是人类自身的生理与认知极限。Alexander Ambriques 提出,一个目前被严重低估的限制因素,正是“人类打字的速度,或者说人一心多用的速度”。> “一个目前被低估的限制因素,说白了就是人类打字的速度,或者说人一心多用的速度。” 这一观点极具颠覆性,它将 AGI 的发展障碍从“技术层面”拉回到了“人机交互层面”。

其背后的逻辑链条清晰而深刻:即使模型能力再强,如果人类用户必须通过打字来不断发送指令(prompting)和审查结果,那么整个系统的吞吐量将被牢牢锁定在人类的输入/输出速度上。> “如果你不主动去PROMPT模型,那它在那一刻可能就帮不到你。” 这意味着,用户必须时刻保持高度专注,不断思考“下一步该做什么”,这本身就是一种巨大的认知负担。> “普通用户今天PROMPT AI的次数有多少?可能也就几十次。” 这与理想中的“每天几千次”形成了鲜明对比。> “但如果有一个真正智能的实体,它能给人们带来好处的次数,每天可能有几千次。” 这种巨大的差距,正是当前 AI 应用未能充分发挥潜力的根本原因。

因此,通往 AGI 的关键,不在于追求更强大的模型,而在于重建系统,让 Agent 默认就是有用的。> “如果我们能重建系统,让AGENT默认就是有用的,我们就会开始解锁曲棍球棒式增长。” 这意味着,未来的系统不应是“等待用户指令”的被动工具,而应是“主动感知环境、主动发现问题、主动提出解决方案”的积极主体。例如,当用户在查看仪表盘时,如果某个关键指标突然下降,AI 可以在用户尚未意识到问题时,就自动分析原因并提出修复方案。> “就在那个时候,一个AI也许可以去看一下,然后就在我看着仪表盘的时候告诉我,他对这个指标下降的人有看法,甚至可能有一个修复方案,那会让我更保持心流状态。” 这种“情境动作”(Contextual Action)的设计,将极大减少用户的认知负荷,使其能更专注于核心工作。

这一理念的实现,依赖于对“上下文”的深度理解。> “我之所以认为这很重要,是因为我觉得每次都得把所有背景信息告诉一个助理,然后再去想他能怎么帮你,这太烦了。” 为此,OpenAI 正在开发 ATLAS 浏览器,其核心优势在于能直接接入网页的渲染引擎,提取原始数据,而非依赖不可靠的截图或辅助功能接口。> “相反,我们可以直接进入渲染引擎,提取我们需要的一切来帮助你。” 这种原生级别的上下文感知,是实现“主动协作”的技术基石。只有当 AI 能够像人类一样“看见”和“理解”其所处的环境时,它才能真正成为一个“队友”,而非一个“工具”。

次要观点与细节:从招聘到个人价值观的完整图景

除了上述宏观战略,访谈还揭示了诸多微观层面的细节,共同勾勒出一个立体的 OpenAI 文化图景。在人才招聘方面,Codex 团队正积极寻找“已经对 Agent 的未来有思考”的人。> “我们非常希望找到那些已经对AGENT的未来应该是什么样子有思考的人。” 为此,他们提出了一个筛选标准:想象自己在 OpenAI 工作六个月后,一个软件工程师的生活会是什么样?> “嘿,假设我加入OPENAI在CODEX工作六个月,并且做得非常出色,那六个月后一个软件工程师的生活会是什么样的?” 如果候选人对此有清晰的构想,说明其已具备必要的思维框架。

在个人生活层面,Alexander Ambriques 展现了其丰富的兴趣爱好。他推荐的书籍包括伊恩·班克斯的《文化》系列,一个乐观的太空共产主义乌托邦科幻作品。> “我敢肯定这本之前有人推荐过,就是《文化》系列,作者好像是伊恩·班克斯。” 他还喜爱动漫《咒术回战》,因其主角的善良与积极。> “有一部叫《咒术回战》的动漫,我非常喜欢。它也是一个有点黑暗的主题,关于恶魔。但我喜欢它的一点是主角人非常好。” 这些偏好与他倡导的“友善且坦诚”(be kind and candid)的个人座右铭高度一致。> “我创业公司排名第一的公司价值观,它仍然伴随着我,那就是友善且坦诚,be kind and candid。” 这种价值观不仅是个人信条,更是其领导风格的体现,强调在艰难对话中保持真诚,将坦诚视为一种善举。

在技术细节上,Codex 支持的语言分布与全球使用频率基本一致,这意味着它对主流编程语言(如 Python、JavaScript、Java)有很强的适配能力。> “我们训练CODEX的方式是,它支持的语言有一个分布。这个分布和这些语言在世界上的使用频率是相当一致的。” 同时,其最新版本 GPT5.1 CODEX MAX 在任务完成速度上提升了约 30%,并解锁了大量新的智能。> “对于任何你之前用GPT5.1 CODEX做的任务,它的完成速度大概快了百分之三十;另一方面,它也解锁了大量的智能。” 这表明,模型本身的进步仍在持续,为未来的发展提供了坚实基础。

总结与启示:迈向“超级助理”时代的三大支柱

综上所述,本次访谈为我们描绘了一幅清晰的未来图景:一个由 AI 驱动的“超级助理”时代正在到来。这一时代的到来,依赖于三大支柱的协同作用:

第一,以“编码”为通用语言的智能体构建路径。代码是目前最成熟、最可组合的交互媒介,使得 AI 能够以最高效的方式与计算机交互。从“写代码”到“审查代码”再到“管理训练任务”,Codex 的演进路径清晰地展示了这一路径的可行性。

第二,“模糊瞄准 + 快速实践”的组织创新模式。OpenAI 通过“自下而上”的文化、对“吃狗粮”的极致推崇,以及对不确定性的拥抱,构建了一个能够持续快速迭代的创新飞轮。这种模式是其能够在极短时间内实现技术突破的核心保障。

第三,对“人类瓶颈”的深刻洞察与系统性重构。将“人类打字速度”视为最大瓶颈,这一观点极具前瞻性。它提醒我们,真正的突破不在于模型本身,而在于如何设计系统,让 AI 能够主动、无感地融入人类工作流,从而实现“曲棍球棒式增长”。

最终,我们所期待的并非一个取代人类的 AI,而是一个能够与人类并肩作战、共同创造价值的“超级队友”。正如 Alexander Ambriques 所言,这不仅是技术的胜利,更是对人性、协作与创造力的礼赞。