#364.解密 OpenAI 高效引擎：18天打造榜首 App，Codex 负责人揭秘 AI 队友的进化之路 - 跨国串门儿计划

节目

跨国串门儿计划

日期

2025-12

时长

69 min

查看原始内容 →

概述

报告概述

本报告基于知名科技与产品播客《Lenny's Podcast》第364期的深度访谈内容，聚焦于 OpenAI 核心编码智能体（Agent）项目 Codex 的技术演进、组织运作模式及其对软件工程范式的根本性重塑。本次访谈邀请到 Codex 产品负责人、前创业者 Alexander Ambriques，系统揭示了 OpenAI 如何通过“以编码为起点”的战略路径，构建一个能真正实现“主动协作”的 AI 工程师队友，并在极短时间内完成从概念验证到市场爆款的跨越。报告全面梳理了 Codex 从“实习生”定位到“可自主执行任务”的进化逻辑，深入剖析其背后的技术架构——即模型、API 层与应用框架（HARNESS）三者协同的“技术站”体系，以及如何通过“吃狗粮”（internal dogfooding）机制持续优化用户体验。

报告的核心洞见在于：当前制约 AGI 实现的最大瓶颈并非模型本身，而是人类在与 AI 协作过程中的认知与操作效率，尤其是打字速度与多任务处理能力。这一观点颠覆了传统对 AI 发展的线性理解，提出“生产力循环”必须被重构，才能解锁真正的“曲棍球棒式增长”。具体案例包括：仅用18天开发并发布 Sora 安卓 App，28天内登顶应用商店榜首；ATLAS 浏览器项目由单个工程师一周内完成原需数周的工作；以及 Codex 自动审查自身训练任务中发现关键配置错误等。这些案例共同证明，当 AI 能够在代码库中“自给自足”地运行、验证与修复时，人类工程师的创造力将被彻底释放，从而进入“超级助理”时代。

此外，报告还深入探讨了 Codex 在非工程领域的潜力，如设计师利用其快速原型化动画、数据科学家通过自然语言提问获取分析结果，以及未来可能实现的“聊天驱动开发”（Chat-Driven Development）或“竖屏视频决策”等全新交互范式。最后，Alexander Ambriques 对 AGI 时间线的展望极具启发性：他认为，AGI 的到来并非某个瞬间事件，而是一个渐进过程，始于早期采纳者实现指数级生产力跃迁，最终反哺 AI 实验室，形成正向循环。这一系列深刻见解不仅揭示了 OpenAI 的内部运作哲学，更预示了整个软件产业乃至人类工作方式的未来图景。

核心观点一：Codex 的本质是“软件工程队友”的开端，而非简单的代码生成工具

Codex 的定位远超传统 IDE 插件或自动补全功能，其核心愿景是成为开发者在软件生命周期中不可或缺的“远程队友”，一个能够主动参与规划、执行、验证与维护全流程的智能合作者。这一理念源于对“团队协作”本质的深刻理解：最高效的团队成员并非被动接收指令，而是具备主动性、上下文感知力和问题解决能力的个体。正如 Alexander Ambriques 所生动比喻：“今天的 CODEX 有点像一个特别聪明的实习生，但他就是不爱看 SLACK，也不看 DATA DOG 或者 CENTURY，除非你叫他去看。” > “CODEX 其实只是一个软件工程队友的开端，它现在有点像一个特别聪明的实习生，但就是不爱看 SLACK。你不叫它，它也绝不会去主动看数据。”

这一比喻精准地揭示了当前 AI Agent 的核心局限：尽管其推理能力强大，但缺乏对工作环境的主动探索意愿。它无法像人类同事一样，通过观察 Slack 通知、邮件、会议纪要或项目管理工具来获取上下文信息，从而主动发起行动。这种“被动等待”模式严重限制了其作为“队友”的价值。因此，Codex 团队的核心目标之一，便是推动其从“被动响应”向“主动协作”转变。这要求系统不仅要能写代码，更要能理解代码库的结构、历史变更、团队规范，并在合适时机介入，例如在检测到潜在性能瓶颈或安全漏洞时，主动提出优化建议。

为了实现这一目标，Codex 的设计已超越单一功能，转向构建一个完整的“代理生态系统”。该系统不仅包含强大的推理模型，还集成了专门的 API 接口和应用框架（HARNESS），共同构成其“技术站”。这一架构允许 Codex 在沙盒环境中安全地运行代码、访问依赖项、进行测试，并通过反馈循环不断学习和改进。例如，当用户提交一个命令时，如果沙盒环境无法执行，Codex 会主动询问用户，从而建立一个高效且直观的交互闭环。> “我们不需要设置任何环境。如果一个命令在沙盒里行不通，它就会问你，这样你就能和模型形成一个非常强的反馈循环。” 这种设计使得 Codex 能够“边做边学”，逐步适应用户的实际工作流程，而不是强迫用户去适应一个僵化的工具。

进一步而言，Codex 的“队友”角色正在从“辅助编码”扩展至“赋能全链路”。在 OpenAI 内部，Codex 已被用于自动化部署、监控系统健康状态、甚至为自身的训练任务“待命 ON CALL”。> “我们已经开始看到未来的影子了。比如我们正尝试让 CODEX 为自己的训练任务待命 ON CALL。” 这意味着 Codex 不再仅仅是“写代码的人”，而是开始承担起“运维者”、“质量保证员”甚至“项目经理”的职责。它能实时监控训练过程中的图表变化，一旦发现异常（如损失函数突变、梯度消失），便能立即发出警报或尝试自动修复。这种能力的实现，标志着 Codex 正从一个“工具”进化为一个“自治实体”，其行为模式越来越接近一个真正意义上的“工程师”。

核心观点二：OpenAI 的高效运作模式源于“模糊瞄准 + 快速实践”的双轮驱动

OpenAI 能够在极短时间内催生出如 Sora APP 这样的现象级产品，其背后并非偶然，而是建立在一套独特且高度有效的组织运作哲学之上。这套模式的核心可以概括为“模糊瞄准”与“快速实践”的双轮驱动。与传统创业公司“先制定完美计划，再全力执行”的“准备瞄准开火”模式不同，OpenAI 采取的是“准备开火瞄准”的策略。> “我听下来感觉你们的做事方式更像是准备开火瞄准，而不是准备瞄准开火。” 这一比喻形象地说明了其核心思想：在面对高度不确定性的前沿技术时，过度追求完美的前期规划反而是一种浪费。与其花费大量时间去精确预测未来，不如迅速将想法付诸实践，在真实世界中获取反馈，然后根据反馈迭代。

这种模式的根基在于一种深刻的谦逊态度和对“不确定性”的接纳。Alexander Ambriques 指出，他在加入 OpenAI 前曾担任创业者和 Dropbox 产品经理，深知“每个创业公司的创始人都觉得自己公司节奏超快、人才标准超高、野心也超大”。然而，他在 OpenAI 的体验让他重新定义了这些词的含义。> “但我必须说，在 OPENAI 工作真的让我重新认识了这些词到底意味着什么。” 这种“重新认识”源于一个事实：在 OpenAI，团队的“速度”和“报复”（应为“规模”或“影响力”）远超任何其他地方。这种高速运转并非来自外部压力，而是源于对“可能性”的无限探索。当所有人都相信自己正在构建改变世界的工具时，每一个微小的进展都显得至关重要。

支撑这一高速运转的，是其独特的组织架构——“极其自下而上”（extremely bottom-up）。> “但在这里，因为我们不完全确定很快会出现什么新能力，也不知道技术上什么能行得通。就算技术上可行，我们也不知道推向市场后反响如何。” 这种不确定性恰恰是“自下而上”模式得以成立的前提。它迫使团队放弃自上而下的指令式管理，转而鼓励一线工程师和产品经理基于实验和反馈自主决策。这种模式的成功，依赖于一个前提：雇佣的都是世界上最顶尖的人才。> “我们未来几个月没有确切的计划，但关键在于你们雇佣的都是世界上最顶尖的人才，所以这感觉是……自下而上模式能成功。” 如果团队成员不具备足够的专业素养和判断力，这种模式将导致混乱。因此，OpenAI 的文化本质上是一种“信任+责任”的文化，它赋予个体极大的自由，同时也要求他们对自己的选择负责。

这种模式在实践中体现为对“吃狗粮”（dogfooding）的极致推崇。> “因为我们在 OPENAI 内部大量的吃自己的狗粮，也就是用我们自己的产品。” 这意味着所有产品团队，包括 Codex 团队，都必须首先使用自己开发的产品来完成日常工作。这种做法确保了产品的设计始终贴近真实用户的需求，避免了“闭门造车”。例如，Codex 团队在开发过程中，会直接用 Codex 来编写文档、生成测试用例、甚至修复自身代码中的 Bug。这种自我验证的过程，不仅极大地加速了产品迭代，也使其能够捕捉到那些在外部测试中难以发现的细微痛点。正是这种“用自己产品做自己事”的文化，使得 OpenAI 能够在内部就建立起一个强大的、自我强化的创新飞轮。

核心观点三：从“编码AGENT”到“超级助理”的演进路径：以代码为通用语言的智能体构建

Alexander Ambriques 提出了一项极具前瞻性的洞察：如果你想构建任何 AI 智能体（Agent），也许你都应该先从构建一个编码智能体开始。这一观点并非空穴来风，而是基于对“人机协作”本质的深刻理解。其核心逻辑在于，代码是目前最成熟、最可组合、最可互操作的“通用语言”。> “所以基本上你刚才问这是不是超级助理产品的两端CHATGPT和CODAX，在我看来，编码是任何AGENT的核心能力，包括CHATGPT。” 这意味着，无论未来 AI 将服务于何种领域（如金融分析、法律文书、艺术创作），只要它能通过“写代码”来与计算机交互，它就能获得巨大的灵活性和可扩展性。

这一路径的合理性体现在多个层面。首先，从技术实现上看，模型“用电脑”的最佳方式就是直接写代码。> “结果发现，模型用电脑最好的方式就是直接写代码。” 相比于模拟鼠标点击、键盘输入或调用复杂的 API，直接生成可执行的代码是最高效、最可靠的方式。其次，从用户体验上看，代码具有天然的“可组合性”。> “代码是可组合、可互操作的。” 一旦一个 Agent 能够编写代码，它就可以将不同的代码片段组合起来，形成更复杂的解决方案。例如，一个用于数据分析的 Agent 可以先写一段 Python 脚本读取数据，再调用另一个脚本进行清洗，最后生成可视化图表。这种模块化的能力，是其他交互方式难以比拟的。

这一演进路径的终极形态，是构建一个“超级助理”（Super Assistant），它不仅能编程，还能在各种场景下提供帮助。Alexander Ambriques 描述了一个理想化的未来：> “如果你是一个开发者，想完成某件事儿，我们希望你感觉自己拥有了超能力，能以快得多的速度前进。” 这个超级助理将无缝融入用户的工作流，无需用户时刻思考“如何调用 AI”，而是像一个随时待命的同事，只需一句简单的指令，就能完成复杂任务。> “我们希望你能够把它插入到你的工作流程中，然后它就能开始做事，而你根本不用去想它。” 这种“无感集成”是实现大规模普及的关键。

为了实现这一愿景，Codex 团队正在探索多种创新的交互范式。其中，“聊天驱动开发”（Chat-Driven Development）是一个引人注目的方向。> “所以我更倾向于那种方式，我甚至不一定非要写规范。” 这意味着，团队成员可以在 Slack 或 Teams 中直接讨论需求，而 Codex 会自动将这些对话转化为具体的开发任务。例如，当团队成员在聊天中提到“这个页面加载太慢了”，Codex 可以自动分析代码库，找出瓶颈并提出优化方案。> “聊天驱动开发CHATDRIVEN DEVELOPMENTS，就是各种事情在社交媒体上、在团队沟通工具里发生，然后结果就是代码被写出来并部署了。” 这种模式将开发过程从“正式的文档”回归到“自然的交流”，极大地降低了协作门槛。

另一个令人兴奋的设想是“竖屏视频决策”模式。> “我有一个关于未来的假设，有时会作为一种挑衅分享给别人，那就是在一个拥有真正强大AGENT的世界里，一个单人创业者会是什么样的？” 在这个设想中，Agent 会持续监听用户的手机屏幕、通话记录和社交动态，一旦发现有价值的商业机会，便会以竖屏短视频的形式呈现给用户，用户只需左右滑动即可做出决策。> “这不就是TINDER加TikTok再加CODEX吗？” 这种模式将决策过程游戏化，充分利用了现代人对短视频的注意力习惯，代表了人机交互的下一个前沿。

核心观点四：Sora APP 的诞生与 ATLAS 浏览器的革命：速度与效率的量化奇迹

Codex 的强大之处，最有力的证明莫过于其在真实项目中创造的惊人效率。其中，Sora 安卓 App 的诞生堪称典范。> “我们只用了18天就做出来了，10天之后也就是总共28天就公开发布了。” 这一数字背后，是传统软件开发周期的颠覆。通常，一个全新的移动应用从零开始，需要数月甚至数年的时间。而 Sora 项目仅用 18 天就完成了从构思到员工内测的全过程，再用 10 天完成优化并对外发布。> “所以这个速度是相当疯狂的。” 这种速度的实现，完全归功于 Codex 的深度集成。团队工程师并未手动编写每一行代码，而是将任务分解为一系列指令，交由 Codex 执行。例如，当需要为 iOS 和安卓平台分别生成应用时，工程师只需让 Codex 查看 iOS 版本的完整工作计划，然后执行即可。> “所以那个团队的工程师基本上就是让CODEX去看。iOS的应用生成需要完成的工作计划，然后去执行它。同时看着iOS和安卓，所以基本上就是两周对员工发布，总共四周。” 这种跨平台移植的自动化，极大地减少了重复劳动，将原本需要数周的工作压缩到了几天之内。

Sora 的成功并非孤例，另一项重大突破是 ATLAS 浏览器的开发。> “APP实际上是一个浏览器，而构建浏览器真的很难，所以我们必须构建很多困难的系统来做到这一点。” 浏览器是软件生态中最复杂的系统之一，涉及渲染引擎、网络协议、安全沙箱等多个层面。然而，ATLAS 项目却实现了惊人的效率提升。> “以前这种任务需要两三个工程师花两三周时间，现在一个工程师一周就搞定了。” 这种效率的飞跃，同样得益于 Codex 的深度使用。团队工程师将复杂的开发任务拆解为多个子任务，如“解析 HTML 模板”、“实现 CSS 渲染逻辑”、“编写 JavaScript 事件处理器”等，然后逐一交给 Codex 处理。> “我们和他们聊过，因为很多工程师是我创业前就认识的同事。他们会说以前这种任务需要两三个工程师花两三周时间，现在一个工程师一周就搞定了。” 这种“任务分解 + AI 执行”的模式，使得个人工程师的能力得到了几何级的放大。

这些案例共同揭示了一个核心规律：当 AI 能够在代码库中“自给自足”地运行时，其价值将呈指数级增长。> “我们已经开始看到未来的影子了，比如我们正尝试让CODEX为自己的训练任务待命ON CALL。” 这意味着，未来的开发不再是“人写代码，AI 辅助”，而是“AI 写代码，人监督”。> “我们让CODEX做代码审查，它能发现很多错误，甚至还发现过一些挺有意思的配置错误。” 这种自我审查和自我修复的能力，是实现“超级助理”愿景的关键一步。它解决了当前最大的瓶颈——人工审查 AI 生成代码的低效问题。一旦这一瓶颈被打破，人类工程师将从繁琐的重复劳动中解放出来，专注于更高层次的创造性工作，如系统架构设计、业务逻辑定义和用户体验优化。

核心观点五：人类的“打字速度”是通往 AGI 的最大瓶颈，而非模型能力

在所有关于 AI 未来的讨论中，一个常被忽视的维度是人类自身的生理与认知极限。Alexander Ambriques 提出，一个目前被严重低估的限制因素，正是“人类打字的速度，或者说人一心多用的速度”。> “一个目前被低估的限制因素，说白了就是人类打字的速度，或者说人一心多用的速度。” 这一观点极具颠覆性，它将 AGI 的发展障碍从“技术层面”拉回到了“人机交互层面”。

其背后的逻辑链条清晰而深刻：即使模型能力再强，如果人类用户必须通过打字来不断发送指令（prompting）和审查结果，那么整个系统的吞吐量将被牢牢锁定在人类的输入/输出速度上。> “如果你不主动去PROMPT模型，那它在那一刻可能就帮不到你。” 这意味着，用户必须时刻保持高度专注，不断思考“下一步该做什么”，这本身就是一种巨大的认知负担。> “普通用户今天PROMPT AI的次数有多少？可能也就几十次。” 这与理想中的“每天几千次”形成了鲜明对比。> “但如果有一个真正智能的实体，它能给人们带来好处的次数，每天可能有几千次。” 这种巨大的差距，正是当前 AI 应用未能充分发挥潜力的根本原因。

因此，通往 AGI 的关键，不在于追求更强大的模型，而在于重建系统，让 Agent 默认就是有用的。> “如果我们能重建系统，让AGENT默认就是有用的，我们就会开始解锁曲棍球棒式增长。” 这意味着，未来的系统不应是“等待用户指令”的被动工具，而应是“主动感知环境、主动发现问题、主动提出解决方案”的积极主体。例如，当用户在查看仪表盘时，如果某个关键指标突然下降，AI 可以在用户尚未意识到问题时，就自动分析原因并提出修复方案。> “就在那个时候，一个AI也许可以去看一下，然后就在我看着仪表盘的时候告诉我，他对这个指标下降的人有看法，甚至可能有一个修复方案，那会让我更保持心流状态。” 这种“情境动作”（Contextual Action）的设计，将极大减少用户的认知负荷，使其能更专注于核心工作。

这一理念的实现，依赖于对“上下文”的深度理解。> “我之所以认为这很重要，是因为我觉得每次都得把所有背景信息告诉一个助理，然后再去想他能怎么帮你，这太烦了。” 为此，OpenAI 正在开发 ATLAS 浏览器，其核心优势在于能直接接入网页的渲染引擎，提取原始数据，而非依赖不可靠的截图或辅助功能接口。> “相反，我们可以直接进入渲染引擎，提取我们需要的一切来帮助你。” 这种原生级别的上下文感知，是实现“主动协作”的技术基石。只有当 AI 能够像人类一样“看见”和“理解”其所处的环境时，它才能真正成为一个“队友”，而非一个“工具”。

次要观点与细节：从招聘到个人价值观的完整图景

除了上述宏观战略，访谈还揭示了诸多微观层面的细节，共同勾勒出一个立体的 OpenAI 文化图景。在人才招聘方面，Codex 团队正积极寻找“已经对 Agent 的未来有思考”的人。> “我们非常希望找到那些已经对AGENT的未来应该是什么样子有思考的人。” 为此，他们提出了一个筛选标准：想象自己在 OpenAI 工作六个月后，一个软件工程师的生活会是什么样？> “嘿，假设我加入OPENAI在CODEX工作六个月，并且做得非常出色，那六个月后一个软件工程师的生活会是什么样的？” 如果候选人对此有清晰的构想，说明其已具备必要的思维框架。

在个人生活层面，Alexander Ambriques 展现了其丰富的兴趣爱好。他推荐的书籍包括伊恩·班克斯的《文化》系列，一个乐观的太空共产主义乌托邦科幻作品。> “我敢肯定这本之前有人推荐过，就是《文化》系列，作者好像是伊恩·班克斯。” 他还喜爱动漫《咒术回战》，因其主角的善良与积极。> “有一部叫《咒术回战》的动漫，我非常喜欢。它也是一个有点黑暗的主题，关于恶魔。但我喜欢它的一点是主角人非常好。” 这些偏好与他倡导的“友善且坦诚”（be kind and candid）的个人座右铭高度一致。> “我创业公司排名第一的公司价值观，它仍然伴随着我，那就是友善且坦诚，be kind and candid。” 这种价值观不仅是个人信条，更是其领导风格的体现，强调在艰难对话中保持真诚，将坦诚视为一种善举。

在技术细节上，Codex 支持的语言分布与全球使用频率基本一致，这意味着它对主流编程语言（如 Python、JavaScript、Java）有很强的适配能力。> “我们训练CODEX的方式是，它支持的语言有一个分布。这个分布和这些语言在世界上的使用频率是相当一致的。” 同时，其最新版本 GPT5.1 CODEX MAX 在任务完成速度上提升了约 30%，并解锁了大量新的智能。> “对于任何你之前用GPT5.1 CODEX做的任务，它的完成速度大概快了百分之三十；另一方面，它也解锁了大量的智能。” 这表明，模型本身的进步仍在持续，为未来的发展提供了坚实基础。

总结与启示：迈向“超级助理”时代的三大支柱

综上所述，本次访谈为我们描绘了一幅清晰的未来图景：一个由 AI 驱动的“超级助理”时代正在到来。这一时代的到来，依赖于三大支柱的协同作用：

第一，以“编码”为通用语言的智能体构建路径。代码是目前最成熟、最可组合的交互媒介，使得 AI 能够以最高效的方式与计算机交互。从“写代码”到“审查代码”再到“管理训练任务”，Codex 的演进路径清晰地展示了这一路径的可行性。

第二，“模糊瞄准 + 快速实践”的组织创新模式。OpenAI 通过“自下而上”的文化、对“吃狗粮”的极致推崇，以及对不确定性的拥抱，构建了一个能够持续快速迭代的创新飞轮。这种模式是其能够在极短时间内实现技术突破的核心保障。

第三，对“人类瓶颈”的深刻洞察与系统性重构。将“人类打字速度”视为最大瓶颈，这一观点极具前瞻性。它提醒我们，真正的突破不在于模型本身，而在于如何设计系统，让 AI 能够主动、无感地融入人类工作流，从而实现“曲棍球棒式增长”。

最终，我们所期待的并非一个取代人类的 AI，而是一个能够与人类并肩作战、共同创造价值的“超级队友”。正如 Alexander Ambriques 所言，这不仅是技术的胜利，更是对人性、协作与创造力的礼赞。

原文转录

加载中...