← 返回
92 min 2025-04

OpenAI's CPO on how AI changes must-have skills, moats, coding, startup playbooks, more | Kevin Weil

概要

OpenAI首席产品官Kevin Weil谈AI时代产品方法论:模型极大主义、evals核心技能、ensemble架构,以及Libra项目的遗憾与反思

核心洞察

  • OpenAI 以"模型极大主义"(model maximalism)为产品哲学——不花时间弥补当前模型缺陷,因为每 2-3 个月就有更强模型上线,"你今天用的 AI 是你余生中最差的 AI 模型"。ChatGPT 周活超过 4 亿,3 百万开发者在用 API,但 Kevin 认为全球 AI 应用场景远未被覆盖
  • 写 evals(模型评测)正在成为产品经理和开发者的核心技能。模型在不同任务上的准确率差异巨大(60% vs 95% vs 99.5%),产品形态必须随准确率等级而设计,Deep Research 产品就是通过边设计边写 evals、持续 hill-climb 来完成的
  • OpenAI 内部大量使用模型集成(ensemble):10 个问题可能调用 20 个模型,包括不同规模的基础模型和多个 fine-tuned 专用模型——类似公司里不同专长的人组队协作。Kevin 认为未来所有产品团队都会配备准研究员来做 fine-tuning
  • Libra 是 Kevin 职业生涯最大遗憾——项目本可让 30 亿 WhatsApp 用户零费用即时转账,但同时推出新区块链 + 货币篮子 + 消息应用整合,在 Facebook 声誉最低谷时引发了监管风暴。技术以 2 亿美元卖出,开源代码今天仍存活于 Aptos 和 Mistin

贯穿全场的核心线索:Kevin 反复从不同角度回到同一个理念——AI 模型像人一样可以被"理解"。从推理模型的思考等待 UX 设计,到 ensemble 是"公司里不同专长的人",到教孩子"学会思考"比学什么技术都重要,再到 prompting 时"给模型角色设定"——他用人类认知模型作为设计 AI 产品和理解 AI 行为的核心隐喻。

加入 OpenAI:九天的焦虑与极速面试

核心要点:Kevin 从 Planet 离开后本打算休息一个夏天,Sam Altman 通过 Vinod Khosla 的引荐把休假变成了几天内完成的面试,但录用通知却静默了九天。

  • Kevin 与 Sam 此前只是"轻度认识",之前找 Sam 聊下一步时,Sam 通常会推荐他去看别的公司(如核聚变创业)。这次 Sam 说"你来跟我们聊"——信号完全不同
  • 面试流程极快:"几天内见完管理团队"。Sam 来 Kevin 家吃了一顿晚饭,第二天全面面试,预设是"如果顺利,基本就定了"
  • 面试后 9 天音讯全无。Kevin 每天跟妻子 Elizabeth 反复复盘自己哪句话说错了。实际原因:OpenAI 内部有别的大事在处理,根本没顾上
  • Kevin 类比为"约会后对方不回消息"——你以为出了问题,其实对方只是在忙
"It was nine days of agony and they were just super busy on some internal stuff and there I was fretting every single day and re-going over every line of our interview process." —— Kevin Weil

OpenAI 的速度:技术每两个月改变一次游戏规则

核心要点:与传统科技公司最大的差异不是规模而是技术底座的不确定性——数据库一年进步 5%,但 AI 模型每两个月就解锁前所未有的能力,产品思维必须不断重构。

  • Kevin 对比了之前在 Instagram/Twitter 做产品:"你知道底层技术是什么,只需要思考'解决什么问题、为谁解决'"。在 OpenAI 这些产品思考都一样做,但底层技术本身在剧变
  • "AI is whatever hasn't been done yet"——一旦做到了就叫 ML,一旦普及了就叫"算法"。自动驾驶是最好的例子:4 年前看到无人车会震惊,现在在湾区完全正常
  • GPT-3 发布时让人惊叹,但如果今天给你用 GPT-3,你会觉得"这是什么垃圾"。Waymo 也是——第一次坐进去 10 秒内抓紧扶手喊"小心那个自行车",5 分钟后冷静下来,再过 10 分钟你已经在刷邮件了
  • O-series 推理模型大约每 3-4 个月发布一代,每次都是能力阶跃。API 成本两年下降两个数量级(GPT-3.5 → GPT-4o mini 是 100x 降幅),模型同时变得更快、更智能、更安全
"The AI models that you're using today is the worst AI model you will ever use for the rest of your life, and when you actually get that in your head, it's kind of wild." —— Kevin Weil

Evals 是产品 Builder 的核心新技能

核心要点:Evals 是"模型的单元测试"——你需要知道模型在特定任务上的准确率层级(60%/95%/99.5%),因为产品形态必须随之完全不同;而且 evals 不是静态评估,而是驱动模型持续学习的工具。

  • Kevin 在 Lenny & Friends Summit 上(与 Mike Krieger、Sarah Guo 同台)提出"写 evals 会成为 PM 核心技能"
  • Deep Research 产品开发过程中,团队同步设计产品和 evals:先定义"hero use case"及其"amazing answer",再把这些变成评测指标,然后用 eval 分数 hill-climb 微调模型
  • "AI 的上限受限于你的 eval 有多好"——因为智力是极度多维的(competitive coding ≠ front-end coding ≠ COBOL → Python 转换),你必须为每个维度设计专门评测
  • 模型虽然"百科全书式聪明",但世界上大部分数据/知识/流程是非公开的(在企业/政府内部)。就像新员工需要 onboarding,模型需要 company-specific data + custom evals 来胜任特定场景
"If the model's 60% right on something, you're going to build a very different product than if the model gets it right 95% of the time versus 99.5% of the time." —— Kevin Weil

创业者的机会:OpenAI 不会覆盖的领域

核心要点:Kevin 引用 Ev Williams 在 Twitter 时的名言——"不管公司多大,围墙外的聪明人永远比里面多"。OpenAI 不想变成超大型公司,大部分行业垂直场景他们没有人、没有 know-how、也没有数据来做。

  • 3 百万开发者在用 API,OpenAI 的战略是做好平台让更多人去建
  • 核心观点:未来是"极度聪明的通用基础模型 + 用行业/企业特定数据 fine-tune"的组合。大部分有价值的 use case 的数据都不在模型的 training set 中
  • Kevin 直说"我们不想变得超大"(we don't want to grow super big),focus 是 API 和平台
  • 隐含建议:如果你的产品"刚好在模型能力边缘",继续做——再过几个月模型追上来,产品就会起飞。StackBlitz/Bolt 是典型案例:产品造了 7 年一直不行,Claude Sonnet 3.5 出来后突然全部可用

发货方法论:Bottoms-up + 迭代部署 + 模型极大主义

核心要点:OpenAI 用三条哲学保证速度——强 bottoms-up 授权、不等完美就发布的迭代部署(iterative deployment)、以及不在模型缺陷上建 scaffolding 的模型极大主义。

  • 季度 roadmap 会做但"不相信三个月后会真的做我们写下来的东西"。引用 Eisenhower:"Plans are useless. Planning is helpful."——停下来复盘、对齐依赖就够了
  • 不会因为 Sam 或 Kevin 在忙/出差就 block 发布。"If I'm traveling or Sam's busy, that's a bad reason for us not to ship."
  • 犯错是被容忍甚至预期的。"Sam pushes us really hard to move fast, but he also understands that with moving fast comes mistakes." 命名混乱是最好的例子——o3 mini high 这种名字"atrocious"但不重要,因为 ChatGPT 照样是全球第一
  • 模型极大主义:不为当前模型的 limitation 造大量 workaround(除了真正不可接受的错误类型),因为两个月后更强模型会碾压这些限制。给开发者的建议也一样
"Plans are useless. Planning is helpful." —— Kevin Weil 引用 Eisenhower

用人类认知设计 AI 体验:推理模型的 UX 突破

核心要点:设计 AI 产品时,一个反直觉的有效方法是"把模型想象成一个人"——用人类行为直觉来指导 UX 决策。

  • 推理模型首次需要让用户等 20-25 秒。团队思考:如果一个人需要 20 秒思考你的问题,他会做什么?——不会沉默 20 秒(那很诡异),也不会把每个念头都说出来(那很烦),而是"That's a good question. All right..."然后偶尔给 little updates
  • Deep Research 等 25 分钟就不一样——用户会去做别的事再回来,所以不需要实时 UI 吸引注意力
  • DeepSeek 推出后展示了大量 chain-of-thought,OpenAI 学到"大规模用户不想看模型碎碎念",最终选择了"中间路线":不只给子标题,但也不给三段废话,而是用 1-2 句话总结模型的思考方向
  • 模型集体"头脑风暴"也有人类对应:多人脑暴出的答案确实比个人强,因为"they think differently than me"
"If I asked you something that I needed to think for 20 seconds to answer, what would I do? I wouldn't just go mute and not say anything and shut down for 20 seconds and then come back." —— Kevin Weil

Chat 是 AI 的最佳界面——不是过渡方案

核心要点:Kevin 认为"chat 只是过渡界面"是错误共识。Chat 之所以强大是因为它和人类沟通方式完全一致——非结构化、最低限制、最大带宽——恰好匹配 LLM 擅长的模糊输入/模糊输出特性。

  • 过去 chat 不 work 是因为没有能理解人类语言复杂性的模型;LLM 就是让 chat 成为"正好匹配这个技术能力的界面"
  • 结构化界面有其场景(高频、prescribed、快速完成特定任务),但 chat 是"catch-all for every possible thing you'd ever want to express to a model"
  • Instagram 的按钮给你确定输入和确定输出;LLM 是 fuzzy input + fuzzy output,需要相应的 fuzzy interface
"I actually think chat is an amazing interface because it's so versatile... If I had some more rigid interface that I was allowed to use when we spoke, I would be able to speak to you about far fewer things." —— Kevin Weil

研究 + 产品团队的融合:从"API 消费者"到"共创"

核心要点:OpenAI 正在从"研究做模型 → 产品拿来用"的串行模式,转向研究/工程/产品/设计作为一个整体团队协作的共创模式。

  • 两年前 OpenAI 是"纯研究公司",ChatGPT 本身只是一个"低调的 research preview",没人想到会成为史上增长最快的产品
  • 旧模式的问题:"如果研究做了模型然后给产品团队,我们本质上只是自己 API 的消费者"
  • 新模式(以 Deep Research 为例):产品设计和 eval 设计并行,eval 驱动数据收集和 fine-tuning,是大量来回迭代的过程。"Every time we do it, we build something awesome"
  • 现在"every product starts like that"——每个新产品从第一天就是 ENG + PM + Design + Research 一起做

PM 哲学:高 Agency、少人数、舒适面对模糊

核心要点:OpenAI 约 25 个 PM,刻意保持"PM-light"。PM 最重要的能力是"在没人做决定时确保决定被做出",而不是微管理工程师。

  • "太多 PM 会制造问题——我们会用 deck 和 idea 填满世界,而不是执行"。PM 管的人偏多是好事,因为逼着 PM 放手、把决策权留给工程师
  • 招聘标准:高 agency(看到问题就去做,不等授权)、适应极度模糊、lead through influence(不靠汇报线管人)、高 EQ(尤其对研究团队要建立 rapport)
  • 不适合早期 PM:这里没人会说"这是你的领域,去做这个"——问题太模糊、太新、大家都在边走边想
  • PM 最重要的作用:像 CEO 一样判断"何时放手让团队 innovate,何时站出来果断拍板"。Kevin 类比 Sam——如果 Sam 在每个会上都做决定是错的,如果一个决定都不做也是错的
"If there's ambiguity and no one's making a call, you better make sure that we get a call made and we move forward." —— Kevin Weil

Vibe Coding 与 Fine-Tuning:产品团队的两大变革

核心要点:Kevin 认为自己"应该认不出"一年后的产品团队工作方式——vibe coding 应取代 Figma 做 demo,每个产品团队都将配备 ML 研究员做 fine-tuning。

  • Kevin 自我批评:"如果把 5 年前在别处做产品的自己传送过来,我还是能认出今天的工作流程——这说明我们 AI 用得不够"
  • Julia(OpenAI 首席人力官)用 Windsurf vibe coded 了一个她在上家公司很想要的内部工具。"If our chief people officer is doing it, we have no excuse"
  • Vibe coding 解释:让模型写代码,你只做"tap, tap, tap, yes, yes, yes"——遇到编译错误就把 error 贴回去让模型修。不适合生产代码,但"30 分钟做出可交互 prototype"完全可行
  • 对 fine-tuning 未来的判断:Kevin "surprised" 行业还没大规模用 fine-tuning。"Why would you not want to more specifically customize a model against a particular use case?" 未来每个产品团队都会有准研究员/ML 工程师

模型集成(Ensemble):内部使用 20 个模型解决 10 个问题

核心要点:OpenAI 内部不是"所有问题丢给 GPT-4o",而是拆解问题后用 20+ 个模型调用解决,包括不同规模的基础模型和 fine-tuned 专用模型。

  • 举例:客服(400M+ WAU 带来海量工单)只有 30-40 人,因为大量自动化。不确定的问题让模型建议答案 + 人类审核,审核结果本身就是 fine-tuning 数据
  • 不同模型对应不同需求:需要推理用 O-series,需要快速检查用 4o mini(超快超便宜)。"Specific models for specific purposes, then ensemble them together"
  • Kevin 的绝妙比喻:公司本身就是一个 ensemble——每个人在大学/职业生涯中被"fine-tuned"成不同技能,组合在一起输出远超个人。"不同人你付的薪水不同(cost 不同)、有些人回答慢(latency 不同)、有些人会幻觉(hallucinate)"
"A company is arguably an ensemble of models that have all been fine-tuned based on what we studied in college and what we have learned over the course of our careers." —— Kevin Weil

教育下一代:好奇心和思考能力,而非特定技能

核心要点:Kevin 的孩子(10 岁 + 8 岁双胞胎)完全"AI 原生"——自动驾驶和跟 ChatGPT 对话对他们来说天经地义。Kevin 和妻子 Elizabeth 的教育哲学是教"如何思考",而非教什么具体技术。

  • 社区有人幽默提问:孩子到 2036 年要面对"顶级水暖工培训项目的激烈竞争",得有 backup plan
  • Kevin 的回答:coding 可能长期有用,但核心是"教孩子好奇心、独立性、自信、学会思考——无论未来什么形态,这些都重要"
  • AI 个性化辅导是"maybe the most important thing AI could do"——每项研究都表明,教育 + 个性化辅导能带来"多个标准差"的学习速度提升
  • Kevin 对此表示困惑和急迫:"ChatGPT is free, people have Android devices everywhere"——为什么还没有 20 亿孩子在用 AI tutor?Khan Academy 在做好事,Vinod Khosla 有个非营利也在做,但远远不够

AI 与创造力:ImageGen、Sora 和专业创作流程

核心要点:AI 不是"输入一句话出一部电影"——它让"探索空间"从 2 个版本变成 50 个版本,让没有绘画能力的人也能创造视觉内容。

  • ImageGen Ghibli 风格在社交媒体上的爆发是"ChatGPT 发布以来最病毒式的事件"。团队提前就知道会火——内部使用时"nonstop buzz",类似 Instagram Stories 上线前内部先用起来
  • 与一位知名电影导演的对话:以前拍 sci-fi 的过渡场景(飞船进入死星式场景),要付 3D 特效公司 10 万美元等一个月,只能得到 2 个版本。现在用 Sora 可以在几分钟内生成 50 个版本做探索,最终仍去专业公司做成品,但创意探索阶段完全不同
  • Kevin 自嘲"I'm the world's worst artist"——但 ImageGen 让他能把创意想法变成视觉输出
  • Sam Altman 最近展示了内部创意写作新研究的成果,"有些令人兴奋的新研究技术"即将公布

Libra:职业生涯最大遗憾

核心要点:Libra 项目试图让 30 亿 WhatsApp 用户零费用即时转账,解决汇款行业 20% 手续费的不公正。失败原因是同时引入太多变化 + 时机差(Facebook 声誉最低谷)。

  • David Marcus 领导项目,Kevin 是他的副手并视他为"mentor and friend"
  • 项目初始设计激进:新区块链 + 货币篮子 + WhatsApp/Messenger 集成,"the whole world kind of went like, oh my God, that's a lot of change at once"
  • Kevin 的反思:"如果能重来,我会更温和地引入变化——一次只推一个新东西,也许能达到同样的终态"
  • 技术以 2 亿美元卖给 PE 公司。开源代码存活于 Aptos 和 Mistin(两家公司现在发展不错)
  • Kevin 认为现在时机已对:当前政府对 crypto 友好,Meta 声誉也恢复了,"maybe they should go build it now"
"It fundamentally disappoints me that this doesn't exist in the world today because the world would be a better place if we'd been able to ship that product." —— Kevin Weil

Lightning Round:书、格言与 Prompting 技巧

核心要点:Kevin 推荐三本书(全为首次在该节目出现),人生格言来自 Zuckerberg 一次财报会上的回答,prompting 核心技巧是"给 few-shot examples"和"角色设定"。

  • 推荐书:《Co-Intelligence》(Ethan Mollick)——AI 在日常生活中的使用;《The Accidental Superpower》(Peter Zeihan)——地缘政治;《Cable Cowboy》——John Malone 传记,商业/并购
  • 电影/剧:《Top Gun 2》——"I want more Americana, more being proud of being strong"
  • 最爱产品:Windsurf(vibe coding)和 Waymo("still feels like the future")
  • 人生格言:Zuckerberg 在财报会上被问"什么驱动了增长?"答:"Sometimes it's not any one thing, it's just good work consistently over a long period of time." Kevin 做成了海报挂在房间里,连接到他跑超马的理念——"showing up day in and day out, getting a little bit better every single day"
  • Prompting 技巧:(1) 未来不应该需要 prompt engineering(就像不需要了解 MySQL InnoDB 版本号);(2) 但目前最有效的是给 examples(few-shot,穷人版 fine-tuning);(3) 给模型角色设定有效("You are the world's greatest marketer"——shifts the model into a certain mindset)

附录:关键人/机构/产品/数据

| 项目 | 详情 |

|------|------|

| Kevin Weil | CPO, OpenAI;前 Instagram/Twitter/Planet 产品负责人 |

| Sam Altman | CEO, OpenAI;推动快速发布 + 容忍犯错的文化 |

| David Marcus | Libra/Novi 项目负责人,Kevin 的导师 |

| Julia | OpenAI 首席人力官,用 Windsurf vibe coded 内部工具 |

| Vinod Khosla | 帮助 Kevin 与 Sam 建立联系;有 AI 教育非营利 |

| Ev Williams | Twitter 联合创始人,"墙外聪明人比墙内多" |

| Ethan Mollick | 《Co-Intelligence》作者,AI 教育领域思想家 |

| ChatGPT | 周活 400M+,最快增长产品 |

| Deep Research | 可工作 25-30 分钟处理复杂查询的产品 |

| ImageGen | Ghibli 风格图片生成,自 ChatGPT 发布以来最病毒式传播事件 |

| Sora | OpenAI 视频生成模型 |

| Operator | OpenAI 的 agentic 浏览器产品 |

| Libra/Novi | Facebook 区块链支付项目,技术存活于 Aptos/Mistin |

| GPT-3.5 → 4o mini | API 成本下降 100x |

| O-series | 推理模型系列,约每 3-4 个月迭代 |

| PM 数量 | OpenAI 约 25 个 |

| 客服团队 | 约 30-40 人(远低于 400M WAU 公司正常水平) |

| StackBlitz/Bolt | 造了 7 年,Claude Sonnet 3.5 让产品终于可用 |