OWL Top AI Talks, All in One For U.

87 min 2026-05

Why cultivating agency matters more than cultivating skills in the AI era | Max Schoening (Notion)

Lenny's Podcast · Max Schoening

查看原始内容 →

概要

Notion产品负责人Max Schoening谈AI时代Agency比技能更重要、Malleable Software愿景、伟大产品的Tiny Core法则、以及模型智能达到够用后速度比更聪明更有价值

核心洞察

「模型极大主义」是 OpenAI 核心产品哲学：不为当前模型局限搭建过多脚手架，因为两个月后新模型会碾压现有限制——开发者应在能力边缘持续构建
写 Evals 正在成为产品经理的核心技能：模型在不同任务上的正确率从 60% 到 99.5% 不等，产品形态完全取决于你对这个数字的精确度量
未来每个产品团队都需要"准研究员"：Fine-tuning + 模型集成（ensemble）是 OpenAI 内部标准做法，用 20 个不同模型调用解决 10 个问题
Chat 作为 AI 界面被低估了：它是唯一能承载人类语言全部复杂性的无限制通信媒介，和 LLM 能力天然匹配
OpenAI 400M WAU 仅约 30-40 名客服：大量流程自动化，用 fine-tuned 模型做分级应答，人类只处理模型没有信心的工单

ImageGen 内部爆火是产品信号：如果社交产品内部不疯传，要质疑方向

ImageGen 上线前内部画廊让全公司自发玩了数月，持续 buzz 不断——与 Instagram Stories 内部测试时的体验一致
Ghibli 风格走红并非官方 seed，而是模型极强的指令跟随能力 + 用户自发发现
模型实际能力远超风格化：可输入两张图片（客厅 + 物品照），要求模型「把这个放那边、那个放右边」，模型能理解复杂空间指令

每两个月计算机能做到前所未有之事——OpenAI 与传统公司的根本区别

Twitter/Instagram/Planet 时代：底层技术（数据库等）一年进步 5%，产品经理思考的是用户问题
OpenAI 时代：每两个月出现全新能力，需要彻底重新思考产品方向——这是根本性差异
GPT-3 如果今天回看会觉得「垃圾」，但两年前让人惊叹——适应速度极快，如同坐 Waymo 10 分钟后开始无聊刷邮件
「你今天用的 AI 模型是你余生中最差的 AI 模型」——将此内化后，一切计划都不同

Evals 是产品开发的必修课：模型 60% 准确率与 99.5% 是完全不同的产品

Eval 本质是「给模型出的考试」，衡量模型在特定任务上的能力水平
Deep Research 产品开发过程中，同步设计 evals + 产品形态 + fine-tuning，形成飞轮：eval 上升 → 确认产品可行
模型智能是多维的：competitive coding ≠ front-end coding ≠ COBOL 转 Python——不能用单一 eval 衡量
AI 产品的能力上限受制于 evals 质量：如果不知道怎么衡量，就不知道模型在哪里好、哪里差

Fine-tuning 使用率之低令人惊讶——但这是确定性的未来

OpenAI 内部标准做法：10 个问题用 20 个模型调用解决，包括不同大小模型（延迟/成本权衡）、专用 fine-tuned 模型、定制 prompt
400M+ WAU 客服场景：大部分用自动化模型应答，模型无信心时推给人类，人类的回答反过来成为 fine-tuning 数据
客服团队仅 30-40 人，远小于同体量任何公司——自动化率极高
Kevin 的类比：公司就是一个 model ensemble——每个人在大学和职业中被 fine-tuned 为不同技能，组合在一起产出远超个体
对行业的建议：别用通用模型扔宽泛问题，要拆解为具体子任务，每个用专用模型解决，再集成

OpenAI 不会吃掉所有市场——3M 开发者战略与垂直机会

Ev Williams 在 Twitter 时的名言：「无论公司多大，墙外的聪明人永远多于墙内」
OpenAI 明确不想变成超大公司：大量行业/垂直场景需要公司特有数据和领域知识，这些不在训练集中
3M+ 开发者使用 API，OpenAI 乐于做基础设施而非亲自做每个应用
关键洞察：「大部分世界的数据、知识、流程不是公开的——在公司或政府的围墙之后」

迭代部署哲学：不等完美，在公众面前共同进化

核心原则：与其在内部憋到完美，不如早发布、快迭代，与社会共同学习模型能力边界
不设 launch gate 卡发布：不会因为等 Kevin 或 Sam review 而 block 发布
命名混乱（o3 mini high 等）被承认「atrocious」，但证明「不重要」——ChatGPT 照样是增长最快的产品
季度 roadmap 的 Eisenhower 原则：「Plans are useless, planning is helpful」——写了也知道三个月后会扔掉一半

模型极大主义：不为今天的限制建脚手架，信任下一代模型

定义：模型会犯错，但不花大量时间给非关键错误搭 scaffolding——两个月后新模型会解决
对开发者的建议：如果你的产品刚好卡在模型能力边缘——继续做，你方向对了；再等两个月模型就跟上了
StackBlitz（Bolt）案例：7 年 behind-the-scenes 开发一直失败，Claude Sonnet 3.5 发布后一切突然 work——验证了模型极大主义
Kevin 坦承 Anthropic 的 coding model 很强：「kudos to Anthropic，we think we can do the same」——也许播客发布时会有更多进展

Reasoning 模型的 UX 设计：像人一样思考等待体验

25 秒等待的困境：太长不能让用户干等，太短不值得切换到其他事——怎么设计？
答案来自人类类比：人被问难题不会沉默 20 秒，会说「好问题，让我想想」然后给小更新
首版只给子标题，DeepSeek 给全部思维链——OpenAI 选择中间路线：1-2 句总结，兼顾信息量和体验
Deep Research 的 25 分钟等待反而不难：用户自然会去做别的事再回来

Chat 是被低估的终极 AI 界面

Kevin 的非共识观点：「大多数人认为 chat 会被更好的界面取代，我认为 chat 就是最好的界面」
原因：Chat 是人类最低限制的通信方式——任何更结构化的界面都限制了表达范围
过去 chat 不 work 是因为没有模型能理解语言复杂性——LLM 是第一次让 chat 变得有意义
不是「只有 chat」：高频、规范化场景可以用更受限的专用界面——但 chat 应作为所有场景的兜底

Vibe Coding：OpenAI CPO 都应该带头做原型

Kevin 自我批评：如果五年前的自己穿越到今天的工作日，仍然能认出来——说明 AI 融入度不够
应该做的：用 30 分钟 vibe code 出 demo 取代 Figma 稿展示概念
OpenAI CPO Julia（HR 负责人）用 Windsurf 自己 vibe coded 一个内部工具——「如果她能做到，我们没有借口」
Vibe coding 定义（Andrej Karpathy 造词）：让模型持续写代码，tap-tap-tap 接受建议，报错就贴 error 让模型修——不追求生产级但极快出概念

产品团队结构：PM-light + 高 Agency 工程师 + 研究员嵌入

OpenAI 仅约 25 名 PM——刻意保持少量，「太多 PM 导致满世界 deck 和 idea 而非执行」
理想状态：每个 PM 负责「略多」工程师 → 无暇微管理 → 工程师被迫有主人翁意识
研究与产品的融合：不能只做「自己模型的 API 消费者」，最好的产品是 Eng + PM + Design + Research 一起做
PM 招人标准：高 Agency、适应模糊性、通过影响力领导（非汇报关系）、高 EQ（与研究团队建立 rapport）
PM 最重要的事：在没人做决策时确保决策被做出——类比 CEO 的角色

AI 时代的教育与技能：教孩子好奇心和独立思考

Kevin 三个孩子（10 岁 + 8 岁双胞胎）完全 AI native：自动驾驶和 ChatGPT 对话对他们是常态
不确定 coding 未来是否仍重要，但确定好奇心、独立性、自信、学会思考在任何未来配置下都重要
个性化 AI 辅导是「AI 能做的最重要的事之一」：所有研究显示一对一辅导带来数个标准差的学习提升
现状令人惊讶：ChatGPT 免费、模型够好、Android 遍布全球——为什么还没有 20 亿儿童在用的 AI 辅导产品？

Libra（Facebook 加密货币）：职业生涯最大遗憾

问题：跨境汇款手续费高达 20%、耗时数天——WhatsApp 30 亿用户为何不能像发短信一样免费即时转账？
失败原因：同时推太多新东西（新区块链 + 一篮子货币 + WhatsApp/Messenger 整合），且赶上 Facebook 声誉最低点
Kevin 的反思：应该一步步引入变化，而非一次性颠覆
技术遗产：开源代码被 Aptos 和 Mistin 继承并运作良好
现在的想法：当前政府对 crypto 友好、Meta 声誉恢复——「Maybe they should go build it now」

模型能力以 10x/年加速——远超摩尔定律

GPT-3.5 到 GPT-4o mini：API 成本下降 100 倍，智能大幅提升——两年内两个数量级
O 系列 reasoning 模型每 3-4 个月出新版，每版能力阶梯式提升
四重趋势同时发生：更聪明、更快、更便宜、更安全（hallucination 每代下降）
摩尔定律是 18 个月翻倍；AI 是每年 10 倍——指数陡峭得多
对未来的判断：几年后回看今天就像今天回看 GPT-3——无法想象

闪电问答：持续好的工作 > 银弹

推荐书：《Co-Intelligence》(Ethan Mollick)、《The Accidental Superpower》(Peter Zeihan)、《Cable Cowboy》(John Malone 传记)
人生哲学（Zuckerberg 语）：「Sometimes it's not any one thing, it's just good work consistently over a long period of time」
Prompting 建议：提供 few-shot examples（穷人版 fine-tuning）；角色设定（「You are the world's greatest marketer」）
Kevin 的长期目标：消灭 prompt engineering 的必要性——如果 AI 要真正普及，用户不该需要学这个
最爱产品：Windsurf（vibe coding）和 Waymo（每次都坐）