← 返回
87 min 2026-05

Why cultivating agency matters more than cultivating skills in the AI era | Max Schoening (Notion)

概要

Notion产品负责人Max Schoening谈AI时代Agency比技能更重要、Malleable Software愿景、伟大产品的Tiny Core法则、以及模型智能达到够用后速度比更聪明更有价值

核心洞察

  • 「模型极大主义」是 OpenAI 核心产品哲学:不为当前模型局限搭建过多脚手架,因为两个月后新模型会碾压现有限制——开发者应在能力边缘持续构建
  • 写 Evals 正在成为产品经理的核心技能:模型在不同任务上的正确率从 60% 到 99.5% 不等,产品形态完全取决于你对这个数字的精确度量
  • 未来每个产品团队都需要"准研究员":Fine-tuning + 模型集成(ensemble)是 OpenAI 内部标准做法,用 20 个不同模型调用解决 10 个问题
  • Chat 作为 AI 界面被低估了:它是唯一能承载人类语言全部复杂性的无限制通信媒介,和 LLM 能力天然匹配
  • OpenAI 400M WAU 仅约 30-40 名客服:大量流程自动化,用 fine-tuned 模型做分级应答,人类只处理模型没有信心的工单

ImageGen 内部爆火是产品信号:如果社交产品内部不疯传,要质疑方向

  • ImageGen 上线前内部画廊让全公司自发玩了数月,持续 buzz 不断——与 Instagram Stories 内部测试时的体验一致
  • Ghibli 风格走红并非官方 seed,而是模型极强的指令跟随能力 + 用户自发发现
  • 模型实际能力远超风格化:可输入两张图片(客厅 + 物品照),要求模型「把这个放那边、那个放右边」,模型能理解复杂空间指令

每两个月计算机能做到前所未有之事——OpenAI 与传统公司的根本区别

  • Twitter/Instagram/Planet 时代:底层技术(数据库等)一年进步 5%,产品经理思考的是用户问题
  • OpenAI 时代:每两个月出现全新能力,需要彻底重新思考产品方向——这是根本性差异
  • GPT-3 如果今天回看会觉得「垃圾」,但两年前让人惊叹——适应速度极快,如同坐 Waymo 10 分钟后开始无聊刷邮件
  • 「你今天用的 AI 模型是你余生中最差的 AI 模型」——将此内化后,一切计划都不同

Evals 是产品开发的必修课:模型 60% 准确率与 99.5% 是完全不同的产品

  • Eval 本质是「给模型出的考试」,衡量模型在特定任务上的能力水平
  • Deep Research 产品开发过程中,同步设计 evals + 产品形态 + fine-tuning,形成飞轮:eval 上升 → 确认产品可行
  • 模型智能是多维的:competitive coding ≠ front-end coding ≠ COBOL 转 Python——不能用单一 eval 衡量
  • AI 产品的能力上限受制于 evals 质量:如果不知道怎么衡量,就不知道模型在哪里好、哪里差

Fine-tuning 使用率之低令人惊讶——但这是确定性的未来

  • OpenAI 内部标准做法:10 个问题用 20 个模型调用解决,包括不同大小模型(延迟/成本权衡)、专用 fine-tuned 模型、定制 prompt
  • 400M+ WAU 客服场景:大部分用自动化模型应答,模型无信心时推给人类,人类的回答反过来成为 fine-tuning 数据
  • 客服团队仅 30-40 人,远小于同体量任何公司——自动化率极高
  • Kevin 的类比:公司就是一个 model ensemble——每个人在大学和职业中被 fine-tuned 为不同技能,组合在一起产出远超个体
  • 对行业的建议:别用通用模型扔宽泛问题,要拆解为具体子任务,每个用专用模型解决,再集成

OpenAI 不会吃掉所有市场——3M 开发者战略与垂直机会

  • Ev Williams 在 Twitter 时的名言:「无论公司多大,墙外的聪明人永远多于墙内」
  • OpenAI 明确不想变成超大公司:大量行业/垂直场景需要公司特有数据和领域知识,这些不在训练集中
  • 3M+ 开发者使用 API,OpenAI 乐于做基础设施而非亲自做每个应用
  • 关键洞察:「大部分世界的数据、知识、流程不是公开的——在公司或政府的围墙之后」

迭代部署哲学:不等完美,在公众面前共同进化

  • 核心原则:与其在内部憋到完美,不如早发布、快迭代,与社会共同学习模型能力边界
  • 不设 launch gate 卡发布:不会因为等 Kevin 或 Sam review 而 block 发布
  • 命名混乱(o3 mini high 等)被承认「atrocious」,但证明「不重要」——ChatGPT 照样是增长最快的产品
  • 季度 roadmap 的 Eisenhower 原则:「Plans are useless, planning is helpful」——写了也知道三个月后会扔掉一半

模型极大主义:不为今天的限制建脚手架,信任下一代模型

  • 定义:模型会犯错,但不花大量时间给非关键错误搭 scaffolding——两个月后新模型会解决
  • 对开发者的建议:如果你的产品刚好卡在模型能力边缘——继续做,你方向对了;再等两个月模型就跟上了
  • StackBlitz(Bolt)案例:7 年 behind-the-scenes 开发一直失败,Claude Sonnet 3.5 发布后一切突然 work——验证了模型极大主义
  • Kevin 坦承 Anthropic 的 coding model 很强:「kudos to Anthropic,we think we can do the same」——也许播客发布时会有更多进展

Reasoning 模型的 UX 设计:像人一样思考等待体验

  • 25 秒等待的困境:太长不能让用户干等,太短不值得切换到其他事——怎么设计?
  • 答案来自人类类比:人被问难题不会沉默 20 秒,会说「好问题,让我想想」然后给小更新
  • 首版只给子标题,DeepSeek 给全部思维链——OpenAI 选择中间路线:1-2 句总结,兼顾信息量和体验
  • Deep Research 的 25 分钟等待反而不难:用户自然会去做别的事再回来

Chat 是被低估的终极 AI 界面

  • Kevin 的非共识观点:「大多数人认为 chat 会被更好的界面取代,我认为 chat 就是最好的界面」
  • 原因:Chat 是人类最低限制的通信方式——任何更结构化的界面都限制了表达范围
  • 过去 chat 不 work 是因为没有模型能理解语言复杂性——LLM 是第一次让 chat 变得有意义
  • 不是「只有 chat」:高频、规范化场景可以用更受限的专用界面——但 chat 应作为所有场景的兜底

Vibe Coding:OpenAI CPO 都应该带头做原型

  • Kevin 自我批评:如果五年前的自己穿越到今天的工作日,仍然能认出来——说明 AI 融入度不够
  • 应该做的:用 30 分钟 vibe code 出 demo 取代 Figma 稿展示概念
  • OpenAI CPO Julia(HR 负责人)用 Windsurf 自己 vibe coded 一个内部工具——「如果她能做到,我们没有借口」
  • Vibe coding 定义(Andrej Karpathy 造词):让模型持续写代码,tap-tap-tap 接受建议,报错就贴 error 让模型修——不追求生产级但极快出概念

产品团队结构:PM-light + 高 Agency 工程师 + 研究员嵌入

  • OpenAI 仅约 25 名 PM——刻意保持少量,「太多 PM 导致满世界 deck 和 idea 而非执行」
  • 理想状态:每个 PM 负责「略多」工程师 → 无暇微管理 → 工程师被迫有主人翁意识
  • 研究与产品的融合:不能只做「自己模型的 API 消费者」,最好的产品是 Eng + PM + Design + Research 一起做
  • PM 招人标准:高 Agency、适应模糊性、通过影响力领导(非汇报关系)、高 EQ(与研究团队建立 rapport)
  • PM 最重要的事:在没人做决策时确保决策被做出——类比 CEO 的角色

AI 时代的教育与技能:教孩子好奇心和独立思考

  • Kevin 三个孩子(10 岁 + 8 岁双胞胎)完全 AI native:自动驾驶和 ChatGPT 对话对他们是常态
  • 不确定 coding 未来是否仍重要,但确定好奇心、独立性、自信、学会思考在任何未来配置下都重要
  • 个性化 AI 辅导是「AI 能做的最重要的事之一」:所有研究显示一对一辅导带来数个标准差的学习提升
  • 现状令人惊讶:ChatGPT 免费、模型够好、Android 遍布全球——为什么还没有 20 亿儿童在用的 AI 辅导产品?

Libra(Facebook 加密货币):职业生涯最大遗憾

  • 问题:跨境汇款手续费高达 20%、耗时数天——WhatsApp 30 亿用户为何不能像发短信一样免费即时转账?
  • 失败原因:同时推太多新东西(新区块链 + 一篮子货币 + WhatsApp/Messenger 整合),且赶上 Facebook 声誉最低点
  • Kevin 的反思:应该一步步引入变化,而非一次性颠覆
  • 技术遗产:开源代码被 Aptos 和 Mistin 继承并运作良好
  • 现在的想法:当前政府对 crypto 友好、Meta 声誉恢复——「Maybe they should go build it now」

模型能力以 10x/年加速——远超摩尔定律

  • GPT-3.5 到 GPT-4o mini:API 成本下降 100 倍,智能大幅提升——两年内两个数量级
  • O 系列 reasoning 模型每 3-4 个月出新版,每版能力阶梯式提升
  • 四重趋势同时发生:更聪明、更快、更便宜、更安全(hallucination 每代下降)
  • 摩尔定律是 18 个月翻倍;AI 是每年 10 倍——指数陡峭得多
  • 对未来的判断:几年后回看今天就像今天回看 GPT-3——无法想象

闪电问答:持续好的工作 > 银弹

  • 推荐书:《Co-Intelligence》(Ethan Mollick)、《The Accidental Superpower》(Peter Zeihan)、《Cable Cowboy》(John Malone 传记)
  • 人生哲学(Zuckerberg 语):「Sometimes it's not any one thing, it's just good work consistently over a long period of time」
  • Prompting 建议:提供 few-shot examples(穷人版 fine-tuning);角色设定(「You are the world's greatest marketer」)
  • Kevin 的长期目标:消灭 prompt engineering 的必要性——如果 AI 要真正普及,用户不该需要学这个
  • 最爱产品:Windsurf(vibe coding)和 Waymo(每次都坐)