OpenAI CPO Kevin Weil 与 Anthropic CPO Mike Krieger 对谈：在迷雾中做 AI 产品

节目

Lenny's Podcast

嘉宾

Kevin Weil、Mike Krieger

日期

2024-11

时长

41 min

查看原始内容 →

概要

在前沿实验室做产品，最大的不同是"技术地基每两个月就变一次"。Kevin Weil 说传统产品是在固定的技术基础上做最好的产品，而这里"每两个月计算机就能做一件人类历史上从未做过的事"，产品 roadmap 随时可能被自家研究团队从内部颠覆——像苹果 WWDC 公告，只不过这次是你自己公司在 disrupt 你。

"60% 成功率"的模型一样能做成有价值的产品，关键是为它做设计。两人反复围绕这个被 Mike 戏称为 AI "Mendoza Line"（及格线）、且"5分钟前刚编出来"的数字讨论：GitHub Copilot 基于约 GPT-2 级别的小模型却已创造经济价值，因为它哪怕只写对一部分代码、省下你不用自己敲的时间，就是价值——前提是设计好 human-in-the-loop 和优雅失败。

一句贯穿全场的判断："今天的模型不是智能受限，而是 eval 受限。" 模型其实能做得更多、更准，问题在于你有没有教对它、有没有衡量对它。由此，写 eval 正在成为 PM 的核心技能：Anthropic 给每个 PM 办 eval bootcamp、面试就考"把烂 eval 改好"；research PM 和 product PM 的边界正在融合。

未来 6-12 个月两个关键词：proactivity（主动性）+ asynchronous（异步）。Mike 设想模型在你授权下读邮件、主动 recap、预备会议材料、自己先把 PRD 改好；o1 是异步长任务的早期 UI——它会思考很久，你可以走开做别的、它做完叫你，时间 Horizon 从"立刻回答"扩展到"一小时后给你答案"。

产品的本质正在从"发布产品"变成"发布智能"。Mike 观察到用户对模型产生双向共情，会评价新模型"更聪明但更疏远"；模型人格成了产品议题。Kevin 在韩日用语音模式当"Star Trek 通用翻译器"开商务会议——这条主线串联全场：当产品对象是一个非确定性的"智能体"而非确定性的软件，做产品、教用户、衡量质量的全套直觉都要重写。

加入前沿实验室：朋友的三种反应，和"停不下来"的创始人

核心论点：两位都是从消费产品（Instagram）跨进 AI 实验室的新角色，吸引力在于"挑战前所未有的产品难题"。

Sarah 开场调侃自己是"queen of AI investing"（并声明这个说法"此生不再用"），原本准备了两个环节——让两位"按下 merge-to-prod 按钮"提前剧透未来 6-12 个月要发的东西，以及"一起重新设计 Instagram"（两人都真的运营过 Instagram）——结果都被否决，只好"朋友间交换笔记"。

Kevin 形容这是"我这辈子最有挑战、最有意思、最睡不着觉的产品角色"：它有普通产品角色的一切难题（为谁造、解决什么问题），但普通产品是在固定技术基础上做，"这里每两个月计算机就能做一件历史上从未做过的事"。

Mike 讲了听到他加入 Anthropic 的"三种反应"，把创始人那种停不下来的性格说得很生动：懂他的人说"这对你很合理、你会玩得很开心"；中间层的人说"你又不缺钱、干嘛还折腾"；真正了解他的人则知道"他根本停不下来"。他的"半退休"状态只持续了约 6 周，就开始想"好了，接下来干什么"。

"你居然能说服 Instagram 的创始人去做一个已经存在的产品。" —— Mike 转述别人对他加入 Anthropic 的惊讶

企业市场（Enterprise）的新鲜感：买家逻辑与"提前60天告知"

核心论点：从消费产品转到企业市场，最大的认知冲击是"产品做得再好也不一定够"——还有买家、部署周期和变更管理。

Mike 对比投资与企业销售的节奏：企业销售像投资一样漫长，"初次聊完觉得他们喜欢我，然后进入采购流程，要等六个月才到部署，才知道行不行"。他一度催"这怎么还没上线"，团队说"Mike 你才来两个月，它正在 VP 们那边走流程，会到的"。

但企业市场也有消费产品给不了的反馈闭环：部署后有个具体的人可以互相打电话问"用得怎么样、好不好用"；而消费产品只能做聚合数据科学，"普通用户没有足够的经济激励来告诉你哪里做得烂、哪里做得好"。

Kevin 补充企业市场的另一层反直觉：它"不一定关乎产品本身"——有买家、有买家的目标，"你可以造出全公司员工都爱用的最好产品，但它仍然不一定 matter"。OpenAI 同时做 consumer、enterprise、developer 三类产品，"一次全做"。

最具画面感的一幕：Kevin 在一次大企业客户会议上，对方说"一切都很好、我们很满意……唯一需要的是，你们要在发布任何东西前提前 60 天告诉我们。"

"我也很想提前 60 天知道我们要发什么。" —— Kevin Weil 回应企业客户"提前60天告知"的要求

在迷雾中做产品：你能为还不知道的能力做规划吗？

核心论点：模型的新能力是"涌现的"（emergent），连研究团队都不确定，产品要学会与这种随机性共处，靠 co-design 而非确定性流程。

新能力来得很不确定：训练某个新模型时，你"有点感觉它可能有能力 X，但你不知道、研究团队不知道、没人知道"，而且不知道它会是"60% 好、90% 好还是 99% 好"——而为 60%、90%、99% 可用度设计的产品是完全不同的。

产品团队只能定期去问研究团队"模型训得怎么样、有什么洞察"，得到的回答常是"这是研究，我们也不知道，正一起摸索"。Mike 把这种感觉类比 Instagram 时代等苹果 WWDC 公告："可能对我们超棒，也可能造成混乱——只不过现在 disrupt 你的是你自己的公司，从内部。"

应对方式是把设计师"早早嵌入"研究流程做 co-design / co-research / co-finetune（Anthropic 的 Artifacts、OpenAI 的 Canvas 都是这样做出来的）。但要像对待实验一样，"产出应该是学习（learning），而不是每次都能 ship 的完美产品"——目标是能激发产品想法的 demo，而不是一个可预测的产品流程。

Kevin 讲了一个"研究团队的魔法时刻"：开会时你说"真希望我们能做到这件事"，团队里的研究员会说"哦不，我们能做啊，这能力我们三个月前就有了"——"真的？我去哪学？""哦，我们没觉得它重要，所以没提，我现在在忙别的。"

"这有点像透过迷雾去看（peering through the Mist）下一批能力——智能的进步不是可预测，但至少在一条你能看着它爬升的斜坡上。" —— Mike Krieger

60% 成功率的模型怎么做成产品：human-in-the-loop 与优雅失败

核心论点：模型不必 99% 准才有用，60% 准也能创造价值——关键是为它设计人机协作、优雅失败，并意识到能力是"块状的"（lumpy）。

Kevin 的核心判断：很多事在模型只有 60% 准确率时就能做，"你只是需要真正为它做设计"，预期会有比平时多得多的 human-in-the-loop。

标杆案例是 GitHub Copilot——"第一个让人们意识到 AI 不只是问答、而能做真正有经济价值工作的产品"。Kevin 推测它基于约 GPT-2 级别（"挺小的模型"），那个模型在编程上肯定不完美，"但只要它把代码写到某种程度，就是你不用自己敲的部分，你可以再编辑"——这类体验"完全 work"。同样的逻辑会延伸到 agents 和长任务：哪怕不完美，能省你 5-10 分钟就有价值；如果模型还能识别自己没把握、回头问你"这个我不确定，你能帮我吗"，人机结合的效果就能远高于 60%。

Mike 把"60%"这个数字玩成了全场的梗：他承认"这是我 5 分钟前编出来的"，随即被封为 AI 的 "Mendoza Line"（棒球里区分够不够格的及格线）。他强调能力是"块状的"（lumpy）——同一个模型在某些任务上表现很好、另一些上很差。

这种块状带来一个"谦卑时刻"：同一天会收到两家公司对同一模型的截然相反反馈——一家说"它解决了我们试了三个月的整个问题，谢谢"，另一家说"差得离谱、比上个模型还烂"。"你有自己的内部 eval，但只有把模型放到真实世界、放到一个真实用户面前，你才会发现'哦，原来我错了'。"

"It's also humbling……你做了一堆设计，然后放到一个用户面前，你心想'哇，我错了'。" —— Mike Krieger

模型不是智能受限，而是 eval 受限——写 eval 成为 PM 核心技能

核心论点：今天模型的瓶颈不在智能，而在 eval（评测）。会写 eval 正在成为 PM 最重要的能力，research PM 与 product PM 的边界正在消失。

Kevin 给出全场最锋利的一句判断："有一种非常真实的意义上，今天的模型不是智能受限，而是 eval 受限。"模型其实能在更广范围内做得更多、更准，"关键在于教它——它有那个智能，你需要教它某些它原始训练集里可能没有的特定主题"。

Mike 印证了这点：很多三年前上线的 AI 功能"从没做过 eval，因为那会儿大家只是在 ship 很酷的 AI feature"。最难迈过的坎是让客户"退一步想清楚：对你来说成功到底长什么样、你在解决什么问题"——而且往往原来的 PM 已经轮岗，是别人接手的。Claude 擅长写 eval 也擅长给 eval 打分，"我们能帮你自动化很多，但你得告诉我们成功是什么样"——这往往就是"完成任务 60% 和 85% 之间的差别"。

Mike 顺势抛出招聘梗："欢迎来 Anthropic 面试——也许你该来。"他透露面试流程的一个环节就是让候选人把"一个烂 eval 改好"，"我们想看你怎么想"，因为"这种人才在别处不够多"。

一个"内部八卦"级别的洞察：Anthropic 内部原本区分 research PM（做模型能力/开发）和 product/API PM，后来发现"2024、2025 年做 AI 功能的 PM 工作，越来越像前者而不是后者"。以 Claude 的代码分析功能（能分析 csv、写代码）为例，产品 PM 把它做到 80%，剩下要交给会写 eval、去 fine-tune、调 prompt 的人——"我意识到这其实是同一个角色，你功能的质量现在取决于 eval 和 prompt 做得多好"。Kevin 也为此办了 bootcamp，带每个 PM 过一遍"好 eval 和坏 eval 的区别"。

"I think there's a very real sense in which models today are not intelligence limited, they're eval limited." —— Kevin Weil

怎么培养 eval 与迭代的直觉：用模型自己写 eval，盯住真实数据

核心论点：培养 eval 直觉有两条路——用模型自己帮你写 eval，以及"没有什么比看真实数据更重要"。

第一条捷径：直接问模型。Kevin 说现在可以问模型"什么是好 eval、帮我写个样例 eval"，"它会写得相当不错"，能省很多事。

第二条更根本，Mike 引用了 Andrej Karpathy 等一线人的共识——"没有什么比看数据更重要"（nothing beats looking at data）。常见的坑是只盯分数：新模型从 78% 涨到 80% 就嫌没进步，"但我们看过那些失败案例吗？"——往往一看会发现"其实模型答得更好了，只是我们的 grader 不够好"。

他还爆了个"内部八卦"：每次模型发布都有 model card 和一堆 eval，但有些 eval 里"连标准答案（golden answer）我都不确定人类会这么说"，甚至"那道数学其实算错了一点"——所以"想拿 100% 会非常难，因为光是给答案打分本身就很有挑战"。建立直觉的方法就是"去看真实答案、采样来看，判断是该改进 eval，还是 vibes 其实很好（即使 eval 打平）"。

展望更长 Horizon 的 agentic 任务，eval 会更难：当任务从"四位数相加得到唯一正确答案"变成"去纽约订个酒店"这类模糊任务，"两个同样能干的人都会做出两种不同选择"，grading 会变得"软"得多，更多关乎个性化。Mike 用"绩效考核"（performance review）打比方——他正处在绩效季——eval 会越来越像在问"模型是否达到、超出、或大幅超出一个称职的人会做的水平"。更微妙的是：人写 eval，而模型在某些任务上已经能打败人、人们更偏爱模型的答案，"那你的人在写 eval，这又意味着什么？"

"Nothing beats looking at data……人们常纠结分数从 78 到 80，却不去看失败的案例——你一看会发现模型其实答得更好，是 grader 不行。" —— Mike Krieger（引述 Karpathy 的共识）

产品人该学的新技能：用模型做原型、深入技术栈、与非确定性系统共处

核心论点：AI 时代 PM 要新增三项能力——用模型快速做原型、向技术栈下沉、以及适应"非确定性"的产品设计范式。

用模型做原型（prototyping）被严重低估。Mike 说最好的 PM 会这样做：在为某个 UI 该长这样还是那样争论时，设计师还没打开 Figma，PM 或工程师已经"用 Claude 提示生成了两个 UI 的 A/B 对比，我们直接试"——能以远超以往的速度和多样性做原型并评估。

PM 要向技术栈更深处下沉。Kevin 说这未必意味着"每个 PM 都得是研究员"，但要"有 appreciation、花时间学习这套语言、对它如何运作建立直觉"。他类比："像 2005 年做数据库技术需要的深度，和现在做数据库技术不一样——抽象层会被搭建起来，你不必懂所有底层。"

最根本的新范式：适应非确定性（non-deterministic）系统。Mike 指出你面对的是一个"随机、非确定的系统"，eval 是当前的最佳尝试，但产品设计本身在"你无法控制模型会说什么"的世界里要重新想：要什么反馈机制来闭环、怎么判断模型跑偏了、怎么快速收集反馈、要什么 guard rails、怎么在聚合层面知道它在干什么。

Kevin 把这点上升到用户认知层面："这违背了我们过去 25 年用计算机建立起来的所有直觉"——以前同样的输入给同样的输出，"现在不再成立"。而且不仅团队要适应，还要替那些"不是技术人、却在用 AI"的用户着想。Mike 补充，现在做用户研究，一半惊喜来自"用户怎么用"，另一半来自"模型在那个情境里做了什么"——它做对了会有种"自豪感"，它误解意图、让用户"往下翻了 10 页答案"则很挫败，所以做产品要带点"Zen"，学会放下对结果的控制。

"如果你输入完全相同的东西，计算机过去会给你完全相同的输出，而这一点不再为真——这违背了我们用计算机 25 年建立的全部直觉。" —— Kevin Weil

教育终端用户：人适应"魔法"的速度快得惊人

核心论点：尽管 AI 极其反直觉，人类适应新魔法的速度快得惊人；产品也可以"自我教育"。

Kevin 用 Waymo 类比人对魔法的适应曲线：朋友第一次坐 Waymo，"前 30 秒'天哪小心那个骑车的'，5 分钟后'天哪我活在未来'，10 分钟后就低头刷手机了"。他还提醒在场每个人离场后都该坐一次 Waymo——"在旧金山，坐 Waymo 去你要去的地方，这是种魔法般的体验"。

同样的适应也发生在 ChatGPT 上："ChatGPT 还不到两岁"，刚出来时令人震撼，但"如果现在让我们回去用最初的 GPT-3.5，那简直是恐怖"——"会觉得'天哪它好蠢，我当初怎么能……'"。Kevin 由此预测："12 个月后我们会回头看今天觉得像魔法的东西，心想'真不敢相信我们用过那种垃圾'。"

Anthropic 的一个新做法是让产品"自我教育"：早期没做、现在在改的，是"告诉 Claude 更多关于它自己的信息"。以前 Claude 只知道"我是 Anthropic 造的 AI"，但用户问"我该怎么用这个功能"时它会说"不知道，你上网查查看吧"——这显然没用（同样来自用户研究的发现）。现在则让它能给出"文档的确切链接、一步步教你、发现你卡住了主动帮你"。"这些模型其实很擅长解决 UI 问题和用户困惑，我们该多用它们做这件事。"

"我们多快习惯一件绝对是魔法的事——12 个月后我们会觉得今天的东西是垃圾，因为它就是动得这么快。" —— Kevin Weil

企业内的变革管理：靠 power user 当传教士

核心论点：在企业内推广 AI 靠"找到 power user 当传教士"，而企业部署恰好提供了教育非技术用户的难得场景。

Mike 指出消费产品的 power user 仍多是早期采用者、技术爱好者，后面拖着长尾；而企业部署面对的是"整个组织，常常有很多很不技术的人"。看着"相当不技术的用户第一次接触 chat 驱动的 LLM"其实很酷，而且企业场景"有奢侈条件"——你可以办培训 session、做教育材料。"我们要从这些场景里学到的东西，正是教接下来 1 亿人怎么用这些 UI 所需要的。"

内部的 power user 通常很兴奋，乐意去教其他人。Kevin 举 OpenAI 的 custom GPTs：组织常常做成千上万个，是 power user 把 AI 变得"对那些本来不知道怎么用的人立刻有用且更易上手"的方式——"你找到 power user 的口袋，他们会变成传教士（evangelists）"。

Computer use 怎么用：UI 测试、消除 drudgery、和订披萨

核心论点：Anthropic 本周刚发布的 computer use 仍会犯错、但已展现两类早期价值——自动化 UI 测试，和消除跨系统搬数据的"drudgery"。

发布决策很"晚到"（late breaking）：团队有"它够好、想把它放出去"的 conviction，明知"还早、还会犯错"也决定发——呼应了 Kevin 早先关于"什么时候算 ready"的讨论。

最有梗的早期案例：beta 测试时有人想"看看能不能让它给我们订披萨"，它真订了——"Domino's 送到办公室、整单完全由 AI 下的，那一刻很 seminal"。Mike 自嘲两句："不过是 Domino's……"以及"它订得还挺多，可能比预期更饿。"

两类真正看好的场景：① UI 测试——Instagram 时代"基本没有 UI 测试，因为它们难写、脆弱"（挪个按钮位置、本是 PR 的目的，测试却挂了，还得重做整套快照），而 computer use"在'它是否按预期工作'上表现很好"；② 消除 drudgery——support、finance 团队那些"把数据从一个 silo 搬到另一个 silo、需要 30 次点击做一件事"的重复杂活。Mike 反复用 "drudgery"（苦差）这个词："能不能自动化掉这些杂活，让你专注在创造性的事上。"

"Domino's 送到办公室、整单完全由 AI 下单的那一刻……很酷。不过——是 Domino's 就是了。而且它订得有点多，可能比预期更饿。" —— Mike Krieger

o1 与推理（reasoning）：从 system 1 到 system 2，靠模型编排取胜

核心论点：o1 代表"在推理时（query-time）扩展智能"的新范式，区别于预训练扩展；真正的价值来自把多个模型编排起来协同工作。

Kevin 应 Sarah 要求"给全场定义 reasoning"：大家熟悉的是预训练扩展（GPT-2、3、4、5，越跑越大、越来越聪明/知道得越多），但那是"system 1 思维"——问一个问题立刻给答案，像文本补全。他现场拿 Sarah 打趣："就像我现在问你问题，你只能一次吐一个 token、不准想——很神奇你们人类居然能这样工作。"

o1 是"另一种扩展智能的方式，在 query time 做"：不是立刻回答，而是会暂停——就像你被要求"解这个数独、做纽约时报 connections 谜题"时，会开始形成假设、用已知去证伪或确认假设、再继续推理，"这正是科学突破的方式、我们回答难题的方式"。现在模型思考 30-60 秒，"想象一下它能思考 5 小时甚至 5 天会怎样"。他强调 o1 现在处于"这种新推理形式的 GPT-1 阶段"，且不该用于一切——"有时候你问我问题，并不想我等 60 秒"。

最实用的洞察是模型编排：很多最成熟的客户（以及 OpenAI 内部）"不是为某件事用某一个模型，而是把模型组成 workflow 和 orchestration，各用所长"。以网络安全为例——直觉上模型会幻觉、似乎不该用在这——但你可以 fine-tune 一个模型擅长某类任务、再 fine-tune 模型对输入输出非常精确，"让模型协同工作、用模型去检查另一个模型的输出、发现不对就让它重试"。这正是人类做复杂事的方式："不同的人有不同技能，协作完成一件难事。"

"现在它们思考 30 到 60 秒……想象一下如果它们能思考 5 小时、5 天会怎样——这基本上是一种扩展智能的新方式，而我们才刚刚开始。" —— Kevin Weil

未来 6-12 个月：proactivity（主动性）+ asynchronous（异步）

核心论点：下一阶段产品形态的两个关键词是 proactivity 和 asynchronous——模型从被动应答走向主动行动、从即时回答走向长时异步任务。

Proactivity（主动性）：Mike 设想模型在你授权下"以一种好的、不令人毛骨悚然的方式读你的邮件"，主动发现有趣趋势，"你的一天从一份主动 recap 开始——你接下来要开的会、'我帮你预研了一下'、'你这个 presentation 快到了，这是我起草的第一版'"。

Asynchronous（异步）：o1 是这个方向的"早期 UI"——它会做很多事、边做边告诉你进展，"你可以坐着等，也可以去做别的、回头切回来，让它做完叫你"。时间 Horizon 在两个维度上扩展：一是"你没问、它主动告诉你"，二是"你问了，它说'我去推理、去研究、可能还得问另一个人，一小时后回复你'"。摆脱"必须立刻拿到答案"的约束后，你能交给它"把这份迷你项目计划充实起来""帮我修这个 bug""把我的 PRD 按这三种新市场条件分别改写"这种更大的任务——这是 Mike 在产品侧"个人最兴奋的事"。

Kevin 完全认同，并补一条：模型将能"用我们人类交互的所有方式去交互"。现在你主要靠打字，但人也会说、会看。他讲了自己在韩国和日本的亲身经历：和一个"此前完全没有共同语言、一个词都说不上"的人，他对着 ChatGPT 说"我说英文你翻成韩语、你听到韩语就翻回英文给我"，"突然我就有了一个通用翻译器，在和另一个人开商务会议"。他由此畅想这对人们"愿意去陌生地方旅行"的意义——"口袋里有个 Star Trek 通用翻译器，再不用担心语言"。

"Breaking free of 那种'期待立刻拿到答案'的约束……'把我的 PRD 按这三种新出现的市场条件分别改写'——能推这些维度，是我个人在产品侧最兴奋的事。" —— Mike Krieger

最惊讶的产品行为：从"发布产品"到"发布智能"

核心论点：最让两位惊讶的，是用户与模型之间形成的"关系"和双向共情——这把产品的本质从发布软件变成了发布"智能 + 人格"。

Mike 说最惊讶的是一种"行为和关系"：每发一个新模型，用户会捕捉到 Claude 的微妙变化、几乎像在"交朋友"、发展出双向共情——"新模型好像更聪明了，但也许更疏远了一点"。这给了他作为产品人很多共情："你不只是在 ship 一个产品，你在 ship 智能；而智能和共情正是让人际关系重要的东西。"他打了个比方：如果一个人出现说"我升级了、数学分数高了 2%，但我在某方面变了个人"，你会想"哦我得适应了，也许还有点担心"。

Kevin 接过去：模型的人格（personality）绝对是个产品角色，由此带出有趣的问题——"它该多大程度个性化，还是 OpenAI 有一个人格、Claude 有另一个独特人格？人们会不会因为'刚好更喜欢某一个'而选择用它？这非常 human——我们和不同的人做朋友，就是因为刚好更喜欢某些人。"

他举了一个最近在 Twitter 上"病毒式传播"的例子：用户让模型"基于你对我的全部了解、我们过去所有的互动，你会怎么评价我"，模型会给出一段描述。"你开始几乎像和某种人或实体在以有趣的方式互动——看人们对这件事的反应非常 fascinating。"

"你不只是在发布一个产品，你在发布智能（you're shipping intelligence）——而智能和共情，正是让人际关系重要的东西。" —— Mike Krieger

## 尾声：跟孩子有关的"最惊讶"

Mike 的孩子 5 岁和 7 岁，他还没把语音模式给孩子用，但 Kevin 的孩子 8 岁和 10 岁，在车上会主动"我能跟 ChatGPT 聊天吗"，然后问出最稀奇古怪的问题、和 AI 进行"怪人对话"，"完全乐于和 AI 说话"。
Mike 讲了最有体感的一幕：自己小时候"能选本书读就算幸运了，还得防着我爸说'我们来读这篇我感兴趣的物理论文'"；而他的孩子会说"妈妈，实时把图像生成出来，我要讲一个关于这个场景里龙和独角兽的故事，我来告诉你它怎么发展"——"这要求很高，但很高兴他们相信这是可能的，这也是一种创造自己娱乐的疯狂方式"。
还有一个时代切片：voice mode 发布后，有一类 TikTok 是"年轻人对着语音模式倾诉心声、用各种方式使用它"。Mike 说这"暴露了我有多老"——"有个老词叫 digitally native / mobile native，我自认相当相信 AI 这件事，却想不到要这样交互；但 14 岁的人会觉得'我当然期待 AI 能做到这个'，我很喜欢这点。"

附录：关键人/机构/产品/概念

项目	详情
Kevin Weil	OpenAI 首席产品官（CPO），此前在 Instagram、Twitter、Planet 等做过多种产品角色
Mike Krieger	Anthropic 首席产品官（CPO），Instagram 联合创始人，加入前"半退休"约 6 周
Sarah Guo	主持人，Conviction 创始人，AI 投资人（被戏称 "queen of AI investing"）
场合	Lenny and Friends Summit 现场，旧金山，2024-10-24；Lenny's Podcast 发布
Advanced Voice Mode	OpenAI 语音模式；Kevin 在韩日当"通用翻译器"开商务会议
Canvas	OpenAI 产品，研究-产品 co-design 案例
o1	OpenAI 推理模型，query-time scaling，处于"GPT-1 阶段"，异步长任务早期 UI
custom GPTs	OpenAI 功能，组织内常做上千个，power user 借此让 AI 对他人即时可用
Artifacts	Anthropic 产品，研究-产品 co-design 案例
Claude 代码分析	Claude 能分析 csv 并写代码；体现 PM 角色向 eval/prompt 融合
computer use	Anthropic 本周发布；早期场景：UI 测试、自动化 drudgery；订披萨案例
GitHub Copilot	首个让人意识到 AI 能做经济价值工作的产品，Kevin 推测基于约 GPT-2 级模型
"60%"	全场口头标尺，Mike 戏称 AI 的 "Mendoza Line"，自嘲"5分钟前编的"
"eval limited"	全场核心判断："模型不是智能受限，而是 eval 受限"（Kevin Weil）
Andrej Karpathy	被引述："没有什么比看数据更重要"（nothing beats looking at data）
system 1 / system 2	即时回答 vs 停下来推理；用于解释 o1 的 reasoning
proactivity / asynchronous	Mike 提出的未来两关键词：主动性 + 异步长任务