← 返回
VIDEO INSIGHT

OpenAI CPO Kevin Weil 与 Anthropic CPO Mike Krieger 对谈:在迷雾中做 AI 产品

日期
2024-11
时长
41 min

概要

  • 在前沿实验室做产品,最大的不同是"技术地基每两个月就变一次"。Kevin Weil 说传统产品是在固定的技术基础上做最好的产品,而这里"每两个月计算机就能做一件人类历史上从未做过的事",产品 roadmap 随时可能被自家研究团队从内部颠覆——像苹果 WWDC 公告,只不过这次是你自己公司在 disrupt 你。
  • "60% 成功率"的模型一样能做成有价值的产品,关键是为它做设计。两人反复围绕这个被 Mike 戏称为 AI "Mendoza Line"(及格线)、且"5分钟前刚编出来"的数字讨论:GitHub Copilot 基于约 GPT-2 级别的小模型却已创造经济价值,因为它哪怕只写对一部分代码、省下你不用自己敲的时间,就是价值——前提是设计好 human-in-the-loop 和优雅失败。
  • 一句贯穿全场的判断:"今天的模型不是智能受限,而是 eval 受限。" 模型其实能做得更多、更准,问题在于你有没有教对它、有没有衡量对它。由此,写 eval 正在成为 PM 的核心技能:Anthropic 给每个 PM 办 eval bootcamp、面试就考"把烂 eval 改好";research PM 和 product PM 的边界正在融合。
  • 未来 6-12 个月两个关键词:proactivity(主动性)+ asynchronous(异步)。Mike 设想模型在你授权下读邮件、主动 recap、预备会议材料、自己先把 PRD 改好;o1 是异步长任务的早期 UI——它会思考很久,你可以走开做别的、它做完叫你,时间 Horizon 从"立刻回答"扩展到"一小时后给你答案"。
  • 产品的本质正在从"发布产品"变成"发布智能"。Mike 观察到用户对模型产生双向共情,会评价新模型"更聪明但更疏远";模型人格成了产品议题。Kevin 在韩日用语音模式当"Star Trek 通用翻译器"开商务会议——这条主线串联全场:当产品对象是一个非确定性的"智能体"而非确定性的软件,做产品、教用户、衡量质量的全套直觉都要重写。
01

加入前沿实验室:朋友的三种反应,和"停不下来"的创始人

核心论点:两位都是从消费产品(Instagram)跨进 AI 实验室的新角色,吸引力在于"挑战前所未有的产品难题"。

  • Sarah 开场调侃自己是"queen of AI investing"(并声明这个说法"此生不再用"),原本准备了两个环节——让两位"按下 merge-to-prod 按钮"提前剧透未来 6-12 个月要发的东西,以及"一起重新设计 Instagram"(两人都真的运营过 Instagram)——结果都被否决,只好"朋友间交换笔记"。
  • Kevin 形容这是"我这辈子最有挑战、最有意思、最睡不着觉的产品角色":它有普通产品角色的一切难题(为谁造、解决什么问题),但普通产品是在固定技术基础上做,"这里每两个月计算机就能做一件历史上从未做过的事"。
  • Mike 讲了听到他加入 Anthropic 的"三种反应",把创始人那种停不下来的性格说得很生动:懂他的人说"这对你很合理、你会玩得很开心";中间层的人说"你又不缺钱、干嘛还折腾";真正了解他的人则知道"他根本停不下来"。他的"半退休"状态只持续了约 6 周,就开始想"好了,接下来干什么"。
"你居然能说服 Instagram 的创始人去做一个已经存在的产品。" —— Mike 转述别人对他加入 Anthropic 的惊讶
02

企业市场(Enterprise)的新鲜感:买家逻辑与"提前60天告知"

核心论点:从消费产品转到企业市场,最大的认知冲击是"产品做得再好也不一定够"——还有买家、部署周期和变更管理。

  • Mike 对比投资与企业销售的节奏:企业销售像投资一样漫长,"初次聊完觉得他们喜欢我,然后进入采购流程,要等六个月才到部署,才知道行不行"。他一度催"这怎么还没上线",团队说"Mike 你才来两个月,它正在 VP 们那边走流程,会到的"。
  • 但企业市场也有消费产品给不了的反馈闭环:部署后有个具体的人可以互相打电话问"用得怎么样、好不好用";而消费产品只能做聚合数据科学,"普通用户没有足够的经济激励来告诉你哪里做得烂、哪里做得好"。
  • Kevin 补充企业市场的另一层反直觉:它"不一定关乎产品本身"——有买家、有买家的目标,"你可以造出全公司员工都爱用的最好产品,但它仍然不一定 matter"。OpenAI 同时做 consumer、enterprise、developer 三类产品,"一次全做"。
  • 最具画面感的一幕:Kevin 在一次大企业客户会议上,对方说"一切都很好、我们很满意……唯一需要的是,你们要在发布任何东西前提前 60 天告诉我们。"
"我也很想提前 60 天知道我们要发什么。" —— Kevin Weil 回应企业客户"提前60天告知"的要求
03

在迷雾中做产品:你能为还不知道的能力做规划吗?

核心论点:模型的新能力是"涌现的"(emergent),连研究团队都不确定,产品要学会与这种随机性共处,靠 co-design 而非确定性流程。

  • 新能力来得很不确定:训练某个新模型时,你"有点感觉它可能有能力 X,但你不知道、研究团队不知道、没人知道",而且不知道它会是"60% 好、90% 好还是 99% 好"——而为 60%、90%、99% 可用度设计的产品是完全不同的。
  • 产品团队只能定期去问研究团队"模型训得怎么样、有什么洞察",得到的回答常是"这是研究,我们也不知道,正一起摸索"。Mike 把这种感觉类比 Instagram 时代等苹果 WWDC 公告:"可能对我们超棒,也可能造成混乱——只不过现在 disrupt 你的是你自己的公司,从内部。"
  • 应对方式是把设计师"早早嵌入"研究流程做 co-design / co-research / co-finetune(Anthropic 的 Artifacts、OpenAI 的 Canvas 都是这样做出来的)。但要像对待实验一样,"产出应该是学习(learning),而不是每次都能 ship 的完美产品"——目标是能激发产品想法的 demo,而不是一个可预测的产品流程。
  • Kevin 讲了一个"研究团队的魔法时刻":开会时你说"真希望我们能做到这件事",团队里的研究员会说"哦不,我们能做啊,这能力我们三个月前就有了"——"真的?我去哪学?""哦,我们没觉得它重要,所以没提,我现在在忙别的。"
"这有点像透过迷雾去看(peering through the Mist)下一批能力——智能的进步不是可预测,但至少在一条你能看着它爬升的斜坡上。" —— Mike Krieger
04

60% 成功率的模型怎么做成产品:human-in-the-loop 与优雅失败

核心论点:模型不必 99% 准才有用,60% 准也能创造价值——关键是为它设计人机协作、优雅失败,并意识到能力是"块状的"(lumpy)。

  • Kevin 的核心判断:很多事在模型只有 60% 准确率时就能做,"你只是需要真正为它做设计",预期会有比平时多得多的 human-in-the-loop。
  • 标杆案例是 GitHub Copilot——"第一个让人们意识到 AI 不只是问答、而能做真正有经济价值工作的产品"。Kevin 推测它基于约 GPT-2 级别("挺小的模型"),那个模型在编程上肯定不完美,"但只要它把代码写到某种程度,就是你不用自己敲的部分,你可以再编辑"——这类体验"完全 work"。同样的逻辑会延伸到 agents 和长任务:哪怕不完美,能省你 5-10 分钟就有价值;如果模型还能识别自己没把握、回头问你"这个我不确定,你能帮我吗",人机结合的效果就能远高于 60%。
  • Mike 把"60%"这个数字玩成了全场的梗:他承认"这是我 5 分钟前编出来的",随即被封为 AI 的 "Mendoza Line"(棒球里区分够不够格的及格线)。他强调能力是"块状的"(lumpy)——同一个模型在某些任务上表现很好、另一些上很差。
  • 这种块状带来一个"谦卑时刻":同一天会收到两家公司对同一模型的截然相反反馈——一家说"它解决了我们试了三个月的整个问题,谢谢",另一家说"差得离谱、比上个模型还烂"。"你有自己的内部 eval,但只有把模型放到真实世界、放到一个真实用户面前,你才会发现'哦,原来我错了'。"
"It's also humbling……你做了一堆设计,然后放到一个用户面前,你心想'哇,我错了'。" —— Mike Krieger
05

模型不是智能受限,而是 eval 受限——写 eval 成为 PM 核心技能

核心论点:今天模型的瓶颈不在智能,而在 eval(评测)。会写 eval 正在成为 PM 最重要的能力,research PM 与 product PM 的边界正在消失。

  • Kevin 给出全场最锋利的一句判断:"有一种非常真实的意义上,今天的模型不是智能受限,而是 eval 受限。"模型其实能在更广范围内做得更多、更准,"关键在于教它——它有那个智能,你需要教它某些它原始训练集里可能没有的特定主题"。
  • Mike 印证了这点:很多三年前上线的 AI 功能"从没做过 eval,因为那会儿大家只是在 ship 很酷的 AI feature"。最难迈过的坎是让客户"退一步想清楚:对你来说成功到底长什么样、你在解决什么问题"——而且往往原来的 PM 已经轮岗,是别人接手的。Claude 擅长写 eval 也擅长给 eval 打分,"我们能帮你自动化很多,但你得告诉我们成功是什么样"——这往往就是"完成任务 60% 和 85% 之间的差别"。
  • Mike 顺势抛出招聘梗:"欢迎来 Anthropic 面试——也许你该来。"他透露面试流程的一个环节就是让候选人把"一个烂 eval 改好","我们想看你怎么想",因为"这种人才在别处不够多"。
  • 一个"内部八卦"级别的洞察:Anthropic 内部原本区分 research PM(做模型能力/开发)和 product/API PM,后来发现"2024、2025 年做 AI 功能的 PM 工作,越来越像前者而不是后者"。以 Claude 的代码分析功能(能分析 csv、写代码)为例,产品 PM 把它做到 80%,剩下要交给会写 eval、去 fine-tune、调 prompt 的人——"我意识到这其实是同一个角色,你功能的质量现在取决于 eval 和 prompt 做得多好"。Kevin 也为此办了 bootcamp,带每个 PM 过一遍"好 eval 和坏 eval 的区别"。
"I think there's a very real sense in which models today are not intelligence limited, they're eval limited." —— Kevin Weil
06

怎么培养 eval 与迭代的直觉:用模型自己写 eval,盯住真实数据

核心论点:培养 eval 直觉有两条路——用模型自己帮你写 eval,以及"没有什么比看真实数据更重要"。

  • 第一条捷径:直接问模型。Kevin 说现在可以问模型"什么是好 eval、帮我写个样例 eval","它会写得相当不错",能省很多事。
  • 第二条更根本,Mike 引用了 Andrej Karpathy 等一线人的共识——"没有什么比看数据更重要"(nothing beats looking at data)。常见的坑是只盯分数:新模型从 78% 涨到 80% 就嫌没进步,"但我们看过那些失败案例吗?"——往往一看会发现"其实模型答得更好了,只是我们的 grader 不够好"。
  • 他还爆了个"内部八卦":每次模型发布都有 model card 和一堆 eval,但有些 eval 里"连标准答案(golden answer)我都不确定人类会这么说",甚至"那道数学其实算错了一点"——所以"想拿 100% 会非常难,因为光是给答案打分本身就很有挑战"。建立直觉的方法就是"去看真实答案、采样来看,判断是该改进 eval,还是 vibes 其实很好(即使 eval 打平)"。
  • 展望更长 Horizon 的 agentic 任务,eval 会更难:当任务从"四位数相加得到唯一正确答案"变成"去纽约订个酒店"这类模糊任务,"两个同样能干的人都会做出两种不同选择",grading 会变得"软"得多,更多关乎个性化。Mike 用"绩效考核"(performance review)打比方——他正处在绩效季——eval 会越来越像在问"模型是否达到、超出、或大幅超出一个称职的人会做的水平"。更微妙的是:人写 eval,而模型在某些任务上已经能打败人、人们更偏爱模型的答案,"那你的人在写 eval,这又意味着什么?"
"Nothing beats looking at data……人们常纠结分数从 78 到 80,却不去看失败的案例——你一看会发现模型其实答得更好,是 grader 不行。" —— Mike Krieger(引述 Karpathy 的共识)
07

产品人该学的新技能:用模型做原型、深入技术栈、与非确定性系统共处

核心论点:AI 时代 PM 要新增三项能力——用模型快速做原型、向技术栈下沉、以及适应"非确定性"的产品设计范式。

  • 用模型做原型(prototyping)被严重低估。Mike 说最好的 PM 会这样做:在为某个 UI 该长这样还是那样争论时,设计师还没打开 Figma,PM 或工程师已经"用 Claude 提示生成了两个 UI 的 A/B 对比,我们直接试"——能以远超以往的速度和多样性做原型并评估。
  • PM 要向技术栈更深处下沉。Kevin 说这未必意味着"每个 PM 都得是研究员",但要"有 appreciation、花时间学习这套语言、对它如何运作建立直觉"。他类比:"像 2005 年做数据库技术需要的深度,和现在做数据库技术不一样——抽象层会被搭建起来,你不必懂所有底层。"
  • 最根本的新范式:适应非确定性(non-deterministic)系统。Mike 指出你面对的是一个"随机、非确定的系统",eval 是当前的最佳尝试,但产品设计本身在"你无法控制模型会说什么"的世界里要重新想:要什么反馈机制来闭环、怎么判断模型跑偏了、怎么快速收集反馈、要什么 guard rails、怎么在聚合层面知道它在干什么。
  • Kevin 把这点上升到用户认知层面:"这违背了我们过去 25 年用计算机建立起来的所有直觉"——以前同样的输入给同样的输出,"现在不再成立"。而且不仅团队要适应,还要替那些"不是技术人、却在用 AI"的用户着想。Mike 补充,现在做用户研究,一半惊喜来自"用户怎么用",另一半来自"模型在那个情境里做了什么"——它做对了会有种"自豪感",它误解意图、让用户"往下翻了 10 页答案"则很挫败,所以做产品要带点"Zen",学会放下对结果的控制。
"如果你输入完全相同的东西,计算机过去会给你完全相同的输出,而这一点不再为真——这违背了我们用计算机 25 年建立的全部直觉。" —— Kevin Weil
08

教育终端用户:人适应"魔法"的速度快得惊人

核心论点:尽管 AI 极其反直觉,人类适应新魔法的速度快得惊人;产品也可以"自我教育"。

  • Kevin 用 Waymo 类比人对魔法的适应曲线:朋友第一次坐 Waymo,"前 30 秒'天哪小心那个骑车的',5 分钟后'天哪我活在未来',10 分钟后就低头刷手机了"。他还提醒在场每个人离场后都该坐一次 Waymo——"在旧金山,坐 Waymo 去你要去的地方,这是种魔法般的体验"。
  • 同样的适应也发生在 ChatGPT 上:"ChatGPT 还不到两岁",刚出来时令人震撼,但"如果现在让我们回去用最初的 GPT-3.5,那简直是恐怖"——"会觉得'天哪它好蠢,我当初怎么能……'"。Kevin 由此预测:"12 个月后我们会回头看今天觉得像魔法的东西,心想'真不敢相信我们用过那种垃圾'。"
  • Anthropic 的一个新做法是让产品"自我教育":早期没做、现在在改的,是"告诉 Claude 更多关于它自己的信息"。以前 Claude 只知道"我是 Anthropic 造的 AI",但用户问"我该怎么用这个功能"时它会说"不知道,你上网查查看吧"——这显然没用(同样来自用户研究的发现)。现在则让它能给出"文档的确切链接、一步步教你、发现你卡住了主动帮你"。"这些模型其实很擅长解决 UI 问题和用户困惑,我们该多用它们做这件事。"
"我们多快习惯一件绝对是魔法的事——12 个月后我们会觉得今天的东西是垃圾,因为它就是动得这么快。" —— Kevin Weil
09

企业内的变革管理:靠 power user 当传教士

核心论点:在企业内推广 AI 靠"找到 power user 当传教士",而企业部署恰好提供了教育非技术用户的难得场景。

  • Mike 指出消费产品的 power user 仍多是早期采用者、技术爱好者,后面拖着长尾;而企业部署面对的是"整个组织,常常有很多很不技术的人"。看着"相当不技术的用户第一次接触 chat 驱动的 LLM"其实很酷,而且企业场景"有奢侈条件"——你可以办培训 session、做教育材料。"我们要从这些场景里学到的东西,正是教接下来 1 亿人怎么用这些 UI 所需要的。"
  • 内部的 power user 通常很兴奋,乐意去教其他人。Kevin 举 OpenAI 的 custom GPTs:组织常常做成千上万个,是 power user 把 AI 变得"对那些本来不知道怎么用的人立刻有用且更易上手"的方式——"你找到 power user 的口袋,他们会变成传教士(evangelists)"。
10

Computer use 怎么用:UI 测试、消除 drudgery、和订披萨

核心论点:Anthropic 本周刚发布的 computer use 仍会犯错、但已展现两类早期价值——自动化 UI 测试,和消除跨系统搬数据的"drudgery"。

  • 发布决策很"晚到"(late breaking):团队有"它够好、想把它放出去"的 conviction,明知"还早、还会犯错"也决定发——呼应了 Kevin 早先关于"什么时候算 ready"的讨论。
  • 最有梗的早期案例:beta 测试时有人想"看看能不能让它给我们订披萨",它真订了——"Domino's 送到办公室、整单完全由 AI 下的,那一刻很 seminal"。Mike 自嘲两句:"不过是 Domino's……"以及"它订得还挺多,可能比预期更饿。"
  • 两类真正看好的场景:① UI 测试——Instagram 时代"基本没有 UI 测试,因为它们难写、脆弱"(挪个按钮位置、本是 PR 的目的,测试却挂了,还得重做整套快照),而 computer use"在'它是否按预期工作'上表现很好";② 消除 drudgery——support、finance 团队那些"把数据从一个 silo 搬到另一个 silo、需要 30 次点击做一件事"的重复杂活。Mike 反复用 "drudgery"(苦差)这个词:"能不能自动化掉这些杂活,让你专注在创造性的事上。"
"Domino's 送到办公室、整单完全由 AI 下单的那一刻……很酷。不过——是 Domino's 就是了。而且它订得有点多,可能比预期更饿。" —— Mike Krieger
11

o1 与推理(reasoning):从 system 1 到 system 2,靠模型编排取胜

核心论点:o1 代表"在推理时(query-time)扩展智能"的新范式,区别于预训练扩展;真正的价值来自把多个模型编排起来协同工作。

  • Kevin 应 Sarah 要求"给全场定义 reasoning":大家熟悉的是预训练扩展(GPT-2、3、4、5,越跑越大、越来越聪明/知道得越多),但那是"system 1 思维"——问一个问题立刻给答案,像文本补全。他现场拿 Sarah 打趣:"就像我现在问你问题,你只能一次吐一个 token、不准想——很神奇你们人类居然能这样工作。"
  • o1 是"另一种扩展智能的方式,在 query time 做":不是立刻回答,而是会暂停——就像你被要求"解这个数独、做纽约时报 connections 谜题"时,会开始形成假设、用已知去证伪或确认假设、再继续推理,"这正是科学突破的方式、我们回答难题的方式"。现在模型思考 30-60 秒,"想象一下它能思考 5 小时甚至 5 天会怎样"。他强调 o1 现在处于"这种新推理形式的 GPT-1 阶段",且不该用于一切——"有时候你问我问题,并不想我等 60 秒"。
  • 最实用的洞察是模型编排:很多最成熟的客户(以及 OpenAI 内部)"不是为某件事用某一个模型,而是把模型组成 workflow 和 orchestration,各用所长"。以网络安全为例——直觉上模型会幻觉、似乎不该用在这——但你可以 fine-tune 一个模型擅长某类任务、再 fine-tune 模型对输入输出非常精确,"让模型协同工作、用模型去检查另一个模型的输出、发现不对就让它重试"。这正是人类做复杂事的方式:"不同的人有不同技能,协作完成一件难事。"
"现在它们思考 30 到 60 秒……想象一下如果它们能思考 5 小时、5 天会怎样——这基本上是一种扩展智能的新方式,而我们才刚刚开始。" —— Kevin Weil
12

未来 6-12 个月:proactivity(主动性)+ asynchronous(异步)

核心论点:下一阶段产品形态的两个关键词是 proactivity 和 asynchronous——模型从被动应答走向主动行动、从即时回答走向长时异步任务。

  • Proactivity(主动性):Mike 设想模型在你授权下"以一种好的、不令人毛骨悚然的方式读你的邮件",主动发现有趣趋势,"你的一天从一份主动 recap 开始——你接下来要开的会、'我帮你预研了一下'、'你这个 presentation 快到了,这是我起草的第一版'"。
  • Asynchronous(异步):o1 是这个方向的"早期 UI"——它会做很多事、边做边告诉你进展,"你可以坐着等,也可以去做别的、回头切回来,让它做完叫你"。时间 Horizon 在两个维度上扩展:一是"你没问、它主动告诉你",二是"你问了,它说'我去推理、去研究、可能还得问另一个人,一小时后回复你'"。摆脱"必须立刻拿到答案"的约束后,你能交给它"把这份迷你项目计划充实起来""帮我修这个 bug""把我的 PRD 按这三种新市场条件分别改写"这种更大的任务——这是 Mike 在产品侧"个人最兴奋的事"。
  • Kevin 完全认同,并补一条:模型将能"用我们人类交互的所有方式去交互"。现在你主要靠打字,但人也会说、会看。他讲了自己在韩国和日本的亲身经历:和一个"此前完全没有共同语言、一个词都说不上"的人,他对着 ChatGPT 说"我说英文你翻成韩语、你听到韩语就翻回英文给我","突然我就有了一个通用翻译器,在和另一个人开商务会议"。他由此畅想这对人们"愿意去陌生地方旅行"的意义——"口袋里有个 Star Trek 通用翻译器,再不用担心语言"。
"Breaking free of 那种'期待立刻拿到答案'的约束……'把我的 PRD 按这三种新出现的市场条件分别改写'——能推这些维度,是我个人在产品侧最兴奋的事。" —— Mike Krieger
13

最惊讶的产品行为:从"发布产品"到"发布智能"

核心论点:最让两位惊讶的,是用户与模型之间形成的"关系"和双向共情——这把产品的本质从发布软件变成了发布"智能 + 人格"。

  • Mike 说最惊讶的是一种"行为和关系":每发一个新模型,用户会捕捉到 Claude 的微妙变化、几乎像在"交朋友"、发展出双向共情——"新模型好像更聪明了,但也许更疏远了一点"。这给了他作为产品人很多共情:"你不只是在 ship 一个产品,你在 ship 智能;而智能和共情正是让人际关系重要的东西。"他打了个比方:如果一个人出现说"我升级了、数学分数高了 2%,但我在某方面变了个人",你会想"哦我得适应了,也许还有点担心"。
  • Kevin 接过去:模型的人格(personality)绝对是个产品角色,由此带出有趣的问题——"它该多大程度个性化,还是 OpenAI 有一个人格、Claude 有另一个独特人格?人们会不会因为'刚好更喜欢某一个'而选择用它?这非常 human——我们和不同的人做朋友,就是因为刚好更喜欢某些人。"
  • 他举了一个最近在 Twitter 上"病毒式传播"的例子:用户让模型"基于你对我的全部了解、我们过去所有的互动,你会怎么评价我",模型会给出一段描述。"你开始几乎像和某种人或实体在以有趣的方式互动——看人们对这件事的反应非常 fascinating。"
"你不只是在发布一个产品,你在发布智能(you're shipping intelligence)——而智能和共情,正是让人际关系重要的东西。" —— Mike Krieger

## 尾声:跟孩子有关的"最惊讶"

  • Mike 的孩子 5 岁和 7 岁,他还没把语音模式给孩子用,但 Kevin 的孩子 8 岁和 10 岁,在车上会主动"我能跟 ChatGPT 聊天吗",然后问出最稀奇古怪的问题、和 AI 进行"怪人对话","完全乐于和 AI 说话"。
  • Mike 讲了最有体感的一幕:自己小时候"能选本书读就算幸运了,还得防着我爸说'我们来读这篇我感兴趣的物理论文'";而他的孩子会说"妈妈,实时把图像生成出来,我要讲一个关于这个场景里龙和独角兽的故事,我来告诉你它怎么发展"——"这要求很高,但很高兴他们相信这是可能的,这也是一种创造自己娱乐的疯狂方式"。
  • 还有一个时代切片:voice mode 发布后,有一类 TikTok 是"年轻人对着语音模式倾诉心声、用各种方式使用它"。Mike 说这"暴露了我有多老"——"有个老词叫 digitally native / mobile native,我自认相当相信 AI 这件事,却想不到要这样交互;但 14 岁的人会觉得'我当然期待 AI 能做到这个',我很喜欢这点。"
14

附录:关键人/机构/产品/概念

项目详情
Kevin WeilOpenAI 首席产品官(CPO),此前在 Instagram、Twitter、Planet 等做过多种产品角色
Mike KriegerAnthropic 首席产品官(CPO),Instagram 联合创始人,加入前"半退休"约 6 周
Sarah Guo主持人,Conviction 创始人,AI 投资人(被戏称 "queen of AI investing")
场合Lenny and Friends Summit 现场,旧金山,2024-10-24;Lenny's Podcast 发布
Advanced Voice ModeOpenAI 语音模式;Kevin 在韩日当"通用翻译器"开商务会议
CanvasOpenAI 产品,研究-产品 co-design 案例
o1OpenAI 推理模型,query-time scaling,处于"GPT-1 阶段",异步长任务早期 UI
custom GPTsOpenAI 功能,组织内常做上千个,power user 借此让 AI 对他人即时可用
ArtifactsAnthropic 产品,研究-产品 co-design 案例
Claude 代码分析Claude 能分析 csv 并写代码;体现 PM 角色向 eval/prompt 融合
computer useAnthropic 本周发布;早期场景:UI 测试、自动化 drudgery;订披萨案例
GitHub Copilot首个让人意识到 AI 能做经济价值工作的产品,Kevin 推测基于约 GPT-2 级模型
"60%"全场口头标尺,Mike 戏称 AI 的 "Mendoza Line",自嘲"5分钟前编的"
"eval limited"全场核心判断:"模型不是智能受限,而是 eval 受限"(Kevin Weil)
Andrej Karpathy被引述:"没有什么比看数据更重要"(nothing beats looking at data)
system 1 / system 2即时回答 vs 停下来推理;用于解释 o1 的 reasoning
proactivity / asynchronousMike 提出的未来两关键词:主动性 + 异步长任务