← 返回
VIDEO INSIGHT

The Next AI Breakthroughs

节目
嘉宾
日期
2026-03
时长
35 min

概要

  • 最先进的 AI 用户其实藏在你的组织内部,而且在偷偷用。 Mollick 走访各行业时发现,每个组织里几乎都有「全球最前沿水平」的 AI 用户,但他们往往不声张——因为公司有 2023 年留下的禁用政策,要用 AI 得走审批 council,等 5-7 个月才排上听证,最后公司还是去买了个 vendor 产品。前沿(frontier)与一线(frontline)之间裂开一道巨大的鸿沟。
  • AI 已经从「聊天机器人」变成「能自主干活的下属」,新的工作法则是「丢给它,事后检查」。 据 GDPval 论文,人类专家平均 7 小时的真实工作任务,AI 用 5-10 分钟完成;GPT 5.2 在盲评中胜或平人类专家达 72%。Mollick 的结论:任何你觉得 AI 可能能做、耗时超过几小时的智力任务,直接丢给它,事后花一小时检查都不亏——哪怕 28% 会失败要自己重做,整体仍省 3 倍精力。
  • 会用 AI 越来越像「做管理」而非「写提示词」。 旧的 prompt engineering 技巧(让它一步步想、贿赂它)已经失效;给 AI 分配一个 7 小时的任务,正确姿势像写 PRD、SOP 或产品设计文档。更进一步,AI 已能「自我提示」——通过纯英文写的 skill files 自动加载所需能力(演示中让它「弄好看点」,它自己调用了前端设计技能)。组织未来的竞争优势,在于你的 skills 库有多好。
  • 瓶颈不是技术,是组织。Mollick 的口号是「HR is the new R&D」。 编码是「煤矿里的金丝雀」:大实验室里的顶尖工程师已 100% 用 AI 写代码、一人顶 100 倍产出,但组织仍困在两周冲刺、每日站会的旧框架里。一位经理手下 50 人、意识到 2 人即可完成全部工作,却不知如何安置其余人。变革管理严重滞后。
  • 追逐 ROI 是个陷阱,会让你淹死在「work slop」里。 若把绩效定义为「每分钟产出更多 PPT」,AI 能无限生成——Mollick 现场让它狂出 21 份 PPT,「问题是它们还挺好」。真正该做的是 hack 组织的奖励系统、开放指标、把团队变成 R&D:每月「建造一件不可能之事」、「砍掉一件曾经关键之事」,否则你离前沿就不够近。
01

Frontier vs Frontline:最强用户藏在组织内部,却被自己公司的政策困住

核心要点:每个组织里几乎都有全球顶尖水平的 AI 用户,但他们在偷偷用、不敢声张,公司的官僚流程正在系统性地浪费这批最宝贵的人。

  • 任何有多样性的组织里,几乎一定有人是「所在行业全球最先进的 AI 用户」——因为总有好奇心强、搞懂 AI 怎么运作的人主动钻研。但他们往往不告诉你自己在做什么。
  • 当 Mollick 和这些人聊,他们很兴奋地展示自己搭的东西;可一问「你在公司内部找谁对接」,他们要么不知道找谁,要么因为有政策而不敢说。
  • 典型的官僚阻塞:一条 2023 年的禁用 AI 政策要求你去找一个 council,council 用 5-7 个月才给你一次听证机会,最后公司往往去买了个 vendor 产品了事。
  • 这种现象在所有层级同时发生——少数先锋在非官方地推动着,而领导者面对整个员工队伍时却束手无策。
"最先进的用户其实就在组织内部,只是他们在偷偷做。" —— Ethan Mollick
02

Leadership / Lab / Crowd:AI 成功的三要素,最缺的是领导力

核心要点:AI 落地需要领导力、实验室(lab)、群众(crowd)三者,而最稀缺、最常缺位的恰恰是领导力——因为没人能给出现成答案。

  • 人们极度渴望清晰的答案——「我们到底该怎么应对 AI」——但答案并不存在。
  • Mollick 直言现状混乱:AI 实验室自己也在「乱扔东西看哪个粘墙上」(throwing things against the wall);咨询公司大多在做头几个项目、且高度依赖具体合伙人,有的懂很多有的不懂,整个行业没有方法论。
  • 技术变化极快——他认为过去六到八周又经历了一次「阶跃式变化」(step function change)。
  • 领导层需要承认「我们身处不确定的疆域」,但仍要选定一个方向去引导,并把激励机制设好,让员工能被引导。
"AI 实验室也在瞎试,把东西往墙上扔,看哪个能粘住。" —— Ethan Mollick
03

正面案例:挪威主权基金力排风控,Walmart 拥抱内部 agent

核心要点:见效的领导者有一个共同动作——亲自使用、当众示范、持续追问,而不是把 AI 当成一个 IT 采购项目。

  • 挪威主权财富基金(全球最大资金池)的掌门人 Nikolai Tangen,基本上是顶住了自己风控团队的反对,拍板「我们必须开始用 AI」,让每个人都能用上 ChatGPT Enterprise,并在每次会议上追问大家怎么用。结果:他告诉 Mollick,办公室里现在 50% 的人在写代码,而其中只有 20% 是程序员——靠「追问 + 以身示范」就能撬动巨大变化。
  • Walmart 在其庞大的公司总部做着类似的事:意识到这是件大事,整个组织各处都在跑有趣的实验,并认真思考「agentic commerce(智能体电商)」会长什么样。
  • 鲜明对比:Amazon 倾向于屏蔽任何外部 agent,而 Walmart 在思考如何从内部拥抱它们。
  • Mollick 的总结:很多事情在发生,但「必须从领导层来,否则就会卡住」。
"他问大家都怎么用 AI,并亲自示范——光靠这两件事,就能拿到巨大的优势。" —— Ethan Mollick(谈 Nikolai Tangen)
04

现场演示:Claude Code 审完一整个文件夹,自动生成 CEO 级风险演示

核心要点:agent 已经「成真」——你给它一个任务和一个文件夹的访问权,它会自己读文件、上网、调用研究 agent、写文件,长时间自主完成复杂工作。

  • Mollick 在笔记本上现场跑 Claude Code(一个能在你电脑上运行的 agentic AI 系统),给了它一个装满某公司完整 AI 转型计划(假数据)的文件夹。
  • 他只下了一句指令:找出文档里的所有问题和风险,做一份能现在就交给 CEO 的「高层风险防护策略演示」。
  • AI 随即自主开干:读完所有文件、做了一次深度审计、上网、调用他自己搭的研究 agent,最后用 HTML 拼出一份演示——「全程 100% AI 生成」。
  • 最戏剧化的细节:他懒得自己打开成品,于是说「我太懒了,帮我把文档打开」——AI 因为能控制他的电脑,直接打开浏览器把演示启动了。「终极的懒就是什么都不碰,只告诉 AI 你要什么。」
  • 为什么 agent 突然变得可用?因为模型变强了,agent 运行所在的「脚手架/系统」(harnesses)也变好了——「过去是聊天机器人模式,我整本书讲的就是和 AI 来回协作;现在越来越不是这个模式了,而更像一种管理或组织层面的模式。」
"终极的懒,就是什么都别碰,只告诉 AI 你要什么,它去发邮件、去把所有活都干了。" —— Ethan Mollick
05

GDPval:去年「最重要的论文」,AI 在真实工作上盲评胜过人类专家

核心要点:GDPval 用严谨的盲评证明,AI 在真实职业任务上已能与资深专家平起平坐——而且这条曲线在一年内从 48% 涨到了 72%。

  • Mollick 称 GDPval 是「去年最重要的学术论文」(并强调不是他写的,「它比我写的东西更重要」)。
  • 实验设计:找来平均 12-14 年经验、覆盖美国经济约 5% 的各行业专家(投行、法律、客服、影视剪辑等),让他们出自己日常工作中的复杂真实任务(例如「2023 年秋,你的董事总经理要你做一份拉美业务布局的演示」)。
  • 对照:再找另一组 14 年经验的专家来人工完成这些任务,人类平均耗时约 7 小时;AI 只用 5-10 分钟。
  • 评判:第三组专家做盲评,在不知道作品是 AI 还是人做的情况下挑出更喜欢的那个。
  • 结果的剧变:去年夏天最好的模型 Sonnet 4.5 胜率约 48%;到去年 12 月 GPT 5.2 发布,胜或平的比例升到 72%。「这意味着你做工作的方式应该发生相当剧烈的改变。」
"它比我自己写的任何东西都重要。" —— Ethan Mollick(谈 GDPval 论文)
06

METR 曲线与新工作法则:「丢给 AI,事后检查」,哪怕失败也省三倍

核心要点:AI 能自主完成的任务时长正在指数级拉长(已超 5 小时),由此推导出一条可立即采用的工作法则——超过几小时的智力任务直接交给 AI。

  • 著名的 METR 曲线衡量的是「AI 能以 50% 成功率完成的、等效人类任务时长」;Mollick 展示的版本显示已超过 5 小时,而在 72% 成功率口径下也已逼近相似量级——「我今早新的出来时都没来得及更新」。
  • 由此得出的法则:任何你觉得 AI 可能能做、且自己做要花几个小时以上的智力任务,就该直接分配给 AI、稍后检查。
  • 算账逻辑:就算检查要花你一小时也不是问题,做两三轮;哪怕 28% 的情况下 AI 失败、最后你得自己重做,你仍然比一开始就自己干省下约 3 倍的精力和时间。
  • 这是一个根本性转变:你能让工具自主地去跑、去做很长很复杂的任务,而无需进一步帮助——AI 从「需要来回协作的聊天机器人」变成了「能独立交付的下属」。
"对任何你觉得 AI 也许能做、又要花你几个小时的智力任务——直接派给 AI,回头再检查。" —— Ethan Mollick
07

Prompt engineering 变简单了,但「分配任务」变成了管理学

核心要点:旧的提示词技巧已基本失效,会用 AI 的核心能力正在向「传统管理」靠拢——而 AI 还学会了自我提示。

  • 在 Walmart 测试发现:过去教人「让 AI 一步步想」「贿赂它」之类的所有小技巧,现在都不再起作用、毫无效果了。这反而是好事——和系统打交道更容易了。
  • 但当你给 AI 派一个 7 小时的任务,这件事突然变得很像管理:正确的派活方式,看起来像写一份 PRD、一份标准作业程序(SOP),或一份产品设计文档。
  • 你越擅长解释自己要什么、越会设计想要的测试、越会评估产出,结果就越好——「如果你是个好管理者,你大概也会擅长派这种活。」
  • 最有意思的转折——skill files:过去搭 agentic 系统(如微软的 agent builder、GPTs)要把一堆 prompt 手动串起来,一个 prompt 触发下一个 prompt。现在 AI 已经聪明到能「自我提示」(self-prompt):你可以写用纯英文表达的 skill 文件,AI 需要做设计工作时就自己「拿起」设计技能开始干。
  • 演示佐证:当 Mollick 让 AI「把这东西弄好看点」,它自己决定加载了前端设计 skill——他没让它这么做,是 AI 知道有这个技能可用、并自主选用了。
  • 战略含义:可以想象组织内部有一个个 skill 库,AI 自己去取用——「对很多组织来说,你的竞争优势将取决于你的 skills 有多好。」
"你过去教 AI 的所有技巧——一步步来、贿赂它——现在都没用了,毫无效果。" —— Ethan Mollick
08

编码是「煤矿里的金丝雀」:人类的变革流程严重滞后于技术

核心要点:顶尖工程师已 100% 用 AI 写代码、一人顶百倍产出,但组织仍困在为旧世界设计的流程里,管理者普遍不知所措。

  • 转变在软件领域最明显:真正优秀的工程师基本「不再碰代码」;大实验室里的程序员都告诉 Mollick,他们 100% 用 AI 完成所有编码——「我相信他们。」
  • 当一个人能写出 100 倍的代码、做的是「给代码下指令」时,工作就变成了架构决策和委派(delegation)。但有多少组织开始思考这意味着什么?
  • 现实的荒诞:这些人几乎都还困在两周一个冲刺、每天站会的敏捷开发流程里——「你的站会是什么?『Claude 今天把活全干了,明天也会全干,没有阻塞。』那你拿这个站会怎么办?」
  • 最好的实验长什么样:有公司把几个最强的工程师从一线抽出来,配一个领域专家,一两天就做出一个产品——这在过去要 25 人团队干两个月。
  • 但更普遍的是混乱:某大科技公司一位经理手下 50 人,做的正是这类工作;他意识到 2 个人就能完成 50 人的活,却「不知道该怎么办了」——没有足够的项目给他们做,不知道怎么安置其余的人,也不知道怎么从管 2 个团队变成管 50 个团队。
"你的站会是什么?『Claude 今天把活都干完了,明天也会全干。』那你拿它怎么办?" —— Ethan Mollick
09

HR is the new R&D:把 AI 当 HR 问题,建立对 AI 的「心智理论」

核心要点:AI 不是 IT 解决方案而是 HR 解决方案;会用 AI 的本质,是建立起对 AI 的「心智理论」(theory of mind),就像好管理者理解员工。

  • 主持人 Parker 接过话头:个人能产出一份工作成果,而公司的本质是把一连串成果串起来达成更大的结果;过去这套连接是为人类设计的,未来这些连接会越来越多地「自己发生」。但没有公司在认真应对——「太早了,目前是个人在挣扎,公司还没到那一步。」
  • Mollick 的核心判断:AI 最大的问题之一是被丢给了 IT 部门——「我不认为这是个 IT 解决方案,我认为这是个 HR 解决方案。」他有一张标准幻灯片就写着「HR is R&D now」。
  • 关于「另一种智能」:Parker 提出把 AI 的「A」理解为 another intelligence(另一种智能),一种我们要努力理解、且在快速变化的智能;理解得越深、引导得越好。
  • Mollick 认同并补充——有篇论文指出,擅长用 AI 等价于「对 AI 拥有心智理论」,正是好管理者对人做的事:理解什么会让它「卡住」、它在哪些地方「固执」。你和它磨合够久,就能感知它在哪卡壳、需要什么例子、为什么会出错——这与理解人非常相似(区别是你不需要照顾 AI 的情绪)。
  • EQ 会迁移吗?Parker 半开玩笑说,周一早上他会问人类同事周末过得怎样、去了什么派对,而问 AI agent「自上周五以来 72 小时里干了多少活」——这像是两种不同的技能。Mollick 的判断:他怀疑 EQ 技能是会迁移过来的。
"我不认为 AI 是个 IT 解决方案,我认为它是个 HR 解决方案。" —— Ethan Mollick
10

谈判 agent 论文:AI 放大人际不平等,女性建的 agent 反而更强

核心要点:会指挥 AI 是一种我们尚未理解、但出奇「持久」的技能,而 agent 会把人与人之间的能力差距成倍放大。

  • 有篇刚出的论文发现:AI agent 实际上会「加剧不平等」——因为你的 agent 在替你做很多很多次谈判,如果它谈得不好,你每次都吃一点小亏,累积成倍数效应(multiplier effect)。
  • 更耐人寻味的发现:参与者的人口学特征、以及他们用 AI 的经验,都能预测其 agent 的好坏。
  • 反直觉结果:在这项研究里,女性搭建的谈判 agent 表现优于男性——尽管在大多数传统谈判研究中,女性因各种原因表现逊于男性。
  • Mollick 坦承现状:「我们还完全不理解这些,没有理论来解释,不知道到底发生了什么——但这是个非常有意思的处境。」
"女性搭的谈判 agent 跑赢了男性的——尽管在大多数谈判研究里女性是吃亏的一方。我们还没有任何理论能解释这件事。" —— Ethan Mollick
11

ROI 陷阱与「work slop」:别淹死在 PowerPoint 的海洋里

核心要点:把 AI 的目标设成「提升 ROI / 生产力」是个陷阱,因为 AI 能无限生成「看起来不错」的垃圾产出(work slop),真正要的是结果和改变,不是更多 PPT。

  • 框架对照:R&D 世界是「前沿世界」,而在场很多人面对的是「ROI 世界」——被要求算投资的真金白银回报。Parker 用 SpaceX 类比:如果用即时 ROI 衡量,第一枚爆炸的火箭会让你得出「不值得做」的结论。
  • Mollick 先泼一盆冷水:ROI 其实没那么大问题了。半年前还在争论那篇「95% 的 AI 项目失败」的 MIT 论文——但那篇是假的,实际只是某会议上一个与 MIT 关系松散的人做的 52 个访谈,却疯传开来,「一堆平时很挑剔的人也信了,因为他们希望它失败」。沃顿同事的追踪研究显示,75% 的公司报告 AI 带来正向 ROI。
  • 真正的「噩梦场景」演示:Mollick 让 AI 把一份 PPT 转成备忘录、再转成更多 PPT,然后不断说「more powerpoints」,AI 越来越兴奋,最终生成了 21 份——「问题在于,它们还都是好 PPT。」
  • 核心警告:如果你为 ROI、为生产力提升而奔跑,却不去想组织本身,你会「淹死在 PowerPoint 的海洋里」。你要的不是 PPT,是产出、是改变。「如果你对我的考核就是『每分钟更多 PPT』,那你有麻烦了——我现在能按需无限生成 work slop。」
"如果你的 ROI 就是『每分钟产出更多 PPT』,那你就麻烦大了——这种垃圾我现在能按需无限生成。" —— Ethan Mollick
12

合规报告的故事:为什么组织搞不清「我们到底为什么做这件事」

核心要点:AI 逼着组织回答一个更根本的问题——这件事当初的人类需求是什么?很多流程是历史偶然长出来的,组织甚至说不清自己为何而做。

  • 「最不友善的版本」是:没人知道你为什么需要这份 PPT。组织里大量被设计出来的东西其实是偶然的、古怪的。
  • Mollick 讲了一个「AI 出现之前」就让他最沮丧的故事,完整还原:某大公司有位女士,带着一个 14 人团队,每周产出一份合规报告。COVID 期间她没法产出,但这报告「重要到」公司把整个团队保留了下来。她心里起了疑:回到办公室、团队重新开始做报告后,她在长达一年半的时间里,没把报告发给任何人——只是想看看到底有没有人真的在用。结果:从没有人问起过。一个 14 人的团队每周拼命赶工,「冬天永远是做报告最难的时候」,而没人在乎、没人知道这报告是干嘛用的。
  • 三层变革管理:不只是「思考 AI 怎么干活」,也不只是「思考什么值得做」,还要回头思考「我们为什么在做现在做的这些事——这里面有价值吗?当初的人类需求到底是什么?」
  • 为什么组织难以做到?因为组织不是「被设计」出来的,而是像生物一样「长出来、进化出来」的,是对环境压力的响应。「组织架构图根本讲不出一个组织真实故事的多少。」要砍掉冗余流程,需要管理者诚实面对、并被激励去说「我觉得我们不该再做这个了」——但这往往会动到他们的权力和利润。
"她那个 14 人的团队每周拼命做一份报告,而她一年半没发给任何人——没有一个人问起过。" —— Ethan Mollick
13

为什么员工瞒报生产力提升:每一层都有「不说真话」的理由

核心要点:员工自报 AI 带来 3 倍生产力,对老板却只说 6%——因为现行激励让「诚实」变成一件愚蠢的事,这需要真正的领导力来破局。

  • Mollick 拆解员工瞒报的多重动机:
  • 怕被罚:有一条模糊不清的政策,用 AI「用错了」会被惩罚,没人想冒险。
  • 怕被看不起:大家都知道用 AI 是被鄙视的;员工现在因为 AI 显得像天才,他们不想让你发现「不是我,是 AI」,否则你会更看不起他们。
  • 看穿了 ROI 的潜台词:员工知道,你说「我要提升 ROI 和生产力」,潜台词就是「你想裁人」——除非你把「不裁」说得非常清楚。
  • 自己另有打算:他们可能实际只工作了 10% 的时间、却没理由把多出来的时间还给你;或在筹划一家创业公司来和你竞争;或有个好点子却不知道怎么被奖励、该告诉谁。
  • 这是一个贯穿组织每一层的陷阱,需要真正的领导力。「对在场的 HR 人来说,这是你的时刻——不只因为 HR is R&D,更因为我们在『如何激励人、如何奖励人、组织如何运转』上有一个堵点,必须靠处于核心位置的 HR 领导力把人们带出这团乱麻。」
  • 呼应稍后的讲者 Scott Belsky:要「hack 组织的奖励系统」才能驱动这类变革,Mollick 表示认同这种根本性转变的必要。
"员工要是傻到向你展示自己生产力翻倍,那才奇怪——因为他们知道你想干嘛:裁人。" —— Ethan Mollick
14

必须用 frontier 模型,以及人们为何「想让 AI 失败」

核心要点:用弱模型体验 AI 会得出严重错误的结论,而很多人潜意识里希望 AI 失败——这背后有真实的心理与利益动因,领导者必须用前沿模型亲身体验。

  • 一个被忽视的鸿沟:ChatGPT 有约 8 亿用户,但付费版只占极小一部分。人们接触到的是「截然不同版本」的 AI——可能是 6 到 12 个月前的、或更弱的版本,然后据此对 AI 能力下了判断、并低估了它。
  • 「如果你想让 AI 失败,它就一定会失败」——因为它第一次往往不奏效,你必须和它迭代。而很多人有让它失败的理由:
  • 心理动因:用这些系统是「令人不安」的。Mollick 的妻子在教一家大公司的 CLO(首席学习官)及其团队用 AI 时,那位 CLO 用了两秒就推开电脑、说「这不好用」、走出了房间——那是一种面对它时的存在主义不适。他在书里称之为「三个不眠之夜」。
  • 利益动因:你不想让它奏效,因为你不愿花时间让它奏效,或你的工作因此有风险。
  • 弱系统本身就烂:半年前 AI 数学很差、老算错、数不清 strawberry 里有几个 R——但这些现在都是「已解决的问题」,给人一个前沿模型,体验会完全不同。
  • 正确做法是鼓励人「把它推到极限」。Mollick 现场用 NotebookLM(Google Gemini 驱动,他认为是 Google 套件里最好的)演示:让它写一份《如何为 Fortune 500 重构人才管道》的研究报告,再转成幻灯片、甚至视频音频,「全程 100% AI 生成,我都没碰过、没看过」,质量「瞥一眼都挺好」。他现在每次要做演讲,都先生成 4-5 份这样的演示找灵感,「就算不用它的幻灯片,至少能得到一些想法」。
  • 风险是「锚定得太低」(anchoring too low):因为用过一两次弱版本就给 AI 能力定了性,而这东西还在越来越快地变好。
"你不能一边用着 Copilot,一边说『我懂 AI 是怎么回事』。你得花 20 块或 200 块,去用一个真正的前沿系统。" —— Ethan Mollick
15

对 2026 的预测与对 2027 的期望:建造不可能之事,砍掉关键之事

核心要点:明年的大趋势是「知识工作者专用的长时程 agent 工具」;而 Mollick 给在场领导者的真正期望,是彻底换掉衡量「采用率」的方式,去建不可能之事、砍掉关键之事。

  • 「展示 AI 的未来」最好的方法,对 99.9% 的人来说,就是「展示 AI 现在就能做什么」。
  • 2026 预测:长时程 agentic work + 为知识工作者打造的专用工具会大量涌现。Mollick 点名 Claude for Excel(「如果你是 Excel 驱动的业务,它会震撼到你」)和 Claude for Finance(听很多人说很棒);他演示的 Claude Code 本是为程序员造的、现在被「挪用」到知识工作——co-work 类工具会接棒。更多人会转向「直接使用模型」而非穿过一层层中间产品。
  • vendor 分化与颠覆:会开始看到真正的分化——一类是做高度专业化工作、由外部 vendor 来做很合理(如 Valence);另一类只是「换个壳高价转售 OpenAI 产品、你还碰不到它生成的数据库」,这类将被颠覆。
  • 对 2027 的期望(最重要的部分)
  • 停止用「碰过 AI 系统的人数百分比」来衡量采用率——这是个严重错误,尤其当你的 AI 系统很烂时。反例:某超大公司的高管告诉 Mollick 他们在做各种酷炫 AI,而他班上一位中层经理却说「我们 90% 的工作要用 AI 完成,所以我们就是用 Copilot 总结每一个会议——因为没有别的指令,而我们必须达成这个指标」。
  • 去 hack 奖励系统、开放指标、把团队变成 R&D 人员——别只是打钩「AI 使用率上升、多产出 17% 的幻灯片」。
  • 两条硬标准:「你应该在建造不可能之事」(build impossible things,他强调不是开玩笑);以及「砍掉至少一件曾经对组织至关重要的事」——现在每个人都能为某件事做到这点了,那件事是什么?停掉它。
  • mentoring at scale(规模化辅导) 会带来最大的影响之一,它会改变你的人才管道应有的运作方式——如果有了规模化辅导你的组织运作方式还没变,那一定哪里错了。
  • 收尾的标志性案例:Mollick 团队曾做过一个教育模拟器(educational simulator),原本动用 14 人团队、花几百万美元、耗时几年;他们把当年为那个游戏写的说明书直接丢给 AI,AI 在「一个下午、零额外提示」下从头重建了整个游戏。「你应该把野心放得大得多。」
"如果你没在建造不可能之事,也没砍掉过哪怕一件关键的事——而且不是偶尔、是每个月——那你离前沿就还不够近。" —— Parker Mitchell(总结 Ethan Mollick)
16

附录:关键人/机构/产品/数据

项目详情
Ethan Mollick沃顿商学院教授,《Co-Intelligence》作者,本场嘉宾
Parker MitchellValence CEO,本场主持
Nikolai Tangen挪威主权财富基金(全球最大资金池)掌门人,力排风控推 AI
Scott Belsky稍后讲者,主张「hack 组织的奖励系统」
Valence / Nadia主办方 Valence;其 AI 领导力教练产品名 Nadia
GDPval被 Mollick 称为「去年最重要的论文」,用盲评比较 AI 与人类专家在真实职业任务上的表现
METR 曲线衡量 AI 能以 50% 成功率完成的等效人类任务时长,现已超 5 小时
Claude Code能在本地运行、可读写文件/上网/调用子 agent 的 agentic 系统,现场演示主角
skill files用纯英文写的技能文件,AI 可自主「拿起」加载,组织 skill 库=竞争优势
NotebookLMGoogle Gemini 驱动的工具,演示中生成研究报告+幻灯片,被指 Google 套件里最好
Claude for Excel / FinanceMollick 点名的 2026 知识工作者专用工具
12-14 年GDPval 参与专家的平均工作经验
5%GDPval 所覆盖的美国经济比例
7 小时 vs 5-10 分钟同一真实任务:人类专家平均耗时 vs AI 耗时
48% → 72%GDPval 盲评胜/平率:去年夏 Sonnet 4.5 → 去年 12 月 GPT 5.2
28% / 3 倍AI 失败率口径 / 即便失败仍节省的精力倍数
50% 写代码 / 20% 程序员挪威主权基金办公室的实况
75%沃顿追踪研究中报告 AI 正向 ROI 的公司比例
「95% 项目失败」MIT 论文实为某会议 52 个访谈、与 MIT 关系松散者所做,是假的却疯传
21 份 PPT「噩梦演示」中 AI 被催着生成的数量
14 人 / 1.5 年合规报告团队规模 / 报告无人查看的时长
8 亿ChatGPT 约略用户数(付费仅占极小比例)
三个不眠之夜《Co-Intelligence》中描述面对 AI 的存在主义危机
HR is the new R&DMollick 的标志性论断与标准幻灯片
work slop「按需无限生成、看似不错的垃圾产出」