The Next AI Breakthroughs

节目

Valence

嘉宾

Ethan Mollick

日期

2026-03

时长

35 min

查看原始内容 →

概要

最先进的 AI 用户其实藏在你的组织内部，而且在偷偷用。 Mollick 走访各行业时发现，每个组织里几乎都有「全球最前沿水平」的 AI 用户，但他们往往不声张——因为公司有 2023 年留下的禁用政策，要用 AI 得走审批 council，等 5-7 个月才排上听证，最后公司还是去买了个 vendor 产品。前沿（frontier）与一线（frontline）之间裂开一道巨大的鸿沟。
AI 已经从「聊天机器人」变成「能自主干活的下属」，新的工作法则是「丢给它，事后检查」。 据 GDPval 论文，人类专家平均 7 小时的真实工作任务，AI 用 5-10 分钟完成；GPT 5.2 在盲评中胜或平人类专家达 72%。Mollick 的结论：任何你觉得 AI 可能能做、耗时超过几小时的智力任务，直接丢给它，事后花一小时检查都不亏——哪怕 28% 会失败要自己重做，整体仍省 3 倍精力。
会用 AI 越来越像「做管理」而非「写提示词」。 旧的 prompt engineering 技巧（让它一步步想、贿赂它）已经失效；给 AI 分配一个 7 小时的任务，正确姿势像写 PRD、SOP 或产品设计文档。更进一步，AI 已能「自我提示」——通过纯英文写的 skill files 自动加载所需能力（演示中让它「弄好看点」，它自己调用了前端设计技能）。组织未来的竞争优势，在于你的 skills 库有多好。
瓶颈不是技术，是组织。Mollick 的口号是「HR is the new R&D」。 编码是「煤矿里的金丝雀」：大实验室里的顶尖工程师已 100% 用 AI 写代码、一人顶 100 倍产出，但组织仍困在两周冲刺、每日站会的旧框架里。一位经理手下 50 人、意识到 2 人即可完成全部工作，却不知如何安置其余人。变革管理严重滞后。
追逐 ROI 是个陷阱，会让你淹死在「work slop」里。 若把绩效定义为「每分钟产出更多 PPT」，AI 能无限生成——Mollick 现场让它狂出 21 份 PPT，「问题是它们还挺好」。真正该做的是 hack 组织的奖励系统、开放指标、把团队变成 R&D：每月「建造一件不可能之事」、「砍掉一件曾经关键之事」，否则你离前沿就不够近。

Frontier vs Frontline：最强用户藏在组织内部，却被自己公司的政策困住

核心要点：每个组织里几乎都有全球顶尖水平的 AI 用户，但他们在偷偷用、不敢声张，公司的官僚流程正在系统性地浪费这批最宝贵的人。

任何有多样性的组织里，几乎一定有人是「所在行业全球最先进的 AI 用户」——因为总有好奇心强、搞懂 AI 怎么运作的人主动钻研。但他们往往不告诉你自己在做什么。
当 Mollick 和这些人聊，他们很兴奋地展示自己搭的东西；可一问「你在公司内部找谁对接」，他们要么不知道找谁，要么因为有政策而不敢说。
典型的官僚阻塞：一条 2023 年的禁用 AI 政策要求你去找一个 council，council 用 5-7 个月才给你一次听证机会，最后公司往往去买了个 vendor 产品了事。
这种现象在所有层级同时发生——少数先锋在非官方地推动着，而领导者面对整个员工队伍时却束手无策。

"最先进的用户其实就在组织内部，只是他们在偷偷做。" —— Ethan Mollick

Leadership / Lab / Crowd：AI 成功的三要素，最缺的是领导力

核心要点：AI 落地需要领导力、实验室（lab）、群众（crowd）三者，而最稀缺、最常缺位的恰恰是领导力——因为没人能给出现成答案。

人们极度渴望清晰的答案——「我们到底该怎么应对 AI」——但答案并不存在。
Mollick 直言现状混乱：AI 实验室自己也在「乱扔东西看哪个粘墙上」（throwing things against the wall）；咨询公司大多在做头几个项目、且高度依赖具体合伙人，有的懂很多有的不懂，整个行业没有方法论。
技术变化极快——他认为过去六到八周又经历了一次「阶跃式变化」（step function change）。
领导层需要承认「我们身处不确定的疆域」，但仍要选定一个方向去引导，并把激励机制设好，让员工能被引导。

"AI 实验室也在瞎试，把东西往墙上扔，看哪个能粘住。" —— Ethan Mollick

正面案例：挪威主权基金力排风控，Walmart 拥抱内部 agent

核心要点：见效的领导者有一个共同动作——亲自使用、当众示范、持续追问，而不是把 AI 当成一个 IT 采购项目。

挪威主权财富基金（全球最大资金池）的掌门人 Nikolai Tangen，基本上是顶住了自己风控团队的反对，拍板「我们必须开始用 AI」，让每个人都能用上 ChatGPT Enterprise，并在每次会议上追问大家怎么用。结果：他告诉 Mollick，办公室里现在 50% 的人在写代码，而其中只有 20% 是程序员——靠「追问 + 以身示范」就能撬动巨大变化。
Walmart 在其庞大的公司总部做着类似的事：意识到这是件大事，整个组织各处都在跑有趣的实验，并认真思考「agentic commerce（智能体电商）」会长什么样。
鲜明对比：Amazon 倾向于屏蔽任何外部 agent，而 Walmart 在思考如何从内部拥抱它们。
Mollick 的总结：很多事情在发生，但「必须从领导层来，否则就会卡住」。

"他问大家都怎么用 AI，并亲自示范——光靠这两件事，就能拿到巨大的优势。" —— Ethan Mollick（谈 Nikolai Tangen）

现场演示：Claude Code 审完一整个文件夹，自动生成 CEO 级风险演示

核心要点：agent 已经「成真」——你给它一个任务和一个文件夹的访问权，它会自己读文件、上网、调用研究 agent、写文件，长时间自主完成复杂工作。

Mollick 在笔记本上现场跑 Claude Code（一个能在你电脑上运行的 agentic AI 系统），给了它一个装满某公司完整 AI 转型计划（假数据）的文件夹。
他只下了一句指令：找出文档里的所有问题和风险，做一份能现在就交给 CEO 的「高层风险防护策略演示」。
AI 随即自主开干：读完所有文件、做了一次深度审计、上网、调用他自己搭的研究 agent，最后用 HTML 拼出一份演示——「全程 100% AI 生成」。
最戏剧化的细节：他懒得自己打开成品，于是说「我太懒了，帮我把文档打开」——AI 因为能控制他的电脑，直接打开浏览器把演示启动了。「终极的懒就是什么都不碰，只告诉 AI 你要什么。」
为什么 agent 突然变得可用？因为模型变强了，agent 运行所在的「脚手架/系统」（harnesses）也变好了——「过去是聊天机器人模式，我整本书讲的就是和 AI 来回协作；现在越来越不是这个模式了，而更像一种管理或组织层面的模式。」

"终极的懒，就是什么都别碰，只告诉 AI 你要什么，它去发邮件、去把所有活都干了。" —— Ethan Mollick

GDPval：去年「最重要的论文」，AI 在真实工作上盲评胜过人类专家

核心要点：GDPval 用严谨的盲评证明，AI 在真实职业任务上已能与资深专家平起平坐——而且这条曲线在一年内从 48% 涨到了 72%。

Mollick 称 GDPval 是「去年最重要的学术论文」（并强调不是他写的，「它比我写的东西更重要」）。
实验设计：找来平均 12-14 年经验、覆盖美国经济约 5% 的各行业专家（投行、法律、客服、影视剪辑等），让他们出自己日常工作中的复杂真实任务（例如「2023 年秋，你的董事总经理要你做一份拉美业务布局的演示」）。
对照：再找另一组 14 年经验的专家来人工完成这些任务，人类平均耗时约 7 小时；AI 只用 5-10 分钟。
评判：第三组专家做盲评，在不知道作品是 AI 还是人做的情况下挑出更喜欢的那个。
结果的剧变：去年夏天最好的模型 Sonnet 4.5 胜率约 48%；到去年 12 月 GPT 5.2 发布，胜或平的比例升到 72%。「这意味着你做工作的方式应该发生相当剧烈的改变。」

"它比我自己写的任何东西都重要。" —— Ethan Mollick（谈 GDPval 论文）

METR 曲线与新工作法则：「丢给 AI，事后检查」，哪怕失败也省三倍

核心要点：AI 能自主完成的任务时长正在指数级拉长（已超 5 小时），由此推导出一条可立即采用的工作法则——超过几小时的智力任务直接交给 AI。

著名的 METR 曲线衡量的是「AI 能以 50% 成功率完成的、等效人类任务时长」；Mollick 展示的版本显示已超过 5 小时，而在 72% 成功率口径下也已逼近相似量级——「我今早新的出来时都没来得及更新」。
由此得出的法则：任何你觉得 AI 可能能做、且自己做要花几个小时以上的智力任务，就该直接分配给 AI、稍后检查。
算账逻辑：就算检查要花你一小时也不是问题，做两三轮；哪怕 28% 的情况下 AI 失败、最后你得自己重做，你仍然比一开始就自己干省下约 3 倍的精力和时间。
这是一个根本性转变：你能让工具自主地去跑、去做很长很复杂的任务，而无需进一步帮助——AI 从「需要来回协作的聊天机器人」变成了「能独立交付的下属」。

"对任何你觉得 AI 也许能做、又要花你几个小时的智力任务——直接派给 AI，回头再检查。" —— Ethan Mollick

Prompt engineering 变简单了，但「分配任务」变成了管理学

核心要点：旧的提示词技巧已基本失效，会用 AI 的核心能力正在向「传统管理」靠拢——而 AI 还学会了自我提示。

在 Walmart 测试发现：过去教人「让 AI 一步步想」「贿赂它」之类的所有小技巧，现在都不再起作用、毫无效果了。这反而是好事——和系统打交道更容易了。
但当你给 AI 派一个 7 小时的任务，这件事突然变得很像管理：正确的派活方式，看起来像写一份 PRD、一份标准作业程序（SOP），或一份产品设计文档。
你越擅长解释自己要什么、越会设计想要的测试、越会评估产出，结果就越好——「如果你是个好管理者，你大概也会擅长派这种活。」
最有意思的转折——skill files：过去搭 agentic 系统（如微软的 agent builder、GPTs）要把一堆 prompt 手动串起来，一个 prompt 触发下一个 prompt。现在 AI 已经聪明到能「自我提示」（self-prompt）：你可以写用纯英文表达的 skill 文件，AI 需要做设计工作时就自己「拿起」设计技能开始干。
演示佐证：当 Mollick 让 AI「把这东西弄好看点」，它自己决定加载了前端设计 skill——他没让它这么做，是 AI 知道有这个技能可用、并自主选用了。
战略含义：可以想象组织内部有一个个 skill 库，AI 自己去取用——「对很多组织来说，你的竞争优势将取决于你的 skills 有多好。」

"你过去教 AI 的所有技巧——一步步来、贿赂它——现在都没用了，毫无效果。" —— Ethan Mollick

编码是「煤矿里的金丝雀」：人类的变革流程严重滞后于技术

核心要点：顶尖工程师已 100% 用 AI 写代码、一人顶百倍产出，但组织仍困在为旧世界设计的流程里，管理者普遍不知所措。

转变在软件领域最明显：真正优秀的工程师基本「不再碰代码」；大实验室里的程序员都告诉 Mollick，他们 100% 用 AI 完成所有编码——「我相信他们。」
当一个人能写出 100 倍的代码、做的是「给代码下指令」时，工作就变成了架构决策和委派（delegation）。但有多少组织开始思考这意味着什么？
现实的荒诞：这些人几乎都还困在两周一个冲刺、每天站会的敏捷开发流程里——「你的站会是什么？『Claude 今天把活全干了，明天也会全干，没有阻塞。』那你拿这个站会怎么办？」
最好的实验长什么样：有公司把几个最强的工程师从一线抽出来，配一个领域专家，一两天就做出一个产品——这在过去要 25 人团队干两个月。
但更普遍的是混乱：某大科技公司一位经理手下 50 人，做的正是这类工作；他意识到 2 个人就能完成 50 人的活，却「不知道该怎么办了」——没有足够的项目给他们做，不知道怎么安置其余的人，也不知道怎么从管 2 个团队变成管 50 个团队。

"你的站会是什么？『Claude 今天把活都干完了，明天也会全干。』那你拿它怎么办？" —— Ethan Mollick

HR is the new R&D：把 AI 当 HR 问题，建立对 AI 的「心智理论」

核心要点：AI 不是 IT 解决方案而是 HR 解决方案；会用 AI 的本质，是建立起对 AI 的「心智理论」（theory of mind），就像好管理者理解员工。

主持人 Parker 接过话头：个人能产出一份工作成果，而公司的本质是把一连串成果串起来达成更大的结果；过去这套连接是为人类设计的，未来这些连接会越来越多地「自己发生」。但没有公司在认真应对——「太早了，目前是个人在挣扎，公司还没到那一步。」
Mollick 的核心判断：AI 最大的问题之一是被丢给了 IT 部门——「我不认为这是个 IT 解决方案，我认为这是个 HR 解决方案。」他有一张标准幻灯片就写着「HR is R&D now」。
关于「另一种智能」：Parker 提出把 AI 的「A」理解为 another intelligence（另一种智能），一种我们要努力理解、且在快速变化的智能；理解得越深、引导得越好。
Mollick 认同并补充——有篇论文指出，擅长用 AI 等价于「对 AI 拥有心智理论」，正是好管理者对人做的事：理解什么会让它「卡住」、它在哪些地方「固执」。你和它磨合够久，就能感知它在哪卡壳、需要什么例子、为什么会出错——这与理解人非常相似（区别是你不需要照顾 AI 的情绪）。
EQ 会迁移吗？Parker 半开玩笑说，周一早上他会问人类同事周末过得怎样、去了什么派对，而问 AI agent「自上周五以来 72 小时里干了多少活」——这像是两种不同的技能。Mollick 的判断：他怀疑 EQ 技能是会迁移过来的。

"我不认为 AI 是个 IT 解决方案，我认为它是个 HR 解决方案。" —— Ethan Mollick

谈判 agent 论文：AI 放大人际不平等，女性建的 agent 反而更强

核心要点：会指挥 AI 是一种我们尚未理解、但出奇「持久」的技能，而 agent 会把人与人之间的能力差距成倍放大。

有篇刚出的论文发现：AI agent 实际上会「加剧不平等」——因为你的 agent 在替你做很多很多次谈判，如果它谈得不好，你每次都吃一点小亏，累积成倍数效应（multiplier effect）。
更耐人寻味的发现：参与者的人口学特征、以及他们用 AI 的经验，都能预测其 agent 的好坏。
反直觉结果：在这项研究里，女性搭建的谈判 agent 表现优于男性——尽管在大多数传统谈判研究中，女性因各种原因表现逊于男性。
Mollick 坦承现状：「我们还完全不理解这些，没有理论来解释，不知道到底发生了什么——但这是个非常有意思的处境。」

"女性搭的谈判 agent 跑赢了男性的——尽管在大多数谈判研究里女性是吃亏的一方。我们还没有任何理论能解释这件事。" —— Ethan Mollick

ROI 陷阱与「work slop」：别淹死在 PowerPoint 的海洋里

核心要点：把 AI 的目标设成「提升 ROI / 生产力」是个陷阱，因为 AI 能无限生成「看起来不错」的垃圾产出（work slop），真正要的是结果和改变，不是更多 PPT。

框架对照：R&D 世界是「前沿世界」，而在场很多人面对的是「ROI 世界」——被要求算投资的真金白银回报。Parker 用 SpaceX 类比：如果用即时 ROI 衡量，第一枚爆炸的火箭会让你得出「不值得做」的结论。
Mollick 先泼一盆冷水：ROI 其实没那么大问题了。半年前还在争论那篇「95% 的 AI 项目失败」的 MIT 论文——但那篇是假的，实际只是某会议上一个与 MIT 关系松散的人做的 52 个访谈，却疯传开来，「一堆平时很挑剔的人也信了，因为他们希望它失败」。沃顿同事的追踪研究显示，75% 的公司报告 AI 带来正向 ROI。
真正的「噩梦场景」演示：Mollick 让 AI 把一份 PPT 转成备忘录、再转成更多 PPT，然后不断说「more powerpoints」，AI 越来越兴奋，最终生成了 21 份——「问题在于，它们还都是好 PPT。」
核心警告：如果你为 ROI、为生产力提升而奔跑，却不去想组织本身，你会「淹死在 PowerPoint 的海洋里」。你要的不是 PPT，是产出、是改变。「如果你对我的考核就是『每分钟更多 PPT』，那你有麻烦了——我现在能按需无限生成 work slop。」

"如果你的 ROI 就是『每分钟产出更多 PPT』，那你就麻烦大了——这种垃圾我现在能按需无限生成。" —— Ethan Mollick

合规报告的故事：为什么组织搞不清「我们到底为什么做这件事」

核心要点：AI 逼着组织回答一个更根本的问题——这件事当初的人类需求是什么？很多流程是历史偶然长出来的，组织甚至说不清自己为何而做。

「最不友善的版本」是：没人知道你为什么需要这份 PPT。组织里大量被设计出来的东西其实是偶然的、古怪的。
Mollick 讲了一个「AI 出现之前」就让他最沮丧的故事，完整还原：某大公司有位女士，带着一个 14 人团队，每周产出一份合规报告。COVID 期间她没法产出，但这报告「重要到」公司把整个团队保留了下来。她心里起了疑：回到办公室、团队重新开始做报告后，她在长达一年半的时间里，没把报告发给任何人——只是想看看到底有没有人真的在用。结果：从没有人问起过。一个 14 人的团队每周拼命赶工，「冬天永远是做报告最难的时候」，而没人在乎、没人知道这报告是干嘛用的。
三层变革管理：不只是「思考 AI 怎么干活」，也不只是「思考什么值得做」，还要回头思考「我们为什么在做现在做的这些事——这里面有价值吗？当初的人类需求到底是什么？」
为什么组织难以做到？因为组织不是「被设计」出来的，而是像生物一样「长出来、进化出来」的，是对环境压力的响应。「组织架构图根本讲不出一个组织真实故事的多少。」要砍掉冗余流程，需要管理者诚实面对、并被激励去说「我觉得我们不该再做这个了」——但这往往会动到他们的权力和利润。

"她那个 14 人的团队每周拼命做一份报告，而她一年半没发给任何人——没有一个人问起过。" —— Ethan Mollick

为什么员工瞒报生产力提升：每一层都有「不说真话」的理由

核心要点：员工自报 AI 带来 3 倍生产力，对老板却只说 6%——因为现行激励让「诚实」变成一件愚蠢的事，这需要真正的领导力来破局。

Mollick 拆解员工瞒报的多重动机：
怕被罚：有一条模糊不清的政策，用 AI「用错了」会被惩罚，没人想冒险。
怕被看不起：大家都知道用 AI 是被鄙视的；员工现在因为 AI 显得像天才，他们不想让你发现「不是我，是 AI」，否则你会更看不起他们。
看穿了 ROI 的潜台词：员工知道，你说「我要提升 ROI 和生产力」，潜台词就是「你想裁人」——除非你把「不裁」说得非常清楚。
自己另有打算：他们可能实际只工作了 10% 的时间、却没理由把多出来的时间还给你；或在筹划一家创业公司来和你竞争；或有个好点子却不知道怎么被奖励、该告诉谁。
这是一个贯穿组织每一层的陷阱，需要真正的领导力。「对在场的 HR 人来说，这是你的时刻——不只因为 HR is R&D，更因为我们在『如何激励人、如何奖励人、组织如何运转』上有一个堵点，必须靠处于核心位置的 HR 领导力把人们带出这团乱麻。」
呼应稍后的讲者 Scott Belsky：要「hack 组织的奖励系统」才能驱动这类变革，Mollick 表示认同这种根本性转变的必要。

"员工要是傻到向你展示自己生产力翻倍，那才奇怪——因为他们知道你想干嘛：裁人。" —— Ethan Mollick

必须用 frontier 模型，以及人们为何「想让 AI 失败」

核心要点：用弱模型体验 AI 会得出严重错误的结论，而很多人潜意识里希望 AI 失败——这背后有真实的心理与利益动因，领导者必须用前沿模型亲身体验。

一个被忽视的鸿沟：ChatGPT 有约 8 亿用户，但付费版只占极小一部分。人们接触到的是「截然不同版本」的 AI——可能是 6 到 12 个月前的、或更弱的版本，然后据此对 AI 能力下了判断、并低估了它。
「如果你想让 AI 失败，它就一定会失败」——因为它第一次往往不奏效，你必须和它迭代。而很多人有让它失败的理由：
心理动因：用这些系统是「令人不安」的。Mollick 的妻子在教一家大公司的 CLO（首席学习官）及其团队用 AI 时，那位 CLO 用了两秒就推开电脑、说「这不好用」、走出了房间——那是一种面对它时的存在主义不适。他在书里称之为「三个不眠之夜」。
利益动因：你不想让它奏效，因为你不愿花时间让它奏效，或你的工作因此有风险。
弱系统本身就烂：半年前 AI 数学很差、老算错、数不清 strawberry 里有几个 R——但这些现在都是「已解决的问题」，给人一个前沿模型，体验会完全不同。
正确做法是鼓励人「把它推到极限」。Mollick 现场用 NotebookLM（Google Gemini 驱动，他认为是 Google 套件里最好的）演示：让它写一份《如何为 Fortune 500 重构人才管道》的研究报告，再转成幻灯片、甚至视频音频，「全程 100% AI 生成，我都没碰过、没看过」，质量「瞥一眼都挺好」。他现在每次要做演讲，都先生成 4-5 份这样的演示找灵感，「就算不用它的幻灯片，至少能得到一些想法」。
风险是「锚定得太低」（anchoring too low）：因为用过一两次弱版本就给 AI 能力定了性，而这东西还在越来越快地变好。

"你不能一边用着 Copilot，一边说『我懂 AI 是怎么回事』。你得花 20 块或 200 块，去用一个真正的前沿系统。" —— Ethan Mollick

对 2026 的预测与对 2027 的期望：建造不可能之事，砍掉关键之事

核心要点：明年的大趋势是「知识工作者专用的长时程 agent 工具」；而 Mollick 给在场领导者的真正期望，是彻底换掉衡量「采用率」的方式，去建不可能之事、砍掉关键之事。

「展示 AI 的未来」最好的方法，对 99.9% 的人来说，就是「展示 AI 现在就能做什么」。
2026 预测：长时程 agentic work + 为知识工作者打造的专用工具会大量涌现。Mollick 点名 Claude for Excel（「如果你是 Excel 驱动的业务，它会震撼到你」）和 Claude for Finance（听很多人说很棒）；他演示的 Claude Code 本是为程序员造的、现在被「挪用」到知识工作——co-work 类工具会接棒。更多人会转向「直接使用模型」而非穿过一层层中间产品。
vendor 分化与颠覆：会开始看到真正的分化——一类是做高度专业化工作、由外部 vendor 来做很合理（如 Valence）；另一类只是「换个壳高价转售 OpenAI 产品、你还碰不到它生成的数据库」，这类将被颠覆。
对 2027 的期望（最重要的部分）：
停止用「碰过 AI 系统的人数百分比」来衡量采用率——这是个严重错误，尤其当你的 AI 系统很烂时。反例：某超大公司的高管告诉 Mollick 他们在做各种酷炫 AI，而他班上一位中层经理却说「我们 90% 的工作要用 AI 完成，所以我们就是用 Copilot 总结每一个会议——因为没有别的指令，而我们必须达成这个指标」。
去 hack 奖励系统、开放指标、把团队变成 R&D 人员——别只是打钩「AI 使用率上升、多产出 17% 的幻灯片」。
两条硬标准：「你应该在建造不可能之事」（build impossible things，他强调不是开玩笑）；以及「砍掉至少一件曾经对组织至关重要的事」——现在每个人都能为某件事做到这点了，那件事是什么？停掉它。
mentoring at scale（规模化辅导） 会带来最大的影响之一，它会改变你的人才管道应有的运作方式——如果有了规模化辅导你的组织运作方式还没变，那一定哪里错了。
收尾的标志性案例：Mollick 团队曾做过一个教育模拟器（educational simulator），原本动用 14 人团队、花几百万美元、耗时几年；他们把当年为那个游戏写的说明书直接丢给 AI，AI 在「一个下午、零额外提示」下从头重建了整个游戏。「你应该把野心放得大得多。」

"如果你没在建造不可能之事，也没砍掉过哪怕一件关键的事——而且不是偶尔、是每个月——那你离前沿就还不够近。" —— Parker Mitchell（总结 Ethan Mollick）

附录：关键人/机构/产品/数据

项目	详情
Ethan Mollick	沃顿商学院教授，《Co-Intelligence》作者，本场嘉宾
Parker Mitchell	Valence CEO，本场主持
Nikolai Tangen	挪威主权财富基金（全球最大资金池）掌门人，力排风控推 AI
Scott Belsky	稍后讲者，主张「hack 组织的奖励系统」
Valence / Nadia	主办方 Valence；其 AI 领导力教练产品名 Nadia
GDPval	被 Mollick 称为「去年最重要的论文」，用盲评比较 AI 与人类专家在真实职业任务上的表现
METR 曲线	衡量 AI 能以 50% 成功率完成的等效人类任务时长，现已超 5 小时
Claude Code	能在本地运行、可读写文件/上网/调用子 agent 的 agentic 系统，现场演示主角
skill files	用纯英文写的技能文件，AI 可自主「拿起」加载，组织 skill 库=竞争优势
NotebookLM	Google Gemini 驱动的工具，演示中生成研究报告+幻灯片，被指 Google 套件里最好
Claude for Excel / Finance	Mollick 点名的 2026 知识工作者专用工具
12-14 年	GDPval 参与专家的平均工作经验
5%	GDPval 所覆盖的美国经济比例
7 小时 vs 5-10 分钟	同一真实任务：人类专家平均耗时 vs AI 耗时
48% → 72%	GDPval 盲评胜/平率：去年夏 Sonnet 4.5 → 去年 12 月 GPT 5.2
28% / 3 倍	AI 失败率口径 / 即便失败仍节省的精力倍数
50% 写代码 / 20% 程序员	挪威主权基金办公室的实况
75%	沃顿追踪研究中报告 AI 正向 ROI 的公司比例
「95% 项目失败」MIT 论文	实为某会议 52 个访谈、与 MIT 关系松散者所做，是假的却疯传
21 份 PPT	「噩梦演示」中 AI 被催着生成的数量
14 人 / 1.5 年	合规报告团队规模 / 报告无人查看的时长
8 亿	ChatGPT 约略用户数（付费仅占极小比例）
三个不眠之夜	《Co-Intelligence》中描述面对 AI 的存在主义危机
HR is the new R&D	Mollick 的标志性论断与标准幻灯片
work slop	「按需无限生成、看似不错的垃圾产出」