← 返回
VIDEO INSIGHT

Every leader needs this AI strategy | Ethan Mollick explains

节目
嘉宾
日期
2025-06
时长
60 min

概要

  • 公司最大的错误是"想得太小"——把 AI 当成省钱工具而非扩张引擎。 Mollick 用酿酒师的比喻贯穿全场:1800 年代初拿到蒸汽机,你可以裁掉大部分员工、每桶酒多赚一点(小路),也可以像吉尼斯(Guinness)一样雇 10 万人、扩张到全世界(大路)。"我真的很担心太多人走小路而不走大路。" 在一场可能爆发式提升生产力的革命前夕,把自己做得越精简越好是危险的赌注。
  • 效率陷阱有两个致命机关。 一是只有你的员工知道怎么在你的组织里部署 AI——如果他们怕因为暴露效率提升而被裁,他们永远不会让你看到效率提升;二是"砍 25% 成本就裁 25% 人"把 AI 当成普通技术,恰恰扼杀了它的真正价值。要让员工愿意自动化自己的工作,领导层必须先把话说清楚("我们不会因为 AI 裁任何人"),并设计激励——有公司直接发 1 万美元现金奖励自动化自己岗位的人。
  • 要做"极大主义者"(maximalist),不要做增量主义者。 太多组织停在"让 AI 帮我总结文档"——但这事很久以前就能做。正确做法是把系统推到极限、让它直接做整件事:做不到,你就得到了一个测试未来模型的基准;做到了,你就学到了极有价值的东西。"概念验证陷阱"是组织最常见的死法:起一个小 PoC,6 个月后卡在里面再也放大不了。
  • 师徒链"今夏断裂"了。 白领专业技能 4000 年来靠学徒制传承——反复做重复工作、被资深前辈纠正、在过程中吸收"为什么这样不行"。但现在初级员工为了显得能干、会用 AI 做一切(关掉了自己的大脑),中层经理也宁可用 AI 而不用会出错会哭的实习生。Mollick 最担心的就是这条延续了几千年的专业养成管道被切断——而我们从没正式研究过"如何教人成为专家"。
  • 三件套:Leadership、Lab、Crowd。 AI 在组织里跑通需要三条腿同时发力——领导层在 C 级别正面回答"我们的组织要变成什么样",群众(crowd)人人有权限使用并被激励分享,实验室(lab)把零散的个人 prompt 提炼成可测试的 agent 系统。采用率通常封顶在 20-30%,其中约 1-2% 的人是天才级,他们会自己浮现出来,成为 lab 的核心。
01

AI 的古老分野:增强(Engelbart)vs 替代(Minsky),而 LLM 是反讽的答案

核心要点:今天我们纠结的所有问题,几位思想家早在 AI 寒冬里就在担心,只是当时还像科幻;如今突然变得极其重要。

  • Mollick 自承是"窃取了技术荣光"——他不是和 Marvin Minsky 一起写代码的人,而是 MBA 项目里帮 AI 研究者向所有人解释"AI 是什么"的人,在 MIT 媒体实验室与 Minsky 等人合作过。
  • 那是 AI 寒冬之一,没人关注 AI,全是关于"如何创造智能"的精巧方案:观察婴儿做的每件事或许能造出 AI、Minsky 的《心智社会》(Society of Mind)那套复杂的互锁部件。"讽刺的是,真正的解法竟然就是把大量语言塞进一个学习系统,你就得到了 LLM。"
  • 两条哲学路线的对峙:Engelbart 主张增强人类智能(augmenting human intelligence),Minsky 更多是替代人类智能、试图让机器拥有意识。很多技术想法后来被证明是错的,但核心哲学如今重新流行。
"讽刺的是,真正的解法竟然就是把大量语言塞进一个学习系统,你就得到了 LLM。" —— Ethan Mollick
02

AGI 是一段"阶段",不是一个"时刻"——图灵测试已被攻破

核心要点:那些测试在我们无物可测时很伟大;如今 AI 把它们一个个刷爆,但这恰恰暴露了它们从来不是为 AI 设计的。

  • 图灵测试当年很美,因为计算机明显通不过;而 2 周前一篇论文显示 GPT-4.5 通过了三方图灵测试,70% 的情况下人们会把 AI 当成屋里的"人类"——"我不知道这意味着什么,但比随机猜要好。"
  • 所有创造力测试 AI 都在刷高分,但这些测试对人类本来就是平庸的设计;社会科学里测共情用的"读眼神知心情"(Reading the Mind in the Eyes)测试,从来没有为 AI 而设计。
  • AGI 是一个糟糕定义的概念。Tyler Cowen 说 o3 就是 AGI,问他为什么,他说"像色情片——我看到就知道"。Mollick 的结论:AGI 会是我们正身处的一段阶段,而非一个时刻,"不会有烟花放出来"。
  • 关键转折:当你把 AI 以正确方式接入系统、接入公司流程,你会突然得到一个"远大于各部分之和"的东西——这和你只是对着它聊天、做 prompt 完全不同。
"AGI 会是我们正身处的一段阶段,而不是时间上的某个时刻。不会有烟花放出来。" —— Ethan Mollick
03

商业基准的缺位是当前最严重的问题之一——企业要自建任务"图灵测试"

核心要点:实验室里全是数学和科学的人,他们认为人生唯一值得做的好事就是写代码,于是 AI 朝着编码、数学、生物学(因为他们都想长生不老)的方向进化。

  • AI 公司既会以"作弊"的方式针对基准优化,也会用基准做广义的测试——所以缺乏好的商业基准是真问题。
  • Mollick 一直在推动企业自己建基准:一部分可以是直接的数字(让它做一个会计流程,多久会出一次错),一部分则是"凭感觉"(vibes based)——可以请做过这行的外部专家来评判答案质量,"这有没有人做得好?"
  • 为你工作的重要环节建立你自己的"图灵测试":这份分析报告够好吗?错误率多少?如果用它给我们出战略建议,有多好?做一个选择决策有多好?"这些问题不难衡量,不那么技术性,但确实需要一点投入。"
  • 产品侧的巨大缺口:尤其在部署 agent 时,测试 agent、看它有/缺哪些知识、纠正它、跑测试集的能力一直非常有限。
"实验室里全是数学和科学的人,他们认为你这辈子唯一值得做的好事就是写代码。" —— Ethan Mollick
04

AI 原生组织:我们继承的一切管理范式,都假设"智能按人类尺寸打包"

核心要点:"重新设计成 AI 原生"之所以难,是因为我们继承了几百年的组织发展,而它们全都建立在一个如今已失效的前提上。

  • 第一张组织图诞生于 1855 年的纽约与伊利铁路,为解决一个前所未有的问题——如何用电报实时协调铁路线上的大量车流;提出它的人(McKinsey)把组织图当作解法,我们至今还在用。
  • 1910 年代福特的生产线、打卡钟,2000 年代初的敏捷开发——所有这些都"坏掉"了,因为它们都依赖一个前提:唯一可用的智能形态是人,按人类尺寸打包,管理跨度只有 5-7 人("two-pizza 问题")。如今这个前提不成立了,一切必须从地基重建。
  • Mollick 的隐忧:现代西方公司已经放弃了"组织创新"这件事。过去陶氏化学或 IBM 靠提出新的销售或协作方式取胜,如今我们把这件事外包了——Salesforce 卖给你一个告诉你怎么做销售的产品,大型咨询公司进来告诉你组织该怎么运转。"而现在,正是领导者真正需要自己创新的时候。"
"第一张组织图是 1855 年为纽约与伊利铁路画的,解决一个从未存在过的问题:如何用电报实时协调火车车流。我们今天还在用它。" —— Ethan Mollick
05

效率陷阱:走"小路"还是"大路",决定你在这场革命里的命运

核心要点:把 AI 当成普通技术、一有效率提升就裁人,是当下最普遍也最危险的选择;它有两个致命机关。

  • 第一个机关——只有员工知道怎么部署:没人比你的员工更懂怎么在你的组织里用 AI,他们才有经验和证据判断好坏。但如果他们因为用 AI 会被解雇、被惩罚,或一旦暴露效率提升就被替代而恐惧,"他们永远不会让你看到效率提升"。
  • 第二个机关——在爆发前夕求精简是错的:如果我们真的即将看到性能与生产力的爆发,那么"进场前把自己做得越小越精简越好"恰恰是反向操作。
  • 酿酒师比喻(贯穿全场的主线):1800 年代初一个本地酿酒师拿到蒸汽机,可以裁掉大部分员工、每桶酒多赚钱(小路),也可以像吉尼斯一样雇 10 万人、扩张全球(大路)。"我真的很担心太多人走小路而不走大路。"
  • Mollick 自承也有一点责任:他早期的工作聚焦于 AI 带来的生产率提升,至今仍关注,因为它确实重要——但他更担心人们在工业革命的边缘把它当成一次普通的技术升级。
"你可以裁掉大部分员工、每桶酒多赚钱;也可以成为吉尼斯,雇 10 万人、扩张到全世界。我真的很担心太多人走小路。" —— Ethan Mollick
06

增强的逻辑:工作是任务的捆绑包,交出你不擅长的,放大你最擅长的

核心要点:与所有人的预期相反,AI 先拿下的是创意和知识工作,而平凡重复的体力任务反而最难自动化。

  • 历史上我们以为 AI 会从平凡重复任务开始,再到知识工作和编码,最后才碰创意——但几乎是完全相反。讽刺的是,AI 不是那个"听到'爱'就会爆炸、无法计算"的冷冰冰系统,反而是一个超级情绪化、需要被说服才肯做事的怪东西:在 prompt 工程里,有时你得向 AI 解释"为什么这一步重要、你应该做",而不是直接命令它。
  • 核心洞见:我们的工作是许多不同任务的捆绑包,没人会照现在这样设计任何一份工作。以教授为例——要当好老师、想出好点子、做研究、还要管理一个学术院系,"没人会想要这么一份工作"。Mollick 不介意把打分交给 AI,甚至不介意通过 AI 提供更多心理辅导支持,哪怕那是很"人"的事。
  • 两层增强:第一层是把你工作捆绑包里你不太擅长的部分交出去;第二层是用它放大你现在正在做的事。而无论你最擅长什么,你大概率仍比 AI 强——目前 AI 在这些场景仍明显低于专家水平。
"我们的工作是许多任务的捆绑包,没人会照现在这样去设计任何一份工作。" —— Ethan Mollick
07

丰裕、品味与锯齿状前沿:有限自治的时代比人们想的更长

核心要点:当 AI 能给你 10 个选项让你挑,稀缺的就变成了品味和策展——这开始看起来像"管理",而那并不是世界末日。

  • 丰裕(abundance)是个新处境:我们不习惯"能轻易得到一大堆东西然后做策展"。能从一组选项里挑出对的,这种品味、这种"该追求什么"的判断力变得极其重要——而它开始看起来像管理,"管理本来就是我们大多数人向往的"。
  • 锯齿状前沿(jagged frontier)是当前组织最大的瓶颈之一:和一个时而天才、时而彻底愚蠢的系统打交道令人极度困惑,也让它很难在组织里无人辅助地部署——就像自动驾驶汽车,因为某些场景超人、某些场景翻车,部署花了很久。
  • 真正的组织以远比我们想象更复杂的方式运作,且并不总以效率为目标;AI 的能力前沿仍非常"锯齿"。"所以它做不了整篇论文,因为某些部分会失败——但如果我有经验,我能知道它在哪里失败、并在那些地方介入和塑造,就像带博士生一样。" 因此有限自治的世界会比人们以为的更长,方向、引导、指引仍然重要。
"每个问题最终都是'你认为 AI 会变得多好'的下游问题。" —— Ethan Mollick
08

窄域 agent 已经很强,但别围绕"今天的锯齿"过度建设

核心要点:窄域 agent 已经非常好用,难题在于要同时下两个赌注——围绕今天的锯齿建设,还是等前沿推进——答案是两者都做,但别陷进遗留系统。

  • 窄域 agent 的最佳例证是深度研究 agent(Google、OpenAI、X、Perplexity 都已推出),它们把"找信息、给答案"这个高报酬的窄任务做得很好;尚未完美,是因为还接触不到用户真正需要的私有数据,但在法律、会计、市场和金融研究上已开始变得很强。
  • 把相当复杂的任务委派给窄域 agent 感觉非常可行;而用"其他 agent 盯着"的方式做通用 agent 是个聪明方向,目前还没人真正在推。
  • 两个赌注的张力:前沿在不断外推(所以才"锯齿"),有些锯齿会存在很久,有些则无所谓——因为随着 AI 整体变好,它在那件事上即便仍差,也仍胜过人类。问题是:你等前沿推出去再解决问题,还是今天就围绕它们建设?
  • 关键警告:"如果你今天在解决锯齿上投入太多,只要模型不断变好,你最终会困在一个围绕'已经不存在的锯齿前沿'建起来的遗留系统里。"
"如果你今天在抹平锯齿上投入太多,只要模型不断变好,你最终会困在一个围绕已经不存在的前沿建起来的遗留系统里。" —— Ethan Mollick
09

Leadership、Lab、Crowd:让 AI 在组织里跑通的三条腿

核心要点:发现 AI 用例不能只靠自下而上或自上而下,需要领导层、实验室、群众三者同时到位、彼此连接。

  • 领导层(Leadership):组织必须在 CEO/C-suite 层面正面回答"我们的组织做什么、你希望它变成什么样、想做哪些组织形态的实验"。如果这些不回答,激励就设不对——你不能只说"人们将与 agent 并肩工作",却不向员工说清这在日常工作里到底长什么样。一个瓶颈是 C 级高管用这些系统用得不够;用得多的地方(如摩根大通的 Mary Erdoes 公开用 AI 并自上而下渗透)转型快得多。
  • 群众(Crowd):让每个人都能以某种方式用上工具,再设计激励让他们分享。人们用 AI 却不告诉你至少有七八个理由——人人都觉得自己是天才但现在不想显得像天才、知道效率提升会被翻译成裁员、自己活儿少了凭什么把多出来的价值还给公司、有了好点子不想白白冒险分享。
  • 实验室(Lab):个人的 prompt 必须被提炼成产品、agent、可被基准测试的系统——这是真正的研发,"怎么把一个基础 prompt 变成 agentic 系统?怎么给这个系统做基准测试?"三条腿要同时在场。
"你需要三样东西才能让 AI 在组织里跑通:领导层、实验室、群众。" —— Ethan Mollick
10

前沿之内已在交付价值的用例:从构思到 25 分钟的快速原型

核心要点:外部面向、替代人的用例仍然风险较高;而增强角度的结果非常确凿——尤其是加速循环、快速原型。

  • 增强类用例稳健有效:个人与 AI 协作、特别是在有人分享信息的情况下做构思(ideation),确实能产生更好的点子;各类工作的补充——翻译(不只是语言之间,还包括在抽象层级上下"翻译")、总结。
  • 真正有意思的是加速循环:大量的快速原型与开发——拿一个想法,让 AI 生成 25 个点子,做一个评分表来测试这些点子,让模拟的人群走一遍并给出反应,进一步打磨,然后做出一个可用的 vibe-coded 原型。"在今天这就是 25 分钟的工作,只用一个命令行和 o3。"
  • 但组织随后会被这件事绊倒:现在你有了 45 个很棒的原型,制造能力在哪?产出在哪?此外,研究 agent 看起来很有意思,知识管理 agent("其实这件事你忘了或想过")也价值很大,而"及时给你建议"的咨询类应用正开始出现真正有趣的东西。
"从一个想法,到 AI 生成 25 个点子、做评分表测试、让模拟用户走一遍、再做出可用原型——今天这只是 25 分钟的工作。" —— Ethan Mollick
11

经济的文艺复兴与社会瓶颈:人人能编码、能做科学,然后呢?

核心要点:当医疗等领域产出 10 倍化,我们会被 FDA 卡住吗?答案是"两者都有"——系统改变要慢得多,社会瓶颈会到处出现。

  • DeepMind 的人说他们一年内就拿到了看起来很好的真实药物研发结果,会有压力推动监管适应这类变化;但监管环境的不确定性(欧洲和美国出于不同原因)让人很难判断该往哪里投资来促成改变。
  • 社会瓶颈会无处不在,而且 AI 目前在物理世界里行动能力有限——机器人滞后于此,组织结构也滞后于此。人们觉得 agent 有吸引力,部分正是因为它们"直接把事做了",让你不用操心;但它们终将撞上真实世界,在那些摩擦点上事情会慢下来。
  • 但即便只到摩擦点为止:如果能交付"这里有七个看起来很棒、可能管用的化合物",那本身就是巨大的收益。"收益会更分散,但我们就是不知道。"
"AI 在物理世界的行动能力目前有限。机器人滞后于此,组织结构也滞后于此。" —— Ethan Mollick
12

谁更值钱:管理者、专家、品味——顶尖 2% 仍然胜过 AI

核心要点:在 AI 时代,三类能力让你保值——系统思维的管理角色、任何领域的专家、以及好品味。

  • 专家真的很重要:没有任何系统能比某个领域顶尖的真专家更强。"我们倾向于用领域里的平均水平来衡量,AI 表现很好;但如果你在某件事的顶尖 2%,你会在那个领域打败 AI。"
  • 三样东西帮到你:深度的专业领域知识、作为系统领导者跨多领域的广度专长、或者真正好的品味。
  • 初级 vs 资深的张力:一种论点是只招顶尖 2% 的资深开发者;另一种是如今可以招更多初级开发者,因为 AI 让他们能以资深开发者的质量交付。但 Mollick 拆解了 BCG 研究——低绩效者获益最大,原因是"retainment"(咨询师最终原封不动交上去的 AI 答案占比):80% 的咨询任务里,唯一搞砸的方式就是往 AI 答案里加进自己的想法,只要照搬就做得很好,"相当于在第 8 百分位工作"。
  • 所以要区分:初级开发者变好,到底是 AI 在替他做(他只是粘贴需求、参加会议,活儿是 AI 干的),还是真把人提升到了那个水平?而在真正厉害的人那一端,用对 AI 能带来 10 到 100 倍的提升。
  • 创业的类比:创业=95% 的事很烂、1 件事极强;AI 把那 95% 拉到 80% 是大好事(那是在替代你的工作),而在你 99.9 百分位的那件事上,你得到 100 倍乘数。
"如果你在某件事的顶尖 2%,你会在那个领域打败 AI。专长在这个时代非常重要。" —— Ethan Mollick
13

师徒链"今夏断裂":4000 年的专业养成管道被切断了

核心要点:白领专业技能 4000 年来靠学徒制传承,而这条链"今年夏天断了"——这是 Mollick 最深的忧虑之一。

  • 学徒制怎么运作:沃顿教的是通才(怎么做分析),不是高盛分析师;学生进了高盛或律所后,用人类教了 4000 年白领知识工作的同一种方式学习——反复做重复工作、被资深前辈纠正,直到写出一份交易备忘录。但你学的不只是"怎么写备忘录",还有"为什么这个方法不行",以及从导师那里吸收的关于"这件事的目标是什么"的一整套东西。
  • 我们从没正式训练过这件事:"如果你有个好导师,学徒制就这么发生了——它像魔法,有些人学会了,另一些人被解雇了。" 而被解雇的人可能是真的差,也可能只是运气不好碰上坏导师、没学到对的东西。
  • 链条怎么断的:初级员工进公司,因为想要资深岗位、不想让人看出自己不懂,就用 AI 做一切——"你关掉了自己的大脑,因为 AI 比你强";而每个中层经理都意识到,与其找一个有时会搞砸、会哭的实习生,不如直接让 AI 干,因为它比实习生强。
  • 出路是把隐性变显性:律所里几乎没有"如何教一个人成为好律师"的工作,大家只是寄望于自己曾有个好导师并复制他。"银行家为什么每周工作 120 小时?因为它一直是工作的一部分,而这不知怎么就教会了你东西。" 我们要更正式地去研究"如何教人专业技能"——而我们唯一做得很好的地方,讽刺地,是体育:反复练习加上教练指导。
"那条延续了几千年的师徒链,今年夏天断了。" —— Ethan Mollick
14

智能时代的大学:问题不在"教什么",而在"怎么教"

核心要点:如果现在为智能时代办一所大学,更该担心的是"怎么教"而非"教什么"——因为人人都在作弊,而 AI 检测器根本不管用。

  • 教什么:需要给人 AI 技能,但作为深度用过这些系统的人,Mollick 说技能其实不多——"大概五六门技能课,加上大量经验"(除非你要造 LLM,而你不该造)。学科本身的东西仍然重要,要让人学会当好写作者、要有广博与深度的知识,大学很适合这件事。
  • 怎么教才是崩坏处:人人都在作弊,AI 检测器不管用。一项研究显示,从 2006-2007 互联网与社媒真正兴起开始,Rutgers 做作业的学生几乎都考得更好;到 2020 年,因为其他人都在作弊,只有约 20% 做作业的人还能考得更好。"AI 不会让我们跳过艰苦的功课"——但配上一对一的 AI 导师,可以按每个人的水平教学、真正加速学习过程。
  • Mollick 自己的课 100% 基于 AI(他教创业):过去一周结束时学生交的是商业计划书加 PPT,现在交的是能跑的产品。他第一次把 ChatGPT 引入创业课(上线后那个周二),一个学生心不在焉,课后跑来说"我们聊天的工夫我已经把整个产品建好了"。如今学生玩 AI 模拟、要教 AI 一样东西、有一个刻意装傻的 AI 学生、所有课程材料都有 AI 导师、在团队场景里有 AI 当魔鬼代言人给反馈。"课堂不会消失,但我们在课堂里做的事会变形。"
"AI 不会让我们跳过艰苦的功课,但配上一对一的 AI 导师,我们能按每个人的水平真正加速学习。" —— Ethan Mollick
15

别急着招首席 AI 官:因为"没人懂任何东西"

核心要点:首席 AI 官是个很难的招聘,因为这是个"没人懂任何东西、没有秘密"的奇怪时刻;组织内部本就拥有成功所需的专长。

  • 残酷的领悟:Mollick 定期与所有 AI 实验室交流,"很快会有一个可怕的发现——没人懂任何东西"。不是实验室藏着一本没给你的说明书,不是有什么他没在线上分享的秘密数据,"没有秘密,人人都急着想抄别人,但根本没有那个别人"。所以你招的首席 AI 官,凭什么比别人多两年经验?没人想到 LLM 会这么好——Sana 比几乎所有人早一年起步。
  • 一个常被忽略的混淆:AI 在 2010-2022 年意味着完全不同的东西(大数据、把一切 XGBoost 化,至今仍值得做),那是另一头野兽,所以首席 AI 官很难招。
  • 反直觉的证据:BCG 第二篇论文显示初级员工用 AI 比资深员工差。人们通常觉得"需要数字一代进来",但事实并非如此——初级员工产出一份备忘录给你看,你觉得"是份备忘录,挺好";而干了 20 年的人会说"我看这个看了 20 年,这里有七个它没做好的地方"。专长和知识很重要。
  • 正确做法是连接 Crowd 与 Lab:内部采用率封顶在 20-30%,其中约 1-2% 的人在这件事上"就是天才级、极其擅长"——他们就是能带领你 AI 开发的人,一开始你不知道是谁、他们也不知道,但会浮现出来;危险在于他们在一线为你赚太多钱,你舍不得把他们从一线抽走,但正是这些人要成为 lab 的核心。
"你定期跟所有 AI 实验室聊,很快会有一个可怕的领悟:没人懂任何东西。没有秘密。" —— Ethan Mollick
16

激励机制:领导层定调"不裁员",再用疯狂的方式奖励自动化

核心要点:要让专家愿意自动化掉自己的角色,激励的清晰度至关重要——而这正是"领导层"这条腿如此重要的原因。

  • 文化好的公司更容易:如果你信任 CEO/创始人,而他说"我们不会因为 AI 裁任何人,我们要扩张能做的事,让它对每个人都有利",你的处境就比一个惯于用 IT 预算裁人的成熟大组织好得多。"人们能分辨出区别",所以一开始就必须坦诚——如果这会威胁到人们的工作,人们想知道。
  • 激励可以很疯狂:有公司直接发 1 万美元现金奖励自动化自己工作的人("比一次典型的 IT 部署还省钱,就是塞一手提箱现金过去");另一家公司规定招人前必须先花 2 小时和团队用 AI 试做那份工作,再围绕"会用到 AI"这一事实重写岗位描述;还有的要求提项目时先尝试用 AI 做,再据此重新提交项目方案。
  • 但愿景的清晰度压倒一切:如果你说"四年后你的工作是和 AI 一起做某事",人们会问"那是什么意思?我是坐在家里给 agent 下指令,还是在一个房间里做事,我们人会变少吗?"太多高管只想把这个问题踢到将来、含糊地说"AI 会做很棒的事"。"我凭什么在没有补偿的情况下,把我的生产率收益分享给组织?"——从回答这个问题开始,至关重要。
"如果这会威胁人们的工作,人们想知道。你不能含糊其辞,必须开始想清楚你要说什么。" —— Ethan Mollick
17

宝洁 776 人研究:一个人加 AI ≈ 一个团队,而且更快乐

核心要点:在真实工作任务上,个人配 AI 的表现能匹敌团队,而团队配 AI 更容易产生突破性想法,且 AI 把不同专长拉平。

  • 这项与 MIT、哈佛、华威大学合作、在宝洁 776 人身上做的研究,分组为两人跨职能团队 vs 单独个人,再分为配 AI 与不配 AI,且都是真实工作任务(不只是创新任务)。
  • 三个发现:① 单独工作的个人配上 AI,表现与团队一样好,而且因此更快乐——他们从这些系统中获得了一些社交收益,产出高质量结果;② 配 AI 的团队更可能想出真正突破性的点子;③ 专长趋于拉平——房间里有技术人就产出高度技术的方案,有营销人就产出营销味十足的方案,一旦加入 AI,方案全面铺开、变得均衡得多。
  • "这事相当幼稚":研究里只是给了一堆 prompt,很多时候是人和系统来回地玩。这把同样的老问题摆在面前——你需要做一些决策。"那种坐等别人给你解决方案的典型公司,会比那些现在就开始实验、搞清楚什么管用什么不管用的公司过得差。"
"单独工作的个人配上 AI,表现和一个团队一样好——而且因此更快乐。" —— Ethan Mollick
18

半人马 vs 赛博格,以及最近让 Mollick 震惊的事

核心要点:半人马(centaur)是把工作和 AI 分工,赛博格(cyborg)是更融合地混搭;而最近一代模型让一道又一道门槛接连倒下。

  • 半人马 vs 赛博格(源自 Garry Kasparov):半人马是"半人半马"式的分工——"我讨厌写邮件、擅长分析,那我来做分析";赛博格更融合——Mollick 写书就是赛博格任务,当时 AI 写作很差(他自认是很好的写作者),所以 AI 几乎不写,但"写书很痛苦"的所有环节它都帮上忙:卡在一个句子上,让它给 30 种结尾再挑一个;读这一章确保我没问题;读这些学术论文确保我引用正确。他的 Substack 常让两三个 AI 读、给反馈,据此修改。
  • 让他震惊的最近用例:用新版 Gemini 的超长上下文,把自己写过的全部学术论文丢进去,让它归纳主题——它找出了他自己花 2 个月写终身教职陈述时归纳的 3 个主题中的 2 个,且分析水平相当高;更好玩的是把任何一篇学术论文扔进去、说"把它变成电子游戏",就能得到一个能跑的好游戏。"我不会写代码,最近却做了几个挺好用的 3D 游戏。门槛一道接一道倒下,我隔三差五就被震惊一次。"
  • 幻觉在下降:有论文显示连 O1-preview(在当时都不算尖端模型)在《新英格兰医学杂志》病例上的幻觉率,从旧模型的约 25% 降到 0.25%——接入数据源、用更聪明的模型,幻觉问题开始下降。Mollick 认为造一个能做有趣工作的研究系统,"更多是靠意志力而非别的":我们早已证明 AI 能当很好的导师,但"那一千个真正做好的导师在哪?那一千个科学应用在哪?内部培训系统在哪?这些现在就能做,真的只是去做而已"。
"我不会写代码,最近却做了几个挺好用的 3D 游戏。门槛一道接一道倒下,我隔三差五就被震惊一次。" —— Ethan Mollick
19

战术核心:做"极大主义者",别掉进概念验证陷阱

核心要点:在战术层面,要瞄准极大主义(maximalist)——把系统推到做所有事;太少组织这么做,太多组织停在增量。

  • 极大主义的逻辑:把系统推到做整件事。做不到,很好,你现在有了一个测试未来系统的基准;它可能真就全做了,那你就学到了有价值的东西。"我真的很担心那种增量主义——'我们来总结一下文档吧'。这没问题,但我很久以前就能做了。你为什么要总结那份文档?直接让它做那件事,而不是中间步骤。"
  • 概念验证陷阱:很多公司"先做个小 PoC 再放大",6 个月后卡在 PoC 里再也放大不了;另一些公司则是"先到处部署、人人开权限,再在真正管用的用例上加倍下注"——但即便这样也不够极大主义,因为那些"管用的用例"是在系统当时的局限和人们当时的能力下管用的。
  • 造 app 常是最糟的角度:你会得到一个围绕 Llama 2 之类的局限建起来的半成功产品。IT 团队成为 AI 部署中枢的问题在于,IT 在意低延迟和低成本,而"低延迟低成本恰恰是这些模型里高智能的反面"。有时你要低延迟低成本,但有时是"我愿意花 15 美分换一个真正聪明的决策或一种新化学品"——这是合理的价钱。人们倾向于基于便宜的小模型来建,然后困在里面,所以"模型无关 + 持续更新"很重要。
"直接让它做那件事,而不是中间步骤。我很担心那种增量主义——'我们来总结一下文档',这我很久以前就能做了。" —— Ethan Mollick
20

建议的同质化风险,以及让 AI 替你做决策的 prompt

核心要点:建议类应用既能带来惊人回报,也有把所有人塑造成同一方向的风险——解法是给 AI 注入你的原则、并用多个顾问。

  • 肯尼亚创业者研究:一个只给 GPT-4 建议(不能帮他们做产品)的对照实验,高绩效者获得了 8-13% 的利润提升——"对建议而言这疯狂地高,如果我能只靠给学生建议就让他们利润涨 13%,那太惊人了";低绩效者反而更差,因为他们的生意本已挣扎、无法落地这些点子。
  • 同质化风险是真实的:建议/第二意见的角色确实有把所有人塑造成同一方向的危险。构思上也一样——GPT-4o 偏爱生成加密货币、AR/VR、环保的点子(Mollick 猜是 post-training 所致)。但他们的其他研究发现,只要 prompt 得更好,就能得到和一群人一样多样的点子。所以"也许你想要四五个顾问——不只要 Ethan Mollick,还要 Adam Grant,还要 Garry Kasparov"。
  • 让 AI 替你做所有决策的 prompt(Mollick 的设计):先给它大量关于"我和我的选择"的上下文(粘进几百万字符);然后让它在做决策前先挑出四五个可能的选项、其中至少有几个非常激进;接着两两对比,每个给出两三个模拟结果;再造一个"急性子版的 Ethan"和一个"深思熟虑版的 Ethan",让它们争论哪条路最好;最后给出每个选项的利弊清单并选出最佳——"一点思维链,一点视角切换"。
  • 用人物语料接地:Mollick 几年前用乔布斯说过的所有话训练了一个 AI。COVID 期间他问"我们该转成远程优先公司吗","乔布斯"回答:"不。95% 的沟通问题靠把人放在同一个房间就能解决。永远让团队同处一地。" 如果你把 AI 接地在某个人的写作上,它会得到一个具体的视角,而不是"互联网的平均值"。"如果你相信你关于世界的原则是对的,把这些原则给 AI、让它帮你执行,远好过只是让它告诉你该怎么做。"
"如果你相信你关于世界的原则是对的,把这些原则交给 AI 去帮你执行,远好过只是让它告诉你该做什么。" —— Ethan Mollick
21

参与度优化的危险,与 KPI 的"末日陷阱"

核心要点:一旦这些系统开始为"参与度"优化,就是在玩火;而在研发阶段强行设 KPI,几乎注定滑向"砍成本、裁人"。

  • 参与度优化是在玩火:系统目前还只是被训练去预测下一个 token,尚未为参与度优化,但大实验室开始意识到自己能这么做。一个有趣的事件——新发布的 Llama 4 登顶排行榜,后来被揭露榜单上的版本和发给所有人的版本不是同一个模型:榜单版满是表情包、夸你多棒、讲些半好笑的笑话。"为参与度优化、砸更多 token 去奉承你"——而正是"为参与度优化"让社交媒体变成一个危险的地方。"我很担心这种结果,而且我认为它不可避免。"
  • KPI 的末日陷阱(Mollick 最强烈的观点之一):在早期研发阶段,你能做的最糟的事就是设一堆 KPI。"我们不知道这些系统会做什么,你在花研发的钱"——如果你为性能优化,那是每天产出多少个 Word 文档?人们多快交报告?组织根本不是为你需要的那种 KPI 而建的。过去产出尽可能多的字是有价值的,但现在你想让人一周覆盖 25 家公司、做 300 份 PPT 吗?写多少行代码?
  • 可衡量的 KPI 是注定的厄运,"因为它们最终总是滑向成本节省,总是 30% 成本节省,总是裁人,而这与你正在做的一切背道而驰"。生产率收益本身很清晰、会很快到来(编码就交给编码,那里收益明确),但"为文档写作做生产率优化"是危险的——你到底在为什么优化?人们需要采用一种研发心态。
"可衡量的 KPI 是注定的厄运,因为它们最终总是滑向 30% 成本节省、总是裁人——这与你正在做的一切背道而驰。" —— Ethan Mollick
22

最大的分歧:放弃"能动性",才是比生存风险更该担心的事

核心要点:Mollick 最不同意领域里的一种倾向——把焦点全压在生存风险上,却忽视了我们对当下决策的能动性。

  • 对存在性风险(existential risk)的过度聚焦让他担心,但比起这个,他更担心的是我们对正在做的决策的能动性(agency)。"我担心人们把 AI 当成一个技术物件——就像我们这场对话里也把它说成一台蒸汽压路机——但事情不是那样的。" 在场每个人都在做关于"AI 如何被使用和塑造"的决策,而这些反过来塑造 AI 走向何方。"我真正担心的是这种'缺乏能动性'的态度——好像 AI 会对我们做事;不,是我们在做选择,我们能做出捍卫我们认为重要之物的选择。"
  • 技术人不懂组织有多乱:很多 AI 技术领域的人不理解真实组织如何运作、有多混乱,"即便是超级聪明的 agent,也不会在一夜之间改变公司运作方式"——这就是他总在"五年还是十年"上挣扎的原因,改变会一阵一阵地发生,但有时候有种天真。
  • 好莱坞的例子:Mollick 有个做好莱坞制片人的姐妹,每次听到"AI 会取代好莱坞",他都想"你不懂一部好莱坞电影要投入多少工作"。事实上他们正用 AI 加速——姐妹和 Michelle Pfeiffer 拍了部电影,做测试配音时现在有一个假的 Michelle Pfeiffer 声音可以拿来测;但因为有工会对演员的良好保护,这永远不能用于真正的影院放映,Michelle Pfeiffer 仍得亲自来用她的人类嗓音录制。"我们可以建一个捍卫人性的世界,但我们必须做出选择才能做到。"
"我真正担心的是这种'缺乏能动性'的态度——好像 AI 会对我们做事。不,是我们在做选择。" —— Ethan Mollick
23

附录:关键人/机构/产品/数据

项目详情
Ethan Mollick沃顿商学院管理学教授、《Co-Intelligence》作者、Substack「One Useful Thing」主理人
Joel HellermarkSana 创始人兼 CEO,本访谈主持人
Marvin Minsky / Engelbart替代人类智能 vs 增强人类智能的两条哲学路线
第一张组织图1855 年纽约与伊利铁路,为电报实时协调火车而生
酿酒师/吉尼斯比喻蒸汽机时代的"小路"(裁人多赚)vs"大路"(雇 10 万人扩张)
三方图灵测试GPT-4.5 通过,70% 情况下人们把 AI 当成"人类"
Tyler Cowen称 o3 是 AGI,"像色情片——我看到就知道"
jagged frontierMollick 提出的"锯齿状能力前沿"概念,当前组织最大瓶颈之一
Leadership / Lab / Crowd让 AI 在组织跑通的三条腿框架
BCG 研究第一篇:低绩效者获益最大(因 retainment);第二篇:初级用 AI 比资深差
宝洁 776 人研究个人+AI≈团队且更快乐;团队+AI 更易突破;专长被拉平
肯尼亚创业者研究只给 GPT-4 建议,高绩效者利润 +8-13%
retainment咨询师原封不动交上去的 AI 答案占比;加自己想法反而搞砸
顶尖 2%在自己领域仍胜过 AI;用对 AI 的高手有 10-100 倍提升
师徒链断裂4000 年学徒制"今夏断了",初级关掉大脑、中层弃用实习生
Rutgers 研究2020 年因人人作弊,仅约 20% 做作业者考得更好
Mollick 的课100% 基于 AI:模拟、教 AI、装傻 AI 学生、AI 导师、AI 魔鬼代言人
Mary Erdoes摩根大通高管,公开用 AI 并自上而下渗透
1 万美元现金奖某公司奖励自动化自己岗位的员工
centaur / cyborg半人马(分工)vs 赛博格(融合),源自 Garry Kasparov
O1-preview 幻觉率NEJM 病例从约 25% 降到 0.25%
Gemini 长上下文丢入全部论文,找出 Mollick 终身教职陈述 3 主题中的 2 个
Llama 4 排行榜事件上榜版本满是表情包谄媚,与发布版本不同(参与度优化)
乔布斯语料 AI"95% 的沟通问题靠把人放在同一房间解决,永远让团队同处一地"
KPI 末日陷阱研发期设 KPI 总滑向"30% 成本节省、裁人"