Every leader needs this AI strategy | Ethan Mollick explains

节目

Sana

嘉宾

Ethan Mollick

日期

2025-06

时长

60 min

查看原始内容 →

概要

公司最大的错误是"想得太小"——把 AI 当成省钱工具而非扩张引擎。 Mollick 用酿酒师的比喻贯穿全场：1800 年代初拿到蒸汽机，你可以裁掉大部分员工、每桶酒多赚一点（小路），也可以像吉尼斯（Guinness）一样雇 10 万人、扩张到全世界（大路）。"我真的很担心太多人走小路而不走大路。" 在一场可能爆发式提升生产力的革命前夕，把自己做得越精简越好是危险的赌注。

效率陷阱有两个致命机关。 一是只有你的员工知道怎么在你的组织里部署 AI——如果他们怕因为暴露效率提升而被裁，他们永远不会让你看到效率提升；二是"砍 25% 成本就裁 25% 人"把 AI 当成普通技术，恰恰扼杀了它的真正价值。要让员工愿意自动化自己的工作，领导层必须先把话说清楚（"我们不会因为 AI 裁任何人"），并设计激励——有公司直接发 1 万美元现金奖励自动化自己岗位的人。

要做"极大主义者"（maximalist），不要做增量主义者。 太多组织停在"让 AI 帮我总结文档"——但这事很久以前就能做。正确做法是把系统推到极限、让它直接做整件事：做不到，你就得到了一个测试未来模型的基准；做到了，你就学到了极有价值的东西。"概念验证陷阱"是组织最常见的死法：起一个小 PoC，6 个月后卡在里面再也放大不了。

师徒链"今夏断裂"了。 白领专业技能 4000 年来靠学徒制传承——反复做重复工作、被资深前辈纠正、在过程中吸收"为什么这样不行"。但现在初级员工为了显得能干、会用 AI 做一切（关掉了自己的大脑），中层经理也宁可用 AI 而不用会出错会哭的实习生。Mollick 最担心的就是这条延续了几千年的专业养成管道被切断——而我们从没正式研究过"如何教人成为专家"。

三件套：Leadership、Lab、Crowd。 AI 在组织里跑通需要三条腿同时发力——领导层在 C 级别正面回答"我们的组织要变成什么样"，群众（crowd）人人有权限使用并被激励分享，实验室（lab）把零散的个人 prompt 提炼成可测试的 agent 系统。采用率通常封顶在 20-30%，其中约 1-2% 的人是天才级，他们会自己浮现出来，成为 lab 的核心。

AI 的古老分野：增强（Engelbart）vs 替代（Minsky），而 LLM 是反讽的答案

核心要点：今天我们纠结的所有问题，几位思想家早在 AI 寒冬里就在担心，只是当时还像科幻；如今突然变得极其重要。

Mollick 自承是"窃取了技术荣光"——他不是和 Marvin Minsky 一起写代码的人，而是 MBA 项目里帮 AI 研究者向所有人解释"AI 是什么"的人，在 MIT 媒体实验室与 Minsky 等人合作过。
那是 AI 寒冬之一，没人关注 AI，全是关于"如何创造智能"的精巧方案：观察婴儿做的每件事或许能造出 AI、Minsky 的《心智社会》（Society of Mind）那套复杂的互锁部件。"讽刺的是，真正的解法竟然就是把大量语言塞进一个学习系统，你就得到了 LLM。"
两条哲学路线的对峙：Engelbart 主张增强人类智能（augmenting human intelligence），Minsky 更多是替代人类智能、试图让机器拥有意识。很多技术想法后来被证明是错的，但核心哲学如今重新流行。

"讽刺的是，真正的解法竟然就是把大量语言塞进一个学习系统，你就得到了 LLM。" —— Ethan Mollick

AGI 是一段"阶段"，不是一个"时刻"——图灵测试已被攻破

核心要点：那些测试在我们无物可测时很伟大；如今 AI 把它们一个个刷爆，但这恰恰暴露了它们从来不是为 AI 设计的。

图灵测试当年很美，因为计算机明显通不过；而 2 周前一篇论文显示 GPT-4.5 通过了三方图灵测试，70% 的情况下人们会把 AI 当成屋里的"人类"——"我不知道这意味着什么，但比随机猜要好。"
所有创造力测试 AI 都在刷高分，但这些测试对人类本来就是平庸的设计；社会科学里测共情用的"读眼神知心情"（Reading the Mind in the Eyes）测试，从来没有为 AI 而设计。
AGI 是一个糟糕定义的概念。Tyler Cowen 说 o3 就是 AGI，问他为什么，他说"像色情片——我看到就知道"。Mollick 的结论：AGI 会是我们正身处的一段阶段，而非一个时刻，"不会有烟花放出来"。
关键转折：当你把 AI 以正确方式接入系统、接入公司流程，你会突然得到一个"远大于各部分之和"的东西——这和你只是对着它聊天、做 prompt 完全不同。

"AGI 会是我们正身处的一段阶段，而不是时间上的某个时刻。不会有烟花放出来。" —— Ethan Mollick

商业基准的缺位是当前最严重的问题之一——企业要自建任务"图灵测试"

核心要点：实验室里全是数学和科学的人，他们认为人生唯一值得做的好事就是写代码，于是 AI 朝着编码、数学、生物学（因为他们都想长生不老）的方向进化。

AI 公司既会以"作弊"的方式针对基准优化，也会用基准做广义的测试——所以缺乏好的商业基准是真问题。
Mollick 一直在推动企业自己建基准：一部分可以是直接的数字（让它做一个会计流程，多久会出一次错），一部分则是"凭感觉"（vibes based）——可以请做过这行的外部专家来评判答案质量，"这有没有人做得好？"
为你工作的重要环节建立你自己的"图灵测试"：这份分析报告够好吗？错误率多少？如果用它给我们出战略建议，有多好？做一个选择决策有多好？"这些问题不难衡量，不那么技术性，但确实需要一点投入。"
产品侧的巨大缺口：尤其在部署 agent 时，测试 agent、看它有/缺哪些知识、纠正它、跑测试集的能力一直非常有限。

"实验室里全是数学和科学的人，他们认为你这辈子唯一值得做的好事就是写代码。" —— Ethan Mollick

AI 原生组织：我们继承的一切管理范式，都假设"智能按人类尺寸打包"

核心要点："重新设计成 AI 原生"之所以难，是因为我们继承了几百年的组织发展，而它们全都建立在一个如今已失效的前提上。

第一张组织图诞生于 1855 年的纽约与伊利铁路，为解决一个前所未有的问题——如何用电报实时协调铁路线上的大量车流；提出它的人（McKinsey）把组织图当作解法，我们至今还在用。
1910 年代福特的生产线、打卡钟，2000 年代初的敏捷开发——所有这些都"坏掉"了，因为它们都依赖一个前提：唯一可用的智能形态是人，按人类尺寸打包，管理跨度只有 5-7 人（"two-pizza 问题"）。如今这个前提不成立了，一切必须从地基重建。
Mollick 的隐忧：现代西方公司已经放弃了"组织创新"这件事。过去陶氏化学或 IBM 靠提出新的销售或协作方式取胜，如今我们把这件事外包了——Salesforce 卖给你一个告诉你怎么做销售的产品，大型咨询公司进来告诉你组织该怎么运转。"而现在，正是领导者真正需要自己创新的时候。"

"第一张组织图是 1855 年为纽约与伊利铁路画的，解决一个从未存在过的问题：如何用电报实时协调火车车流。我们今天还在用它。" —— Ethan Mollick

效率陷阱：走"小路"还是"大路"，决定你在这场革命里的命运

核心要点：把 AI 当成普通技术、一有效率提升就裁人，是当下最普遍也最危险的选择；它有两个致命机关。

第一个机关——只有员工知道怎么部署：没人比你的员工更懂怎么在你的组织里用 AI，他们才有经验和证据判断好坏。但如果他们因为用 AI 会被解雇、被惩罚，或一旦暴露效率提升就被替代而恐惧，"他们永远不会让你看到效率提升"。
第二个机关——在爆发前夕求精简是错的：如果我们真的即将看到性能与生产力的爆发，那么"进场前把自己做得越小越精简越好"恰恰是反向操作。
酿酒师比喻（贯穿全场的主线）：1800 年代初一个本地酿酒师拿到蒸汽机，可以裁掉大部分员工、每桶酒多赚钱（小路），也可以像吉尼斯一样雇 10 万人、扩张全球（大路）。"我真的很担心太多人走小路而不走大路。"
Mollick 自承也有一点责任：他早期的工作聚焦于 AI 带来的生产率提升，至今仍关注，因为它确实重要——但他更担心人们在工业革命的边缘把它当成一次普通的技术升级。

"你可以裁掉大部分员工、每桶酒多赚钱；也可以成为吉尼斯，雇 10 万人、扩张到全世界。我真的很担心太多人走小路。" —— Ethan Mollick

增强的逻辑：工作是任务的捆绑包，交出你不擅长的，放大你最擅长的

核心要点：与所有人的预期相反，AI 先拿下的是创意和知识工作，而平凡重复的体力任务反而最难自动化。

历史上我们以为 AI 会从平凡重复任务开始，再到知识工作和编码，最后才碰创意——但几乎是完全相反。讽刺的是，AI 不是那个"听到'爱'就会爆炸、无法计算"的冷冰冰系统，反而是一个超级情绪化、需要被说服才肯做事的怪东西：在 prompt 工程里，有时你得向 AI 解释"为什么这一步重要、你应该做"，而不是直接命令它。
核心洞见：我们的工作是许多不同任务的捆绑包，没人会照现在这样设计任何一份工作。以教授为例——要当好老师、想出好点子、做研究、还要管理一个学术院系，"没人会想要这么一份工作"。Mollick 不介意把打分交给 AI，甚至不介意通过 AI 提供更多心理辅导支持，哪怕那是很"人"的事。
两层增强：第一层是把你工作捆绑包里你不太擅长的部分交出去；第二层是用它放大你现在正在做的事。而无论你最擅长什么，你大概率仍比 AI 强——目前 AI 在这些场景仍明显低于专家水平。

"我们的工作是许多任务的捆绑包，没人会照现在这样去设计任何一份工作。" —— Ethan Mollick

丰裕、品味与锯齿状前沿：有限自治的时代比人们想的更长

核心要点：当 AI 能给你 10 个选项让你挑，稀缺的就变成了品味和策展——这开始看起来像"管理"，而那并不是世界末日。

丰裕（abundance）是个新处境：我们不习惯"能轻易得到一大堆东西然后做策展"。能从一组选项里挑出对的，这种品味、这种"该追求什么"的判断力变得极其重要——而它开始看起来像管理，"管理本来就是我们大多数人向往的"。
锯齿状前沿（jagged frontier）是当前组织最大的瓶颈之一：和一个时而天才、时而彻底愚蠢的系统打交道令人极度困惑，也让它很难在组织里无人辅助地部署——就像自动驾驶汽车，因为某些场景超人、某些场景翻车，部署花了很久。
真正的组织以远比我们想象更复杂的方式运作，且并不总以效率为目标；AI 的能力前沿仍非常"锯齿"。"所以它做不了整篇论文，因为某些部分会失败——但如果我有经验，我能知道它在哪里失败、并在那些地方介入和塑造，就像带博士生一样。" 因此有限自治的世界会比人们以为的更长，方向、引导、指引仍然重要。

"每个问题最终都是'你认为 AI 会变得多好'的下游问题。" —— Ethan Mollick

窄域 agent 已经很强，但别围绕"今天的锯齿"过度建设

核心要点：窄域 agent 已经非常好用，难题在于要同时下两个赌注——围绕今天的锯齿建设，还是等前沿推进——答案是两者都做，但别陷进遗留系统。

窄域 agent 的最佳例证是深度研究 agent（Google、OpenAI、X、Perplexity 都已推出），它们把"找信息、给答案"这个高报酬的窄任务做得很好；尚未完美，是因为还接触不到用户真正需要的私有数据，但在法律、会计、市场和金融研究上已开始变得很强。
把相当复杂的任务委派给窄域 agent 感觉非常可行；而用"其他 agent 盯着"的方式做通用 agent 是个聪明方向，目前还没人真正在推。
两个赌注的张力：前沿在不断外推（所以才"锯齿"），有些锯齿会存在很久，有些则无所谓——因为随着 AI 整体变好，它在那件事上即便仍差，也仍胜过人类。问题是：你等前沿推出去再解决问题，还是今天就围绕它们建设？
关键警告："如果你今天在解决锯齿上投入太多，只要模型不断变好，你最终会困在一个围绕'已经不存在的锯齿前沿'建起来的遗留系统里。"

"如果你今天在抹平锯齿上投入太多，只要模型不断变好，你最终会困在一个围绕已经不存在的前沿建起来的遗留系统里。" —— Ethan Mollick

Leadership、Lab、Crowd：让 AI 在组织里跑通的三条腿

核心要点：发现 AI 用例不能只靠自下而上或自上而下，需要领导层、实验室、群众三者同时到位、彼此连接。

领导层（Leadership）：组织必须在 CEO/C-suite 层面正面回答"我们的组织做什么、你希望它变成什么样、想做哪些组织形态的实验"。如果这些不回答，激励就设不对——你不能只说"人们将与 agent 并肩工作"，却不向员工说清这在日常工作里到底长什么样。一个瓶颈是 C 级高管用这些系统用得不够；用得多的地方（如摩根大通的 Mary Erdoes 公开用 AI 并自上而下渗透）转型快得多。
群众（Crowd）：让每个人都能以某种方式用上工具，再设计激励让他们分享。人们用 AI 却不告诉你至少有七八个理由——人人都觉得自己是天才但现在不想显得像天才、知道效率提升会被翻译成裁员、自己活儿少了凭什么把多出来的价值还给公司、有了好点子不想白白冒险分享。
实验室（Lab）：个人的 prompt 必须被提炼成产品、agent、可被基准测试的系统——这是真正的研发，"怎么把一个基础 prompt 变成 agentic 系统？怎么给这个系统做基准测试？"三条腿要同时在场。

"你需要三样东西才能让 AI 在组织里跑通：领导层、实验室、群众。" —— Ethan Mollick

前沿之内已在交付价值的用例：从构思到 25 分钟的快速原型

核心要点：外部面向、替代人的用例仍然风险较高；而增强角度的结果非常确凿——尤其是加速循环、快速原型。

增强类用例稳健有效：个人与 AI 协作、特别是在有人分享信息的情况下做构思（ideation），确实能产生更好的点子；各类工作的补充——翻译（不只是语言之间，还包括在抽象层级上下"翻译")、总结。
真正有意思的是加速循环：大量的快速原型与开发——拿一个想法，让 AI 生成 25 个点子，做一个评分表来测试这些点子，让模拟的人群走一遍并给出反应，进一步打磨，然后做出一个可用的 vibe-coded 原型。"在今天这就是 25 分钟的工作，只用一个命令行和 o3。"
但组织随后会被这件事绊倒：现在你有了 45 个很棒的原型，制造能力在哪？产出在哪？此外，研究 agent 看起来很有意思，知识管理 agent（"其实这件事你忘了或想过"）也价值很大，而"及时给你建议"的咨询类应用正开始出现真正有趣的东西。

"从一个想法，到 AI 生成 25 个点子、做评分表测试、让模拟用户走一遍、再做出可用原型——今天这只是 25 分钟的工作。" —— Ethan Mollick

经济的文艺复兴与社会瓶颈：人人能编码、能做科学，然后呢？

核心要点：当医疗等领域产出 10 倍化，我们会被 FDA 卡住吗？答案是"两者都有"——系统改变要慢得多，社会瓶颈会到处出现。

DeepMind 的人说他们一年内就拿到了看起来很好的真实药物研发结果，会有压力推动监管适应这类变化；但监管环境的不确定性（欧洲和美国出于不同原因）让人很难判断该往哪里投资来促成改变。
社会瓶颈会无处不在，而且 AI 目前在物理世界里行动能力有限——机器人滞后于此，组织结构也滞后于此。人们觉得 agent 有吸引力，部分正是因为它们"直接把事做了"，让你不用操心；但它们终将撞上真实世界，在那些摩擦点上事情会慢下来。
但即便只到摩擦点为止：如果能交付"这里有七个看起来很棒、可能管用的化合物"，那本身就是巨大的收益。"收益会更分散，但我们就是不知道。"

"AI 在物理世界的行动能力目前有限。机器人滞后于此，组织结构也滞后于此。" —— Ethan Mollick

谁更值钱：管理者、专家、品味——顶尖 2% 仍然胜过 AI

核心要点：在 AI 时代，三类能力让你保值——系统思维的管理角色、任何领域的专家、以及好品味。

专家真的很重要：没有任何系统能比某个领域顶尖的真专家更强。"我们倾向于用领域里的平均水平来衡量，AI 表现很好；但如果你在某件事的顶尖 2%，你会在那个领域打败 AI。"
三样东西帮到你：深度的专业领域知识、作为系统领导者跨多领域的广度专长、或者真正好的品味。
初级 vs 资深的张力：一种论点是只招顶尖 2% 的资深开发者；另一种是如今可以招更多初级开发者，因为 AI 让他们能以资深开发者的质量交付。但 Mollick 拆解了 BCG 研究——低绩效者获益最大，原因是"retainment"（咨询师最终原封不动交上去的 AI 答案占比）：80% 的咨询任务里，唯一搞砸的方式就是往 AI 答案里加进自己的想法，只要照搬就做得很好，"相当于在第 8 百分位工作"。
所以要区分：初级开发者变好，到底是 AI 在替他做（他只是粘贴需求、参加会议，活儿是 AI 干的），还是真把人提升到了那个水平？而在真正厉害的人那一端，用对 AI 能带来 10 到 100 倍的提升。
创业的类比：创业=95% 的事很烂、1 件事极强；AI 把那 95% 拉到 80% 是大好事（那是在替代你的工作），而在你 99.9 百分位的那件事上，你得到 100 倍乘数。

"如果你在某件事的顶尖 2%，你会在那个领域打败 AI。专长在这个时代非常重要。" —— Ethan Mollick

师徒链"今夏断裂"：4000 年的专业养成管道被切断了

核心要点：白领专业技能 4000 年来靠学徒制传承，而这条链"今年夏天断了"——这是 Mollick 最深的忧虑之一。

学徒制怎么运作：沃顿教的是通才（怎么做分析），不是高盛分析师；学生进了高盛或律所后，用人类教了 4000 年白领知识工作的同一种方式学习——反复做重复工作、被资深前辈纠正，直到写出一份交易备忘录。但你学的不只是"怎么写备忘录"，还有"为什么这个方法不行"，以及从导师那里吸收的关于"这件事的目标是什么"的一整套东西。
我们从没正式训练过这件事："如果你有个好导师，学徒制就这么发生了——它像魔法，有些人学会了，另一些人被解雇了。" 而被解雇的人可能是真的差，也可能只是运气不好碰上坏导师、没学到对的东西。
链条怎么断的：初级员工进公司，因为想要资深岗位、不想让人看出自己不懂，就用 AI 做一切——"你关掉了自己的大脑，因为 AI 比你强"；而每个中层经理都意识到，与其找一个有时会搞砸、会哭的实习生，不如直接让 AI 干，因为它比实习生强。
出路是把隐性变显性：律所里几乎没有"如何教一个人成为好律师"的工作，大家只是寄望于自己曾有个好导师并复制他。"银行家为什么每周工作 120 小时？因为它一直是工作的一部分，而这不知怎么就教会了你东西。" 我们要更正式地去研究"如何教人专业技能"——而我们唯一做得很好的地方，讽刺地，是体育：反复练习加上教练指导。

"那条延续了几千年的师徒链，今年夏天断了。" —— Ethan Mollick

智能时代的大学：问题不在"教什么"，而在"怎么教"

核心要点：如果现在为智能时代办一所大学，更该担心的是"怎么教"而非"教什么"——因为人人都在作弊，而 AI 检测器根本不管用。

教什么：需要给人 AI 技能，但作为深度用过这些系统的人，Mollick 说技能其实不多——"大概五六门技能课，加上大量经验"（除非你要造 LLM，而你不该造）。学科本身的东西仍然重要，要让人学会当好写作者、要有广博与深度的知识，大学很适合这件事。
怎么教才是崩坏处：人人都在作弊，AI 检测器不管用。一项研究显示，从 2006-2007 互联网与社媒真正兴起开始，Rutgers 做作业的学生几乎都考得更好；到 2020 年，因为其他人都在作弊，只有约 20% 做作业的人还能考得更好。"AI 不会让我们跳过艰苦的功课"——但配上一对一的 AI 导师，可以按每个人的水平教学、真正加速学习过程。
Mollick 自己的课 100% 基于 AI（他教创业）：过去一周结束时学生交的是商业计划书加 PPT，现在交的是能跑的产品。他第一次把 ChatGPT 引入创业课（上线后那个周二），一个学生心不在焉，课后跑来说"我们聊天的工夫我已经把整个产品建好了"。如今学生玩 AI 模拟、要教 AI 一样东西、有一个刻意装傻的 AI 学生、所有课程材料都有 AI 导师、在团队场景里有 AI 当魔鬼代言人给反馈。"课堂不会消失，但我们在课堂里做的事会变形。"

"AI 不会让我们跳过艰苦的功课，但配上一对一的 AI 导师，我们能按每个人的水平真正加速学习。" —— Ethan Mollick

别急着招首席 AI 官：因为"没人懂任何东西"

核心要点：首席 AI 官是个很难的招聘，因为这是个"没人懂任何东西、没有秘密"的奇怪时刻；组织内部本就拥有成功所需的专长。

残酷的领悟：Mollick 定期与所有 AI 实验室交流，"很快会有一个可怕的发现——没人懂任何东西"。不是实验室藏着一本没给你的说明书，不是有什么他没在线上分享的秘密数据，"没有秘密，人人都急着想抄别人，但根本没有那个别人"。所以你招的首席 AI 官，凭什么比别人多两年经验？没人想到 LLM 会这么好——Sana 比几乎所有人早一年起步。
一个常被忽略的混淆：AI 在 2010-2022 年意味着完全不同的东西（大数据、把一切 XGBoost 化，至今仍值得做），那是另一头野兽，所以首席 AI 官很难招。
反直觉的证据：BCG 第二篇论文显示初级员工用 AI 比资深员工差。人们通常觉得"需要数字一代进来"，但事实并非如此——初级员工产出一份备忘录给你看，你觉得"是份备忘录，挺好"；而干了 20 年的人会说"我看这个看了 20 年，这里有七个它没做好的地方"。专长和知识很重要。
正确做法是连接 Crowd 与 Lab：内部采用率封顶在 20-30%，其中约 1-2% 的人在这件事上"就是天才级、极其擅长"——他们就是能带领你 AI 开发的人，一开始你不知道是谁、他们也不知道，但会浮现出来；危险在于他们在一线为你赚太多钱，你舍不得把他们从一线抽走，但正是这些人要成为 lab 的核心。

"你定期跟所有 AI 实验室聊，很快会有一个可怕的领悟：没人懂任何东西。没有秘密。" —— Ethan Mollick

激励机制：领导层定调"不裁员"，再用疯狂的方式奖励自动化

核心要点：要让专家愿意自动化掉自己的角色，激励的清晰度至关重要——而这正是"领导层"这条腿如此重要的原因。

文化好的公司更容易：如果你信任 CEO/创始人，而他说"我们不会因为 AI 裁任何人，我们要扩张能做的事，让它对每个人都有利"，你的处境就比一个惯于用 IT 预算裁人的成熟大组织好得多。"人们能分辨出区别"，所以一开始就必须坦诚——如果这会威胁到人们的工作，人们想知道。
激励可以很疯狂：有公司直接发 1 万美元现金奖励自动化自己工作的人（"比一次典型的 IT 部署还省钱，就是塞一手提箱现金过去"）；另一家公司规定招人前必须先花 2 小时和团队用 AI 试做那份工作，再围绕"会用到 AI"这一事实重写岗位描述；还有的要求提项目时先尝试用 AI 做，再据此重新提交项目方案。
但愿景的清晰度压倒一切：如果你说"四年后你的工作是和 AI 一起做某事"，人们会问"那是什么意思？我是坐在家里给 agent 下指令，还是在一个房间里做事，我们人会变少吗？"太多高管只想把这个问题踢到将来、含糊地说"AI 会做很棒的事"。"我凭什么在没有补偿的情况下，把我的生产率收益分享给组织？"——从回答这个问题开始，至关重要。

"如果这会威胁人们的工作，人们想知道。你不能含糊其辞，必须开始想清楚你要说什么。" —— Ethan Mollick

宝洁 776 人研究：一个人加 AI ≈ 一个团队，而且更快乐

核心要点：在真实工作任务上，个人配 AI 的表现能匹敌团队，而团队配 AI 更容易产生突破性想法，且 AI 把不同专长拉平。

这项与 MIT、哈佛、华威大学合作、在宝洁 776 人身上做的研究，分组为两人跨职能团队 vs 单独个人，再分为配 AI 与不配 AI，且都是真实工作任务（不只是创新任务）。
三个发现：① 单独工作的个人配上 AI，表现与团队一样好，而且因此更快乐——他们从这些系统中获得了一些社交收益，产出高质量结果；② 配 AI 的团队更可能想出真正突破性的点子；③ 专长趋于拉平——房间里有技术人就产出高度技术的方案，有营销人就产出营销味十足的方案，一旦加入 AI，方案全面铺开、变得均衡得多。
"这事相当幼稚"：研究里只是给了一堆 prompt，很多时候是人和系统来回地玩。这把同样的老问题摆在面前——你需要做一些决策。"那种坐等别人给你解决方案的典型公司，会比那些现在就开始实验、搞清楚什么管用什么不管用的公司过得差。"

"单独工作的个人配上 AI，表现和一个团队一样好——而且因此更快乐。" —— Ethan Mollick

半人马 vs 赛博格，以及最近让 Mollick 震惊的事

核心要点：半人马（centaur）是把工作和 AI 分工，赛博格（cyborg）是更融合地混搭；而最近一代模型让一道又一道门槛接连倒下。

半人马 vs 赛博格（源自 Garry Kasparov）：半人马是"半人半马"式的分工——"我讨厌写邮件、擅长分析，那我来做分析"；赛博格更融合——Mollick 写书就是赛博格任务，当时 AI 写作很差（他自认是很好的写作者），所以 AI 几乎不写，但"写书很痛苦"的所有环节它都帮上忙：卡在一个句子上，让它给 30 种结尾再挑一个；读这一章确保我没问题；读这些学术论文确保我引用正确。他的 Substack 常让两三个 AI 读、给反馈，据此修改。
让他震惊的最近用例：用新版 Gemini 的超长上下文，把自己写过的全部学术论文丢进去，让它归纳主题——它找出了他自己花 2 个月写终身教职陈述时归纳的 3 个主题中的 2 个，且分析水平相当高；更好玩的是把任何一篇学术论文扔进去、说"把它变成电子游戏"，就能得到一个能跑的好游戏。"我不会写代码，最近却做了几个挺好用的 3D 游戏。门槛一道接一道倒下，我隔三差五就被震惊一次。"
幻觉在下降：有论文显示连 O1-preview（在当时都不算尖端模型）在《新英格兰医学杂志》病例上的幻觉率，从旧模型的约 25% 降到 0.25%——接入数据源、用更聪明的模型，幻觉问题开始下降。Mollick 认为造一个能做有趣工作的研究系统，"更多是靠意志力而非别的"：我们早已证明 AI 能当很好的导师，但"那一千个真正做好的导师在哪？那一千个科学应用在哪？内部培训系统在哪？这些现在就能做，真的只是去做而已"。

"我不会写代码，最近却做了几个挺好用的 3D 游戏。门槛一道接一道倒下，我隔三差五就被震惊一次。" —— Ethan Mollick

战术核心：做"极大主义者"，别掉进概念验证陷阱

核心要点：在战术层面，要瞄准极大主义（maximalist）——把系统推到做所有事；太少组织这么做，太多组织停在增量。

极大主义的逻辑：把系统推到做整件事。做不到，很好，你现在有了一个测试未来系统的基准；它可能真就全做了，那你就学到了有价值的东西。"我真的很担心那种增量主义——'我们来总结一下文档吧'。这没问题，但我很久以前就能做了。你为什么要总结那份文档？直接让它做那件事，而不是中间步骤。"
概念验证陷阱：很多公司"先做个小 PoC 再放大"，6 个月后卡在 PoC 里再也放大不了；另一些公司则是"先到处部署、人人开权限，再在真正管用的用例上加倍下注"——但即便这样也不够极大主义，因为那些"管用的用例"是在系统当时的局限和人们当时的能力下管用的。
造 app 常是最糟的角度：你会得到一个围绕 Llama 2 之类的局限建起来的半成功产品。IT 团队成为 AI 部署中枢的问题在于，IT 在意低延迟和低成本，而"低延迟低成本恰恰是这些模型里高智能的反面"。有时你要低延迟低成本，但有时是"我愿意花 15 美分换一个真正聪明的决策或一种新化学品"——这是合理的价钱。人们倾向于基于便宜的小模型来建，然后困在里面，所以"模型无关 + 持续更新"很重要。

"直接让它做那件事，而不是中间步骤。我很担心那种增量主义——'我们来总结一下文档'，这我很久以前就能做了。" —— Ethan Mollick

建议的同质化风险，以及让 AI 替你做决策的 prompt

核心要点：建议类应用既能带来惊人回报，也有把所有人塑造成同一方向的风险——解法是给 AI 注入你的原则、并用多个顾问。

肯尼亚创业者研究：一个只给 GPT-4 建议（不能帮他们做产品）的对照实验，高绩效者获得了 8-13% 的利润提升——"对建议而言这疯狂地高，如果我能只靠给学生建议就让他们利润涨 13%，那太惊人了"；低绩效者反而更差，因为他们的生意本已挣扎、无法落地这些点子。
同质化风险是真实的：建议/第二意见的角色确实有把所有人塑造成同一方向的危险。构思上也一样——GPT-4o 偏爱生成加密货币、AR/VR、环保的点子（Mollick 猜是 post-training 所致）。但他们的其他研究发现，只要 prompt 得更好，就能得到和一群人一样多样的点子。所以"也许你想要四五个顾问——不只要 Ethan Mollick，还要 Adam Grant，还要 Garry Kasparov"。
让 AI 替你做所有决策的 prompt（Mollick 的设计）：先给它大量关于"我和我的选择"的上下文（粘进几百万字符）；然后让它在做决策前先挑出四五个可能的选项、其中至少有几个非常激进；接着两两对比，每个给出两三个模拟结果；再造一个"急性子版的 Ethan"和一个"深思熟虑版的 Ethan"，让它们争论哪条路最好；最后给出每个选项的利弊清单并选出最佳——"一点思维链，一点视角切换"。
用人物语料接地：Mollick 几年前用乔布斯说过的所有话训练了一个 AI。COVID 期间他问"我们该转成远程优先公司吗"，"乔布斯"回答："不。95% 的沟通问题靠把人放在同一个房间就能解决。永远让团队同处一地。" 如果你把 AI 接地在某个人的写作上，它会得到一个具体的视角，而不是"互联网的平均值"。"如果你相信你关于世界的原则是对的，把这些原则给 AI、让它帮你执行，远好过只是让它告诉你该怎么做。"

"如果你相信你关于世界的原则是对的，把这些原则交给 AI 去帮你执行，远好过只是让它告诉你该做什么。" —— Ethan Mollick

参与度优化的危险，与 KPI 的"末日陷阱"

核心要点：一旦这些系统开始为"参与度"优化，就是在玩火；而在研发阶段强行设 KPI，几乎注定滑向"砍成本、裁人"。

参与度优化是在玩火：系统目前还只是被训练去预测下一个 token，尚未为参与度优化，但大实验室开始意识到自己能这么做。一个有趣的事件——新发布的 Llama 4 登顶排行榜，后来被揭露榜单上的版本和发给所有人的版本不是同一个模型：榜单版满是表情包、夸你多棒、讲些半好笑的笑话。"为参与度优化、砸更多 token 去奉承你"——而正是"为参与度优化"让社交媒体变成一个危险的地方。"我很担心这种结果，而且我认为它不可避免。"
KPI 的末日陷阱（Mollick 最强烈的观点之一）：在早期研发阶段，你能做的最糟的事就是设一堆 KPI。"我们不知道这些系统会做什么，你在花研发的钱"——如果你为性能优化，那是每天产出多少个 Word 文档？人们多快交报告？组织根本不是为你需要的那种 KPI 而建的。过去产出尽可能多的字是有价值的，但现在你想让人一周覆盖 25 家公司、做 300 份 PPT 吗？写多少行代码？
可衡量的 KPI 是注定的厄运，"因为它们最终总是滑向成本节省，总是 30% 成本节省，总是裁人，而这与你正在做的一切背道而驰"。生产率收益本身很清晰、会很快到来（编码就交给编码，那里收益明确），但"为文档写作做生产率优化"是危险的——你到底在为什么优化？人们需要采用一种研发心态。

"可衡量的 KPI 是注定的厄运，因为它们最终总是滑向 30% 成本节省、总是裁人——这与你正在做的一切背道而驰。" —— Ethan Mollick

最大的分歧：放弃"能动性"，才是比生存风险更该担心的事

核心要点：Mollick 最不同意领域里的一种倾向——把焦点全压在生存风险上，却忽视了我们对当下决策的能动性。

对存在性风险（existential risk）的过度聚焦让他担心，但比起这个，他更担心的是我们对正在做的决策的能动性（agency）。"我担心人们把 AI 当成一个技术物件——就像我们这场对话里也把它说成一台蒸汽压路机——但事情不是那样的。" 在场每个人都在做关于"AI 如何被使用和塑造"的决策，而这些反过来塑造 AI 走向何方。"我真正担心的是这种'缺乏能动性'的态度——好像 AI 会对我们做事；不，是我们在做选择，我们能做出捍卫我们认为重要之物的选择。"
技术人不懂组织有多乱：很多 AI 技术领域的人不理解真实组织如何运作、有多混乱，"即便是超级聪明的 agent，也不会在一夜之间改变公司运作方式"——这就是他总在"五年还是十年"上挣扎的原因，改变会一阵一阵地发生，但有时候有种天真。
好莱坞的例子：Mollick 有个做好莱坞制片人的姐妹，每次听到"AI 会取代好莱坞"，他都想"你不懂一部好莱坞电影要投入多少工作"。事实上他们正用 AI 加速——姐妹和 Michelle Pfeiffer 拍了部电影，做测试配音时现在有一个假的 Michelle Pfeiffer 声音可以拿来测；但因为有工会对演员的良好保护，这永远不能用于真正的影院放映，Michelle Pfeiffer 仍得亲自来用她的人类嗓音录制。"我们可以建一个捍卫人性的世界，但我们必须做出选择才能做到。"

"我真正担心的是这种'缺乏能动性'的态度——好像 AI 会对我们做事。不，是我们在做选择。" —— Ethan Mollick

附录：关键人/机构/产品/数据

项目	详情
Ethan Mollick	沃顿商学院管理学教授、《Co-Intelligence》作者、Substack「One Useful Thing」主理人
Joel Hellermark	Sana 创始人兼 CEO，本访谈主持人
Marvin Minsky / Engelbart	替代人类智能 vs 增强人类智能的两条哲学路线
第一张组织图	1855 年纽约与伊利铁路，为电报实时协调火车而生
酿酒师/吉尼斯比喻	蒸汽机时代的"小路"（裁人多赚）vs"大路"（雇 10 万人扩张）
三方图灵测试	GPT-4.5 通过，70% 情况下人们把 AI 当成"人类"
Tyler Cowen	称 o3 是 AGI，"像色情片——我看到就知道"
jagged frontier	Mollick 提出的"锯齿状能力前沿"概念，当前组织最大瓶颈之一
Leadership / Lab / Crowd	让 AI 在组织跑通的三条腿框架
BCG 研究	第一篇：低绩效者获益最大（因 retainment）；第二篇：初级用 AI 比资深差
宝洁 776 人研究	个人+AI≈团队且更快乐；团队+AI 更易突破；专长被拉平
肯尼亚创业者研究	只给 GPT-4 建议，高绩效者利润 +8-13%
retainment	咨询师原封不动交上去的 AI 答案占比；加自己想法反而搞砸
顶尖 2%	在自己领域仍胜过 AI；用对 AI 的高手有 10-100 倍提升
师徒链断裂	4000 年学徒制"今夏断了"，初级关掉大脑、中层弃用实习生
Rutgers 研究	2020 年因人人作弊，仅约 20% 做作业者考得更好
Mollick 的课	100% 基于 AI：模拟、教 AI、装傻 AI 学生、AI 导师、AI 魔鬼代言人
Mary Erdoes	摩根大通高管，公开用 AI 并自上而下渗透
1 万美元现金奖	某公司奖励自动化自己岗位的员工
centaur / cyborg	半人马（分工）vs 赛博格（融合），源自 Garry Kasparov
O1-preview 幻觉率	NEJM 病例从约 25% 降到 0.25%
Gemini 长上下文	丢入全部论文，找出 Mollick 终身教职陈述 3 主题中的 2 个
Llama 4 排行榜事件	上榜版本满是表情包谄媚，与发布版本不同（参与度优化）
乔布斯语料 AI	"95% 的沟通问题靠把人放在同一房间解决，永远让团队同处一地"
KPI 末日陷阱	研发期设 KPI 总滑向"30% 成本节省、裁人"