← 返回
VIDEO INSIGHT

The AI paradox: More automation, more humans, more work | Dan Shipper

嘉宾
日期
2026-05
时长
94 min

概要

  • 工作方式将沿两条路线重组:一是每家公司都会有一个超级 Agent(类似 Shopify 的 River),替代此前"人手一个 Agent"的模型;二是 Codex/Co-work 将成为新的工作操作系统——不是把 AI 塞进浏览器,而是把浏览器放进 Agent 里,所有知识工作(邮件、文档、分析)都在这个平面上完成。
  • SaaS 不会死,反而会回血:Agent 接管日常操作后,SaaS 公司不再需要自己烧 token——用户自带 AI 消费自己的 token,SaaS 利润率回升。同时 Agent 大幅增加 SaaS 的使用量(GitHub 流量暴涨就是例证)。Dan 直言"我现在会买 SaaS 股票"。
  • 自动化悖论是真实的:Every 一年内从 15 人翻倍到近 30 人,AI 投入越深,招的人反而越多。Dan 自己的体感是"我们有这么多自动化、这么多 AI,但我工作量也大了很多"。每层自动化都需要人来维护、判断和创造新前沿。
  • GPT 5.5 在高级工程师 Benchmark 上拿到 62/100(此前所有模型 ≤30),但人类高级工程师得 80-90 分。关键差距不在执行力而在判断力——模型不会主动说"这代码是垃圾,需要推翻重写",而是照单执行。Dan 预测一年内模型可达高级工程师水平,但届时他可以轻松把 benchmark 归零,因为更高层级的判断永远存在。
  • PM 和全栈设计师将是 AI 时代最大赢家。Every 内部的 Marcus(PM 背景,曾负责 Axios 写作产品)用 Cursor/Claude Code 独立发布代码,"比团队里几乎所有人都快"。设计师也不再需要工程师帮忙落地,可以直接提 PR。

贯穿全场的核心线索是"每个 Agent 都需要一个人"——从个人 Agent 转向公司超级 Agent、到 forward deployed engineer 新角色的出现、到自动化悖论下的逆势招聘、再到 benchmark 掩盖不了的人类判断力优势,Dan 的每一个判断都指向同一个信号:AI 越强大,人类的管理、判断和创造性工作越不可替代。

01

Every 如何"活在未来"——30 人全员 AI 早期采纳者是预测未来的方法论

核心要点:Dan 认为预测未来的最佳方式不是"prognosticate",而是创造一个全员都在用最新工具的环境,然后观察正在发生什么。

  • Every 从一年前的 15 人增长到近 30 人,翻了一倍。公司内部运营 6 个软件产品,所有人——包括作家、编辑、销售、客服——都是 AI 早期采纳者
  • 公司的预测优势来自两点:一是全员都有"喜欢探索和实验"的特质;二是作为 AI 评测机构,能提前拿到 alpha/beta 版本的模型
  • Dan 讲了 Claude Code 预测的故事:团队在 Sonnet 3.5/3.7 时期做 vibe check,发现"代码编辑器消失了"这个突破,从此全员转向用英语跟电脑对话的工作方式。Dan 在自己的写作中也开始尝试,最终一年前在播客中预测了 Claude Code 的崛起——这个预测被验证为"so unbelievably right"
  • Dan 提出"reach test":一个工具好不好用,就看你早上醒来是否会自发地拿起它
"What you don't want to do is prognosticate. What you want to do instead is just live in it together." —— Dan Shipper
02

预测一:公司超级 Agent 取代个人 Agent——因为 Agent 需要人类来"照料"

核心要点:Dan 从"人手一个 Agent"的信仰者彻底转向了"一家公司一个超级 Agent"模型——因为大多数人不愿也不能维护自己的 Agent,而 Agent 需要有人持续关注才能发挥作用。

  • Shopify 有 River(公司级超级 Agent),Ramp 也有一个。这是正在形成的行业模式
  • 当 OpenClaw 刚出来时,Every 全员兴奋地采用了。但很快大家意识到"这东西太费劲了"——动不动就坏,需要 SSH 到服务器去修,大多数人不想花这个时间
  • Dan 的核心洞察:Agent 真正有用的前提是有一个"care about it"的人——持续监控它在做什么、确保它做对事情。"The minute someone's like, 'Ah, I don't want to maintain this dumb OpenClaw,' is the minute the agent is not really that useful anymore."
  • 理想架构是配置一个 forward deployed engineer 或类似角色,负责维护全公司的 Agent。然后随着模型变得更独立,Agent 会逐渐从顶层向下扩散到团队级、最终回到个人级
  • COO Brandon Gall 把个人 Agent 的用途叫做"computer errands"(让 Agent 帮你跑腿,比如下单买菜),认为这会是巨大市场,但公司内部更看重工作场景的 Agent
"Every agent needs a human... The mechanism is agents need people who care about them." —— Dan Shipper
03

预测二:Codex/Co-work 成为新工作操作系统——浏览器在 Agent 里,而非 Agent 在浏览器里

核心要点:AI 工作的最佳范式不是把 AI 塞进每个 SaaS 产品,而是把所有 SaaS 放进一个 Agent 环境(Codex/Co-work)的内置浏览器里——Agent 能看到你在做什么,你也能看到 Agent 在做什么,形成无缝协作。

  • Dan 的日常工作流:在 Codex 里打开内置浏览器,用 Proof(自建 markdown 编辑器)写作,Codex 在旁边实时观察,可以随时接手研究、操作电脑上的任何东西——"I basically feel like I have this parallel work buddy"
  • 邮件案例:Dan 用 Codex + Cora(Every 的邮件 Agent)管理收件箱,对着每封邮件用语音给指令("去收集过去四年的法律文件整理成报告然后发给律师"),保持了连续 10 天的 inbox zero——"if you know me, is crazy"
  • Codex 发邮件事故:有一次 Codex 没有像往常一样先征求 Dan 确认就直接给投资人发了邮件,Dan 去已发邮件看了才发现"oh, this is exactly what I would have sent"
  • Dan 认为 Anthropic 开创了"Agent 在你电脑上运行"的范式(Claude Code),但 OpenAI 的 Codex desktop app 直接跳到了终态。目前 Codex 是 Dan 的日常主力工具——"我大部分时间都花在里面"
  • Cursor 的定位问题:Cursor 在云端实现上领先,但选择了"只服务程序员"的赛道,这可能限制其天花板。Dan 指出 Cursor 最近"essentially被 SpaceX 收购了"(类似收购但不完全是)
"For a long time, we thought the optimal experience of AI was going to be take AI and put it in a browser. I think the reverse is actually starting to happen — take the AI agent and put a browser in it." —— Dan Shipper
04

SaaS 不会死——Agent 增加用户数,SaaS 利润率反而改善

核心要点:Agent 时代下,SaaS 公司不需要自己烧 token 做 AI 功能——用户自带 Agent(Codex/Co-work)消费自己的 token 来操作 SaaS,SaaS 回归纯软件利润率。同时 Agent 会大幅增加 SaaS 的使用频次。

  • Dan 用 Proof 举例:用户用自己的 Agent 操作 Proof,Dan 完全不需要为他们的 AI 付 token——"anyone who uses it, I don't pay for tokens because they bring their AI to Proof"
  • Every 自己的 SaaS 支出同比上升,尽管全公司都重度使用 AI,并没有把 SaaS 都替换成自建工具——"we're not like vibe coding every single little thing"
  • Dan 的判断:AI Agent 增加的是 SaaS 的用户数,而不是减少。GitHub 正因为 Agent 大量使用而流量暴涨("agents can make a billion requests in like 3 seconds"),这带来巨大基础设施挑战但也意味着巨大需求
  • SaaS 产品需要为"人和 Agent 同时协作"而设计——Agent 可以一次做大量操作,需要审批队列、摘要、日志和回滚机制。产品可以变得更简单(Proof 不需要 Word 级别的排版功能,Agent 帮你做格式化),但底层基础设施需要完全不同
  • Agent 自动提 bug report 的案例:Proof 用户遇到问题时,不是发邮件给客服,而是 Agent 自动生成包含精确复现步骤和代码分析的 GitHub issue,然后 Every 用 Agent 去修——"closed loop between I ran into something and my agent just goes and talks to the company agent and fixes it"
"I think the SaaS apocalypse is dumb. I would buy SaaS stocks right now. What agents do is increase the number of users of SaaS, not get rid of it." —— Dan Shipper
05

CLI 时代已经结束——GUI 回归,但理由不是怀旧

核心要点:Claude Code 的成功不在于它是 CLI,而在于它把 Agent 放在了你的电脑上。一旦进入 GUI(Codex/Co-work),所有同样的好处都在,但体验更好,尤其对非程序员而言。

  • Dan 直言"CLIs are over. We speed ran the CLI era. It was nice while it lasted."
  • Every 内部大部分技术人员已经不再以 CLI 作为主要工作界面,转向 Codex/Co-work/Cursor
  • 人们误以为 Claude Code 火爆是因为"CLI 这个形态好用",Dan 认为真正起作用的是"Agent 在你电脑上运行,可以访问你的一切"——这个核心机制在 GUI 里同样成立
06

自动化悖论:Every 翻倍招人的背后逻辑

核心要点:Dan 的切身体验是"我们有这么多自动化、这么多 AI,但我也工作得更多了。" 自动化不会消灭工作——每一层自动化都创造出新的人类需求。

  • Every 在全面 AI 化的同时从 15 人翻倍到 30 人,"not what people would have expected from a company that is so AI forward"
  • Dan 两年前写过一篇文章叫"The Allocation Economy"——预言人类未来的工作方式像管理者:分配任务、监督质量、确保方向正确。但管理者并不悠闲——"most managers are not on the beach, they're checking in with their employees all the time"
  • 数据科学团队的案例:某大型模型公司搭建了一个全公司可查询的数据科学 Bot,连接到数据仓库、知道权限控制。有专门团队维护这个 Bot,确保基础查询的准确性——于是数据科学家不用再回答低级问题,可以专注于更深层的分析。"But if the team didn't exist, the data scientists would hate their lives."
  • 另一位朋友(数据科学负责人)反映:现在全公司都能做数据分析了,他们团队的工作反而变成了审核别人的低质量分析——"most of their job is now reviewing bad data science work"
"Automation is a lie. Every agent needs a human... I'm simultaneously extremely AI pilled and very bullish on humans." —— Dan Shipper
07

高级工程师 Benchmark:GPT 5.5 拿 62 分,但模型不会说"这代码是垃圾"

核心要点:Dan 自建的高级工程师 Benchmark 显示 GPT 5.5 首次突破 30 分天花板达到 62/100,但人类高级工程师得 80-90 分。关键差距在于模型缺乏"否定性判断力"——不会主动推翻糟糕的代码架构。

  • Benchmark 的来源是 Dan 自己的痛苦经历:他用 vibe coding 做了 Proof,上线后每 10 分钟服务器就崩溃一次。他让 Codex 修,Codex 说"修好了",结果引发四个新 bug,就这样兜圈子。Dan 熬夜 vibe coding 到手肘得了滑囊炎("vibe coder elbow")
  • 最终请了两个不同的高级工程师独立重写代码。Dan 用这两份重写作为标准,给新模型出一道题:"This is vibe coded slop. If you wanted to rewrite it from first principles, how would you write it? Go do it."
  • 所有模型在 GPT 5.5 之前都只得 30 分左右。GPT 5.5 跳到 62 分——但使用的是 Opus 4.7 的 plan("Opus 4.7 plans are very good"),且 GPT 5.5 是唯一有"agency 和 confidence"直接撕掉旧代码从头写的模型,其他模型"end up papering over the edges"
  • 核心洞察:真正的人类高级工程师会先看代码,然后说"This is a piece of shit. This guy doesn't know what he's doing. We're going to have to rewrite a lot of this." 模型不会自发做这件事——你问它"该不该重写",它可能同意,但它不会主动提出
  • Dan 预测一年内模型可达高级工程师分数,但他可以轻松重新归零——只要把 benchmark 提升到模型做不到的更高判断层级。"Benchmarks rise on problems that we've framed, that we can articulate, that we can score."
"What an actual human senior engineer does is they go look at the code base and they're like, 'This is a piece of shit. This guy doesn't know what he's doing.' And then they say, 'We're going to have to rewrite a lot of this and it's going to be hard and risky.'" —— Dan Shipper
08

Forward Deployed Engineer:Agent 时代的核心新角色

核心要点:Forward deployed engineer 是一个正在成形的新岗位——专门负责搭建和维护 Agent 系统,让全公司非技术人员都能使用。即使在大模型公司内部,也有专门团队在"运营 Agent"。

  • Every 内部的 Nitesh 就是这个角色:他大部分时间在 Slack 里跟 Claudie(Every 的内部 Agent,运营整个咨询业务)对话——"Why did you do this dumb thing? Let's fix that." 也会用 Claude Code,但核心工作是跟 Agent 打交道
  • Dan 强调"每个 Agent 都需要一个人"不是临时状态——模型会变强,Agent 会变多,但人类始终需要管理它们。这个角色不是"babysitting"(被动等它出错再修),而是"building a whole system that makes it so that people who have less knowledge can use that system without doing something dumb"
  • Every 还把这个能力做成了咨询服务向外输出
09

PM 和全栈设计师将是 AI 时代最大赢家

核心要点:Dan 用 Every 内部的 Marcus 案例证明 PM 背景的人在 AI 时代有巨大优势——产品直觉 + AI 编程能力 = 比传统工程师更快的交付速度。全栈设计师也是同理。

  • Marcus 的故事:PM 出身,曾负责 Axios 的写作产品(做到数千万美元 ARR),离开后花一年"get super AI pilled",主要用 Cursor 学会了 AI 编程。现在在 Every 运营 Spiral(写作 app),"ships faster than almost anyone on the team"
  • Dan 说一年前根本不可能雇 Marcus 做这个岗位。但现在编程模型已经好到可以弥补他的技术短板,让他"spiky product sense"和"sense for users"的优势充分发挥——"he feels liberated cuz he doesn't have to organize a whole team of people to do that"
  • 全栈设计师的优势:设计师终于可以直接把脑中的交互实现出来,不再受限于工程师的实现意愿或能力。"They're just making pull requests now. They don't need to hand it off as much."
  • Lenny 开玩笑说这可能是他播客有史以来收听率最高的一期——"SaaS is back, PMs are back, you know. This is the most contrarian episode I've ever done."
"The building out is done for you. What do you need to be good at? Figuring out what to build, figuring out if it's great, figuring out what problems to solve." —— Lenny Rachitsky
10

AI 工作末日论不成立——模型让"昨天的人类能力"变便宜,但创造新能力的永远是人

核心要点:模型的本质是把已有的人类能力冻结并廉价化。一旦人人都有这个能力,它就变成同质化的commodity——真正的价值在于用这些工具做出新的、还没有被模型学到的东西。

  • "What models do in general is they make yesterday's human competence cheap" —— 人人都能做落地页了,于是落地页不值钱了;人人都能写了,于是 slop tweets 遍地
  • 但结构性地看,模型总是在追赶,人类总是在前面创造——"there are always going to be trailing behind those people who are taking the models and using them to make new things that haven't been done before for their very particular situation"
  • 这就是为什么工程师不会被裁:突然人人都能写代码了,但需要工程师来判断"this is all slop, how should this actually go in our code base?"
11

"骑在模型上"——AI 时代的职业生存策略

核心要点:Dan 给出的唯一建议是"ride the models"——持续使用最新模型,保持好奇心,不断在自己的领域翻石头看模型能不能做到新的事情。

  • 很多公司不允许员工用最新模型,Dan 建议这种情况下用业余时间自己玩
  • Dan 的方法论:他有一组"模型还做不到"的任务清单,每次新模型发布就重新试一遍——"I always turn the rock over again to be like, can it do it now?" 高级工程师 Benchmark 就是这样从 30 分跳到 62 分的
  • 招聘案例:Dan 想招 L&D 负责人,觉得 General Assembly(纽约的技术教育公司)出身的人合适。他把这个想法输入 Codex,出去做别的事。回来时 Codex 找到了"the perfect guy"——在 General Assembly 当过讲师、对 AI 超级狂热、还关注了 Dan 的 Twitter。Dan 直接 DM 约了晚饭
  • Dan 强调 AI 的前沿不在硅谷:"I think the edge of AI is wherever AI meets a real human doing something"——每个人都可以成为第一批发现新模型新用途的人。Every 在布鲁克林,但 Dan 认为他们比很多硅谷公司都更前沿
"What models do in general is they make yesterday's human competence cheap. And so it becomes commoditized. What humans do is we go in there and we're like, 'How do I use this to make something new and interesting?'" —— Dan Shipper
12

AI 生成的内部文档和邮件是好事——Notion Agent 季度规划案例

核心要点:Dan 认为对 AI 生成文档的抵触情绪会消退——因为大多数人写的策略文档本来就很差,GPT 5.5 在好的引导下写出的质量远高于"人手敲键盘"的平均水平。关键判断标准是:你是否站在文档的每一行背后。

  • Every 2025 年底的季度规划完全用 Notion Agent 完成:设定公司战略 → Agent 逐一访谈每个员工(过去一年做了什么、进展如何、明年目标、指标是什么,还会 push back) → 生成团队级策略报告 → Dan 审阅哪些团队需要协调、哪些方案质量低
  • 邮件:Dan 大部分邮件由 GPT 5.5 + Codex 生成。他甚至考虑标注"这封邮件由 GPT 5.5 撰写"
  • Dan 划了一条红线:"if you send me an AI generated document, that's great. But if we talk about it and it's clear you have no idea what's in it — big no-no."
  • slop 的定义:"it took them less time to make it than it takes me to read it"
  • 代码世界已经在这样做了——"I don't want an engineer to handwrite a plan document. That would be obviously silly."
13

附录:关键人/机构/产品/数据

项目详情
Dan ShipperEvery CEO,30 人公司,布鲁克林,全员 AI 早期采纳者
MarcusPM 背景,前 Axios 写作产品负责人,现负责 Every 的 Spiral(写作 app),用 AI 独立发布代码
NiteshEvery 的 forward deployed engineer,主要在 Slack 跟 Agent 对话
Brandon GallEvery COO,提出"computer errands"概念
PeteOpenClaw 维护者,每天处理数千 PR,用 50,000 Codex 实例筛选后合并约 1,000 个
ClaudieEvery 内部 Agent,运营整个咨询业务
CoraEvery 的邮件 Agent
ProofDan 自建的开源 markdown 编辑器
SpiralEvery 的写作 app,Marcus 负责
RiverShopify 的公司级超级 Agent
CodexOpenAI 的 desktop app,内置浏览器,Dan 当前的日常主力工具
高级工程师 BenchmarkDan 自建,GPT 5.5 得 62/100(Opus 4.7 plan),人类高级工程师 80-90/100,此前所有模型 ≤30
I-meter BenchmarkMythos Preview 可在 50% 准确率下完成 17 小时任务
GPT 5.5 + Opus 4.7Dan 认为目前最佳组合:Opus 4.7 做 plan,GPT 5.5 执行
Every 团队规模一年内从 15 人增至近 30 人
Annie Dillard《The Writing Life》Every 新员工必读,尤其最后一章
Churchill 二战史Dan 正在读第二卷
《The Rigor of Angels》关联 Heisenberg、Borges、Kant 的思想史著作