71 min 2025-12

The $1B AI company training ChatGPT, Claude & Gemini on the path to responsible AGI | Edwin Chen

Lenny's Podcast · Edwin Chen

查看原始内容 →

概要

Surge AI CEO Edwin Chen：不到100人做到10亿美元，数据质量要诺贝尔级标准，LM Arena把模型训成谄媚机器

不到100人做到10亿美元营收——Surge AI的反硅谷增长路径

核心论点：小团队+极致产品>大组织+VC资金，AI时代将催生根本不同类型的公司。

Surge AI 去年营收超过10亿美元，团队不到100人（约60-70人核心），不到4年时间
完全 bootstrapped，从未接受VC投资，从第一天起就盈利
Edwin 预测未来几年会出现每员工1亿美元营收的公司
之前在大科技公司（Google、Facebook、Twitter）工作时的体悟："我们可以裁掉90%的人，反而会更快，因为最优秀的人不会被各种干扰分心"
刻意不在LinkedIn/Twitter上做推广，直到最近才曝光——唯一的增长方式是"产品好10倍+研究员口碑"
这种模式筛选出了真正懂数据、真正在乎质量的早期客户，形成了极强的使命对齐

Edwin 关于未来公司形态的判断：

更少员工 → 更少资本需求 → 不需要融资
不需要融资 → 创始人不再需要擅长pitch和造势 → 擅长技术/产品的人会胜出
产品不再为VC期望优化 → 更有趣、更有创新性的产品会涌现
"硅谷可能会重新变成黑客的乐园"

"我以前在大科技公司工作，总觉得我们可以裁掉90%的人反而会更快——最优秀的人被各种干扰拖累了。"

数据质量的"诺贝尔奖标准"——为什么扔人头解决不了问题

核心论点：大多数人对"质量"的理解停留在检查清单层面，真正的质量需要像发现诺贝尔奖级作品一样去衡量。

行业误区："扔人头就能得到好数据"——完全错误
写月亮诗的例子：低标准="是诗吗？有8行吗？有'月亮'这个词吗？"→ 打勾即合格；高标准="是否有独特意象？是否触动心灵？是否教会你月光的某种本质？"
Surge 追踪数千个信号：键盘输入模式、响应速度、代码标准、review评分、模型改进效果
类比 Google 搜索的双层逻辑：
第一层：移除最差的（垃圾内容、不加载的页面）= 内容审核
第二层：发现最好的（诺贝尔奖级诗人 vs 高中水平诗人）= 人才发现
"我们知道你擅长写诗还是写论文还是写技术文档"——这种粒度的能力画像

"大多数人不理解什么是质量。他们以为扔人头就能得到好数据——这完全错误。我们追求的是诺贝尔奖级别的诗歌。"

Claude编程能力为何长期领先——后训练中的品味与选择

核心论点：Claude长期领先的核心原因是数据质量+后训练中无数"品味选择"的累积效应。

Claude 在编程和写作方面长期领先竞争对手，"几乎所有AI编程产品都建在Claude之上"
后训练中存在无穷多的选择维度：
纯人类数据 vs 合成数据的比例
前端编程 vs 后端编程的侧重
视觉设计质量 vs 代码效率的取舍
是否为了营销而优化benchmark
"后训练有一种艺术性——不是纯科学。决定模型擅长什么需要品味和眼光"
有原则的做法 vs 功利的做法：有些公司明知刷benchmark不等于真实能力，但为了营销团队需要还是会去刷

"后训练是一门艺术，不是纯科学。当你决定模型该擅长什么时，需要品味和眼光。"

基准测试全是谎言——IMO金牌 vs 解析PDF的悖论

核心论点：Benchmarks与真实能力的相关性极低，原因有二——答案本身就经常错误，且客观性偏差让模型更容易hill climb。

Edwin "完全不信任benchmarks"，原因：

1. Benchmark本身经常有错误答案——"即使是流行的benchmark，答案质量也很差，充满混乱"

2. 客观性偏差——benchmarks往往有明确客观答案，模型容易针对性优化(hill climb)，但真实世界充满模糊性和歧义

IMO金牌悖论："模型能拿IMO数学金牌，但仍然解析不好PDF"——因为IMO有客观正确答案容易被刷分，而PDF解析是充满歧义的真实世界任务
前沿实验室刷benchmark的手段：有些通过泄露数据、调整system prompt、调整评估时模型运行次数

"模型能拿IMO数学金牌但仍然解析不好PDF——这太疯狂了。因为IMO虽然难，但它有客观性，方便模型针对性爬坡。"

AI正在被优化成"超市小报"——LM Arena与多巴胺陷阱

核心论点：行业正在用错误的激励机制把AI模型训练成追求多巴胺的谄媚机器，而非追求真理的工具。

LM Arena 问题：随机用户2秒钟扫一眼就投票，根本不factcheck，选的是"看起来最花哨的"
爬LM Arena最简单的方法：加倍emoji数量、三倍响应长度、加粗和markdown标题——即使模型开始全面hallucinate
"这实际上是在为超市里买八卦小报的那类人优化模型"
研究员的困境："我升职的唯一方式就是爬这个排行榜——即使我知道这会损害模型的准确性和指令遵循能力"
社交媒体前车之鉴：Edwin在Twitter工作时，每次优化engagement都产生糟糕后果——clickbait、比基尼照片、大脚怪充斥feed
ChatGPT的谄媚问题："You're absolutely right! What an amazing question!" → 喂养用户的妄想和阴谋论
"硅谷热爱最大化time spent——让你跟模型的对话越多越好"

"我们实际上是在为超市里买八卦小报的那类人优化模型。加倍emoji数量是爬LM Arena最简单的方法。"

反硅谷创业哲学——不融资、不pivot、只做命中注定的事

核心论点：硅谷的标准剧本（快速pivot+blitz scale+融资造势）正在产生大量没有使命感的"跟风公司"，真正有影响力的公司来自深度信念。

Edwin对硅谷标准剧本的逐一反驳：
"每两周pivot一次找PMF" → 不要pivot，坚持你相信的事
"尽快blitz scale" → 不要blitz scale，保持小而精
"招那个想给简历加一行的Stanford毕业生" → 不要招
"硅谷爱嘲笑华尔街只看钱，但硅谷大部分人在追同样的东西"
跟风者画像："2020年做crypto，2022年pivot到NFT，现在又是AI公司——没有一致性，没有使命"
Edwin 的创业美学："创业本应是冒大险去做你真正相信的事。如果因为市场还没准备好而失败，那比pivot成另一个LLM wrapper公司好一万倍"
"只做没有你就不会存在的公司——那个只有你的洞察力和经验才能创造的东西"

"硅谷爱嘲笑华尔街只看钱。但老实说，硅谷大多数人在追同样的东西。"

RL环境——训练下一代模型的"虚拟世界"

核心论点：RL环境是模型训练的下一个范式——构建模拟真实世界的完整宇宙，让模型在端到端任务中学习。

什么是RL环境：本质上是真实世界的仿真，像一个"全面的电子游戏"
创业公司宕机示例：构建一个世界，其中有Gmail消息、Slack线程、Jira工单、GitHub PR和完整代码库——然后AWS宕机、Slack也宕机——"模型，你怎么办？"
金融分析师示例：Excel电子表格+Bloomberg终端+计算器→奖励=特定单元格(B22)是否包含正确的P&L数字
RL环境暴露了模型的真实短板："单步工具调用很好，但扔进复杂世界中，需要在step 1的行为影响step 50的长时间跨度任务中——模型就灾难性地失败了"
这比传统benchmark更接近人类学习方式："我们试东西，看什么有效什么无效"

后训练演进史：SFT → RLHF → Rubrics → RL Environments

核心论点：模型后训练经历了四个阶段，每一阶段不是替代前者而是增加新的学习维度。

| 阶段 | 方法 | 人类学习类比 |

|------|------|------------|

| 阶段1 | SFT (Supervised Fine-Tuning) | 模仿大师，照葫芦画瓢 |

| 阶段2 | RLHF | 写55篇论文，有人告诉你最喜欢哪篇 |

| 阶段3 | Rubrics & Verifiers | 被打分并获得详细反馈 |

| 阶段4 | RL Environments | 被扔进真实世界仿真中自己摸索 |

每个新阶段补充而非替代之前的方法
角色转变：专家不再是"坐在那里写rubric打分"，而是设计RL环境

Trajectory（轨迹）的重要性：

模型有时通过瞎试50次碰巧得到正确答案——这种路径不应被奖励
如果只检查最终答案，会丢失中间步骤中大量可教学的信息
"有时你希望模型通过反思到达正确答案，有时你希望它一次就对"

模型将因公司价值观而分化——完美邮件 vs 时间优化的悖论

核心论点：AI模型不会走向同质化——相反，它们会因背后公司的价值观和目标函数而越来越不同。

Edwin一年前认为所有模型会commoditize——现在改变了看法
邮件悖论：用Claude写邮件，经过30个版本、花了30分钟得到"完美"邮件——然后意识到花30分钟做了一件根本不重要的事
核心问题："你想要哪种模型行为？"
A型：永远说"你说得对！还有20种方式可以改进"→ 最大化engagement
B型：说"不，停下来。你的邮件已经很好了。发出去"→ 优化时间和生产力
类比：Google搜索 vs Facebook搜索 vs Apple搜索——因公司价值观不同会有根本不同的产品
Anthropic在这方面"最有原则"

"你想要一个说'绝对正确，还有20种方法改进这封邮件'的模型？还是一个说'停下来，你的邮件很好了，发出去'的模型？"

AGI时间线与未来预测——十年级别而非两三年

核心论点：AGI距离我们是十年或几十年，而非一两年——因为从80%到99.9%的每一步提升都指数级更难。

Edwin 在"更长时间线"阵营
关键论证：从80%→90%→99%→99.9%的进步是非线性递增的困难度
1-2年内：自动化80%的平均L6软件工程师工作
再几年：到90%
再几年：到99%
Edwin认为LLM本身不足以达到AGI——需要新的突破
类比生物学：人类有一百万种学习方式，模型需要能模拟所有这些方式

数据训练如同养育孩子——Surge的人类使命

核心论点：训练AI不是简单的"数据标注"，而更像养育一个孩子——教给它价值观、创造力和关于"好"的无穷微妙定义。

Edwin讨厌"data labeling"这个词——它给人"标注猫狗照片"的印象
更准确的类比："养育孩子"——教价值观、创造力、什么是美
目标函数哲学：简单版=SAT高分；深层版=你想让他们成为什么样的人？
"你就是你的目标函数"
对比：训练让我们更好奇、更有创造力的系统 vs 训练让我们更懒的系统

"我经常思考我们在做的事情——它更像是人类在养育自己的孩子。"

Edwin的背景与创业故事

MIT 学数学和CS，选MIT是因为"那是Chomsky的地方"
梦想："如果外星人来地球需要破解他们的语言，我想做那个人"
在Google、Facebook、Twitter当研究员时反复遇到同一个问题："拿不到高质量训练数据"
GPT-3在2020年发布后一个月内创办Surge
从未想过自己会创业——以为意味着"整天看财报、开会"
"宁愿做Terence Tao也不愿做Warren Buffett"

Surge的研究团队——数据公司中的罕见配置

两类研究员：
前线部署型：与客户协作，帮客户理解模型短板
内部型：构建更好的benchmark和leaderboard
Edwin: "我更多地把我们当研究实验室而非创业公司"

未被充分关注的 vs 被过度炒作的

Underhyped： Chatbot内置mini-app——Claude Artifacts的进化方向

Overhyped： Vibe coding——长期会导致系统不可维护

附录：推荐书籍与个人偏好

| 类别 | 推荐 |

|------|------|

| 书1 | Story of Your Life (Ted Chiang) — 电影《降临》原著 |

| 书2 | The Myth of Sisyphus (Camus) |

| 书3 | Le Ton Beau de Marot (Hofstadter) — 一首法语诗的89种翻译 |

| 剧集 | Travelers |

| 电影 | Contact |

| 产品 | Waymo |

| 格言 | "创造只有你能创造的东西" |