← 返回
71 min 2025-12

The $1B AI company training ChatGPT, Claude & Gemini on the path to responsible AGI | Edwin Chen

概要

Surge AI CEO Edwin Chen:不到100人做到10亿美元,数据质量要诺贝尔级标准,LM Arena把模型训成谄媚机器

不到100人做到10亿美元营收——Surge AI的反硅谷增长路径

核心论点:小团队+极致产品>大组织+VC资金,AI时代将催生根本不同类型的公司。

  • Surge AI 去年营收超过10亿美元,团队不到100人(约60-70人核心),不到4年时间
  • 完全 bootstrapped,从未接受VC投资,从第一天起就盈利
  • Edwin 预测未来几年会出现每员工1亿美元营收的公司
  • 之前在大科技公司(Google、Facebook、Twitter)工作时的体悟:"我们可以裁掉90%的人,反而会更快,因为最优秀的人不会被各种干扰分心"
  • 刻意不在LinkedIn/Twitter上做推广,直到最近才曝光——唯一的增长方式是"产品好10倍+研究员口碑"
  • 这种模式筛选出了真正懂数据、真正在乎质量的早期客户,形成了极强的使命对齐

Edwin 关于未来公司形态的判断:

  • 更少员工 → 更少资本需求 → 不需要融资
  • 不需要融资 → 创始人不再需要擅长pitch和造势 → 擅长技术/产品的人会胜出
  • 产品不再为VC期望优化 → 更有趣、更有创新性的产品会涌现
  • "硅谷可能会重新变成黑客的乐园"
"我以前在大科技公司工作,总觉得我们可以裁掉90%的人反而会更快——最优秀的人被各种干扰拖累了。"

数据质量的"诺贝尔奖标准"——为什么扔人头解决不了问题

核心论点:大多数人对"质量"的理解停留在检查清单层面,真正的质量需要像发现诺贝尔奖级作品一样去衡量。

  • 行业误区:"扔人头就能得到好数据"——完全错误
  • 写月亮诗的例子:低标准="是诗吗?有8行吗?有'月亮'这个词吗?"→ 打勾即合格;高标准="是否有独特意象?是否触动心灵?是否教会你月光的某种本质?"
  • Surge 追踪数千个信号:键盘输入模式、响应速度、代码标准、review评分、模型改进效果
  • 类比 Google 搜索的双层逻辑:
  • 第一层:移除最差的(垃圾内容、不加载的页面)= 内容审核
  • 第二层:发现最好的(诺贝尔奖级诗人 vs 高中水平诗人)= 人才发现
  • "我们知道你擅长写诗还是写论文还是写技术文档"——这种粒度的能力画像
"大多数人不理解什么是质量。他们以为扔人头就能得到好数据——这完全错误。我们追求的是诺贝尔奖级别的诗歌。"

Claude编程能力为何长期领先——后训练中的品味与选择

核心论点:Claude长期领先的核心原因是数据质量+后训练中无数"品味选择"的累积效应。

  • Claude 在编程和写作方面长期领先竞争对手,"几乎所有AI编程产品都建在Claude之上"
  • 后训练中存在无穷多的选择维度:
  • 纯人类数据 vs 合成数据的比例
  • 前端编程 vs 后端编程的侧重
  • 视觉设计质量 vs 代码效率的取舍
  • 是否为了营销而优化benchmark
  • "后训练有一种艺术性——不是纯科学。决定模型擅长什么需要品味和眼光"
  • 有原则的做法 vs 功利的做法:有些公司明知刷benchmark不等于真实能力,但为了营销团队需要还是会去刷
"后训练是一门艺术,不是纯科学。当你决定模型该擅长什么时,需要品味和眼光。"

基准测试全是谎言——IMO金牌 vs 解析PDF的悖论

核心论点:Benchmarks与真实能力的相关性极低,原因有二——答案本身就经常错误,且客观性偏差让模型更容易hill climb。

  • Edwin "完全不信任benchmarks",原因:

1. Benchmark本身经常有错误答案——"即使是流行的benchmark,答案质量也很差,充满混乱"

2. 客观性偏差——benchmarks往往有明确客观答案,模型容易针对性优化(hill climb),但真实世界充满模糊性和歧义

  • IMO金牌悖论:"模型能拿IMO数学金牌,但仍然解析不好PDF"——因为IMO有客观正确答案容易被刷分,而PDF解析是充满歧义的真实世界任务
  • 前沿实验室刷benchmark的手段:有些通过泄露数据、调整system prompt、调整评估时模型运行次数
"模型能拿IMO数学金牌但仍然解析不好PDF——这太疯狂了。因为IMO虽然难,但它有客观性,方便模型针对性爬坡。"

AI正在被优化成"超市小报"——LM Arena与多巴胺陷阱

核心论点:行业正在用错误的激励机制把AI模型训练成追求多巴胺的谄媚机器,而非追求真理的工具。

  • LM Arena 问题:随机用户2秒钟扫一眼就投票,根本不factcheck,选的是"看起来最花哨的"
  • 爬LM Arena最简单的方法:加倍emoji数量、三倍响应长度、加粗和markdown标题——即使模型开始全面hallucinate
  • "这实际上是在为超市里买八卦小报的那类人优化模型"
  • 研究员的困境:"我升职的唯一方式就是爬这个排行榜——即使我知道这会损害模型的准确性和指令遵循能力"
  • 社交媒体前车之鉴:Edwin在Twitter工作时,每次优化engagement都产生糟糕后果——clickbait、比基尼照片、大脚怪充斥feed
  • ChatGPT的谄媚问题:"You're absolutely right! What an amazing question!" → 喂养用户的妄想和阴谋论
  • "硅谷热爱最大化time spent——让你跟模型的对话越多越好"
"我们实际上是在为超市里买八卦小报的那类人优化模型。加倍emoji数量是爬LM Arena最简单的方法。"

反硅谷创业哲学——不融资、不pivot、只做命中注定的事

核心论点:硅谷的标准剧本(快速pivot+blitz scale+融资造势)正在产生大量没有使命感的"跟风公司",真正有影响力的公司来自深度信念。

  • Edwin对硅谷标准剧本的逐一反驳:
  • "每两周pivot一次找PMF" → 不要pivot,坚持你相信的事
  • "尽快blitz scale" → 不要blitz scale,保持小而精
  • "招那个想给简历加一行的Stanford毕业生" → 不要招
  • "硅谷爱嘲笑华尔街只看钱,但硅谷大部分人在追同样的东西"
  • 跟风者画像:"2020年做crypto,2022年pivot到NFT,现在又是AI公司——没有一致性,没有使命"
  • Edwin 的创业美学:"创业本应是冒大险去做你真正相信的事。如果因为市场还没准备好而失败,那比pivot成另一个LLM wrapper公司好一万倍"
  • "只做没有你就不会存在的公司——那个只有你的洞察力和经验才能创造的东西"
"硅谷爱嘲笑华尔街只看钱。但老实说,硅谷大多数人在追同样的东西。"

RL环境——训练下一代模型的"虚拟世界"

核心论点:RL环境是模型训练的下一个范式——构建模拟真实世界的完整宇宙,让模型在端到端任务中学习。

  • 什么是RL环境:本质上是真实世界的仿真,像一个"全面的电子游戏"
  • 创业公司宕机示例:构建一个世界,其中有Gmail消息、Slack线程、Jira工单、GitHub PR和完整代码库——然后AWS宕机、Slack也宕机——"模型,你怎么办?"
  • 金融分析师示例:Excel电子表格+Bloomberg终端+计算器→奖励=特定单元格(B22)是否包含正确的P&L数字
  • RL环境暴露了模型的真实短板:"单步工具调用很好,但扔进复杂世界中,需要在step 1的行为影响step 50的长时间跨度任务中——模型就灾难性地失败了"
  • 这比传统benchmark更接近人类学习方式:"我们试东西,看什么有效什么无效"

后训练演进史:SFT → RLHF → Rubrics → RL Environments

核心论点:模型后训练经历了四个阶段,每一阶段不是替代前者而是增加新的学习维度。

| 阶段 | 方法 | 人类学习类比 |

|------|------|------------|

| 阶段1 | SFT (Supervised Fine-Tuning) | 模仿大师,照葫芦画瓢 |

| 阶段2 | RLHF | 写55篇论文,有人告诉你最喜欢哪篇 |

| 阶段3 | Rubrics & Verifiers | 被打分并获得详细反馈 |

| 阶段4 | RL Environments | 被扔进真实世界仿真中自己摸索 |

  • 每个新阶段补充而非替代之前的方法
  • 角色转变:专家不再是"坐在那里写rubric打分",而是设计RL环境

Trajectory(轨迹)的重要性:

  • 模型有时通过瞎试50次碰巧得到正确答案——这种路径不应被奖励
  • 如果只检查最终答案,会丢失中间步骤中大量可教学的信息
  • "有时你希望模型通过反思到达正确答案,有时你希望它一次就对"

模型将因公司价值观而分化——完美邮件 vs 时间优化的悖论

核心论点:AI模型不会走向同质化——相反,它们会因背后公司的价值观和目标函数而越来越不同。

  • Edwin一年前认为所有模型会commoditize——现在改变了看法
  • 邮件悖论:用Claude写邮件,经过30个版本、花了30分钟得到"完美"邮件——然后意识到花30分钟做了一件根本不重要的事
  • 核心问题:"你想要哪种模型行为?"
  • A型:永远说"你说得对!还有20种方式可以改进"→ 最大化engagement
  • B型:说"不,停下来。你的邮件已经很好了。发出去"→ 优化时间和生产力
  • 类比:Google搜索 vs Facebook搜索 vs Apple搜索——因公司价值观不同会有根本不同的产品
  • Anthropic在这方面"最有原则"
"你想要一个说'绝对正确,还有20种方法改进这封邮件'的模型?还是一个说'停下来,你的邮件很好了,发出去'的模型?"

AGI时间线与未来预测——十年级别而非两三年

核心论点:AGI距离我们是十年或几十年,而非一两年——因为从80%到99.9%的每一步提升都指数级更难。

  • Edwin 在"更长时间线"阵营
  • 关键论证:从80%→90%→99%→99.9%的进步是非线性递增的困难度
  • 1-2年内:自动化80%的平均L6软件工程师工作
  • 再几年:到90%
  • 再几年:到99%
  • Edwin认为LLM本身不足以达到AGI——需要新的突破
  • 类比生物学:人类有一百万种学习方式,模型需要能模拟所有这些方式

数据训练如同养育孩子——Surge的人类使命

核心论点:训练AI不是简单的"数据标注",而更像养育一个孩子——教给它价值观、创造力和关于"好"的无穷微妙定义。

  • Edwin讨厌"data labeling"这个词——它给人"标注猫狗照片"的印象
  • 更准确的类比:"养育孩子"——教价值观、创造力、什么是美
  • 目标函数哲学:简单版=SAT高分;深层版=你想让他们成为什么样的人?
  • "你就是你的目标函数"
  • 对比:训练让我们更好奇、更有创造力的系统 vs 训练让我们更懒的系统
"我经常思考我们在做的事情——它更像是人类在养育自己的孩子。"

Edwin的背景与创业故事

  • MIT 学数学和CS,选MIT是因为"那是Chomsky的地方"
  • 梦想:"如果外星人来地球需要破解他们的语言,我想做那个人"
  • 在Google、Facebook、Twitter当研究员时反复遇到同一个问题:"拿不到高质量训练数据"
  • GPT-3在2020年发布后一个月内创办Surge
  • 从未想过自己会创业——以为意味着"整天看财报、开会"
  • "宁愿做Terence Tao也不愿做Warren Buffett"

Surge的研究团队——数据公司中的罕见配置

  • 两类研究员:
  • 前线部署型:与客户协作,帮客户理解模型短板
  • 内部型:构建更好的benchmark和leaderboard
  • Edwin: "我更多地把我们当研究实验室而非创业公司"

未被充分关注的 vs 被过度炒作的

Underhyped: Chatbot内置mini-app——Claude Artifacts的进化方向

Overhyped: Vibe coding——长期会导致系统不可维护

附录:推荐书籍与个人偏好

| 类别 | 推荐 |

|------|------|

| 书1 | Story of Your Life (Ted Chiang) — 电影《降临》原著 |

| 书2 | The Myth of Sisyphus (Camus) |

| 书3 | Le Ton Beau de Marot (Hofstadter) — 一首法语诗的89种翻译 |

| 剧集 | Travelers |

| 电影 | Contact |

| 产品 | Waymo |

| 格言 | "创造只有你能创造的东西" |