← 返回
57 min 2026-05

Anjney Midha and Mike Abbott - Stanford CS 153 Office Hours, Episode 1

概要

a16z 合伙人 Anjney Midha 与 Mike Abbott 在 Stanford CS 153 首次直播答疑中讨论 scaling laws 适用边界、GPU 集群 4K 卡新门槛、通用内核愿景、企业系统采购模式、行动预测模型以及创业文化与信任。

核心洞察

  • Scaling laws 成立但有前提:在编程、材料科学、视觉智能等可验证领域 scaling laws 确实成立,但不是"多投一个单位算力 = 多获一个单位能力",而是"算力 + 合适数据 = 可预测提升";在海洋学等新前沿领域尚处研究阶段,不应过早砸算力。
  • GPU 集群门槛已升至 4K-6K 卡:几年前 512 卡集群还算大(年耗七八百万美元),现在做有意义的规模化研究最少需要 4K-6K 卡起步,且需要能扩展到 16K-20K;旧 H100 对推理和小规模研究仍有价值。
  • 企业正从"模型采购"转向"系统采购":CISO/CTO/CEO 在寻找少数可信的 AI 原生合作伙伴建立伞式关系(如 ASML 选 Mistral),不再逐个购买模型;安全性是存亡级护城河。
  • Action prediction 模型是下一个大方向:将视频模型从"生成下一帧"改为"生成下一个动作",可桥接软件和物理世界;自动驾驶、computer use、机器人都是实例;BFL 等开源模型即将可用。
  • "前置部署研究"取代"前置部署工程":成功的 AI 部署需要的不再是传统集成工程师,而是懂 ML pipeline、能构建 eval、做 RL 数据策划的研究型人才。

Scaling Laws 的真正含义:可验证领域成立,新前沿尚需找到正确架构

核心要点:Scaling laws 不是"算力越多能力线性增长",而是"正确架构 + 正确数据表征 + 算力 = 可预测提升";在找到架构突破前过早扩展算力是在烧钱。

  • 编程领域:scaling laws 成立且持续
  • 材料科学(Periodic):成立——验证材料性质时,模型在物理和化学方面整体变好
  • 视觉智能:成立(Andy 的讲座佐证)
  • 海洋学等新前沿:不清楚算力是否直接相关,"大概比前沿领域落后两三年",还处于研究阶段
  • Transformer 证明比预期更可扩展,但"不意味着你应该在准备好之前就往问题上砸算力"
  • 关键概念:compute optimal scaling——第一次做某事很贵,第二、第三次总是更便宜(DeepSeek 不是第一个推理模型,而是第三个)
"There's nothing that can replace finding the right architecture and algorithm to learn efficiently." —— Anjney Midha

GPU 集群新门槛:4K 卡起步,通用内核是终极愿景

核心要点:今天做有意义的前沿训练研究,集群最少需要 4K-6K 卡起步且能扩展到 16K-20K;终极愿景是"通用内核"——算力完全抽象化,研究者只说"部署",AI 自动处理底层芯片组和调度。

  • 512 芯片集群(年耗 $7-8M)几年前算大,现在对认真做训练的团队"几乎太小了"
  • AMP 兴奋的形态:4K 起步但能扩展到 16K-20K 的集群
  • 旧 H100 的价值:推理 + 低于规模的研究
  • 通用内核愿景:跟 Claude 说"这个消融实验效果好,部署",AI 搞定所有底层——芯片组、调度、自动扩展
  • 供应商短期可能没动力做标准化,但历史规律(AC/DC 标准化)表明标准化让生产力更高、需求更大
  • 训练 vs 推理的区别正在消失——RL rollouts 本身就是推理,推理是训练预算的一部分;方向是"一个大的灵活算力池"
"Training vs inference, RL vs non-RL, GPU vs CPU — these are just classifications at a point in time." —— Anjney Midha

企业 AI 采购:从"买模型"到"选信任伙伴"的系统采购

核心要点:企业正从点状模型采购转向系统采购——选少数几个 AI 原生信任伙伴建立伞式合作关系;安全性是存亡级护城河,一次数据泄露可能致命。

  • ASML 选 Mistral 作为主要 AI 合作伙伴——不是点解决方案,而是整个公司一大堆用例的伞式合作
  • 企业 CISO/CTO/CEO(非 AI 行业)在找"少数可信的 AI 原生合作伙伴"
  • 逐个买模型"太复杂、太痛苦"——企业没有那个专业能力,安全拼接是噩梦
  • 合作伙伴需要多模型冗余——跟多云策略类似
  • 安全事件(如 Merkore)后果:企业说"我能信任你吗?我得收回到内部来做"——信任损失是存亡级的
  • Fortune 1000 科技行业以外的公司(如 General Motors/Mary Barra)都在走这条路
"Security is the moat. If you lose that trust, it's existential." —— Anjney Midha

数据护城河路径:新前沿 + 敏感数据 + 小数据集后训练

核心要点:没有专有数据的创业公司有两条路——发掘从未被这样表征过的新前沿数据组合,或者进入大厂无法触及的敏感数据领域;后训练飞轮只需几千个精心制作的样本。

  • 路径一:新前沿——不同数据集的新组合(如个人笔记 + 心电图传感器 + 日历),在上面可以"非常快地提升智能"
  • 路径二:敏感数据——关键任务的政府/军事数据(Mistral 在欧洲的优势),企业不愿分享的数据
  • DeepSeek 证明后训练飞轮只需"几千个精心制作的样本"
  • 案例:a16z 十年投资备忘录如果用于 fine-tune,理论上能得到擅长那种写作风格的模型
  • 个人数据池也是机会:最新一代 MacBook 可以做有意义的本地数据生成
  • 开源模型是"搭便车"的方式——Gemma、中国模型、Nemotron、Mistral、Marin(Stanford/Percy Liang 的完全开源 LLM)

可验证性决定进展速度:物理可测 > 定性领域

核心要点:AI 进展在"现实可验证"的领域最快——物理性质可测量的材料科学、机器人学、工业工程;创意写作是最难的,模型仍然很差。

  • 最快领域:材料科学(测电阻)、机器人学(物理验证合成任务)、工业工程(定量指标)
  • Eval 方法:① 直接物理测量 ② 有无 agent 的生产力对比(科学家完成任务时间)
  • 最难领域:创意写作——"模型在创意写作方面仍然很差,我不确定会不会进步"
  • 潜在方向:精心策划的品味数据集 + 足够算力 → 也许能得到"有品味的写作模型"
  • 可解释性(mechanistic interpretability)是"AI 研究中最令人兴奋的探索不足的领域"——能提高可靠性
  • 挑战:需要模型权重访问,呼吁建立全行业机构让闭源提供商向可解释性研究者开放模型

Action Prediction 模型:视频模型 → 动作生成,桥接软件与物理世界

核心要点:将视频模型从"生成下一帧"改为"生成下一个动作"是超级强大的基元——动作可以是键盘按键(computer use)也可以是机器人手臂运动;递归能力让持续自动化成为可能。

  • 核心转变:next token / next video frame → next action
  • 动作是通用的:键盘操作(computer use)、机器人手臂、自动驾驶方向盘
  • 递归能力:模型生成动作 → 执行 → 结果反馈回模型 → 下一个动作
  • 以前需要"好几年才能自动化的事情,用 action prediction 模型可以在几周到几个月内完成"
  • BFL(Black Forest Labs)在这个方向有重大投入,开源模型即将可用
  • 最后一公里仍需人类工作:不同具身形态(双足/单体等)的集成定制
  • 机会:凡是有"持续数据驱动机器人运动或某种变化"的工厂产线
"If you replace next token with next action, that is an incredibly powerful primitive." —— Anjney Midha

前置部署研究:成功 AI 部署需要的不再是传统工程师

核心要点:大部分成功的 AI 部署都有很重的服务组件;做集成的人需要懂 ML pipeline、构建 eval、做 RL 数据策划——这是"前置部署研究"而非传统的"前置部署工程"。

  • 传统 forward deployed engineer(Palantir 时代概念)已进化为 forward deployed researcher
  • 区别:需要理解如何构建正确的 eval、如何用正确数据集做 RL、如何做好 representation
  • 课程最终收敛方向:好的基础模型 + 为任务策划数据集 + 最后一公里
  • Mike Abbott 在 Apple(Craig Federighi 团队)、General Motors(19000 人)、Twitter 的经验:CEO 知道需要 AI 人才但很难吸引
  • 创业机会:与 GM 这样的公司合作解决特定问题,希望能泛化到其他领域

文化与财务纪律:创业公司最常见的致命失败模式

核心要点:文化一旦搞砸很难恢复——领导层说到做不到会导致团队失去信任;财务纪律必须从第一天开始,三年后再加入"非常非常困难"。

  • 失败模式一:文化崩塌——"说了要做某事却没做到",团队给一两次宽容机会,之后信任消失
  • 失败模式二:止痛药 vs 维生素——如果产品对客户不是必需品,再好的文化也会死
  • 失败模式三:财务纪律缺失——"花钱是否像花自己的钱?"1999 年公司案例:3 年后裁 180/220 人
  • 公路旅行比喻:创始人坐驾驶座,偶尔绕弯("欣赏风景")可以,但乘客需要信任最终会回到高速公路
  • 使命对齐是关键:"我们可能没有最高薪酬,但这是真正重要的使命,我们有最好的团队"
  • 钱应该花在:人 + 算力;大团队难管理,"人的花费不会规模化增长太多,因为那会伤害文化"
"If you take a lick of the lollipop of mediocrity, you will suck forever." —— 引用

兴奋的创业方向:意想不到的非科技领域 + 再保险 + 风险评估

核心要点:鼓励去那些"历史上有过技术但没有过真正工程团队"的意想不到领域创业——再保险、制药(实验室内部)、工业承保等有大量历史数据可做回测验证。

  • Anjney 近期关注:再保险、Merck(药物发现之外的实验室内部机会)
  • 核心问题:"构建一个 AI 承保人意味着什么?把所有人类判断都去掉?"
  • 风险评估是"绝对的大方向"——历史上用过模型但"已过时",现在有更多数据集可用
  • 优势:大量历史数据可做回测验证 → 可验证 → 进展快
  • 美中 AI 基础设施已分离 15 年(自防火长城起)——不是新趋势
  • 信任通过开放标准规模化:SOC 合规 → Vanta 使认证便捷化;AI 领域也需要类似标准