57 min 2026-05

Anjney Midha and Mike Abbott - Stanford CS 153 Office Hours, Episode 1

CS 153: Frontier Systems · Anjney Midha · Mike Abbott

概要

a16z 合伙人 Anjney Midha 与 Mike Abbott 在 Stanford CS 153 首次直播答疑中讨论 scaling laws 适用边界、GPU 集群 4K 卡新门槛、通用内核愿景、企业系统采购模式、行动预测模型以及创业文化与信任。

核心洞察

Scaling laws 成立但有前提：在编程、材料科学、视觉智能等可验证领域 scaling laws 确实成立，但不是"多投一个单位算力 = 多获一个单位能力"，而是"算力 + 合适数据 = 可预测提升"；在海洋学等新前沿领域尚处研究阶段，不应过早砸算力。
GPU 集群门槛已升至 4K-6K 卡：几年前 512 卡集群还算大（年耗七八百万美元），现在做有意义的规模化研究最少需要 4K-6K 卡起步，且需要能扩展到 16K-20K；旧 H100 对推理和小规模研究仍有价值。
企业正从"模型采购"转向"系统采购"：CISO/CTO/CEO 在寻找少数可信的 AI 原生合作伙伴建立伞式关系（如 ASML 选 Mistral），不再逐个购买模型；安全性是存亡级护城河。
Action prediction 模型是下一个大方向：将视频模型从"生成下一帧"改为"生成下一个动作"，可桥接软件和物理世界；自动驾驶、computer use、机器人都是实例；BFL 等开源模型即将可用。
"前置部署研究"取代"前置部署工程"：成功的 AI 部署需要的不再是传统集成工程师，而是懂 ML pipeline、能构建 eval、做 RL 数据策划的研究型人才。

Scaling Laws 的真正含义：可验证领域成立，新前沿尚需找到正确架构

核心要点：Scaling laws 不是"算力越多能力线性增长"，而是"正确架构 + 正确数据表征 + 算力 = 可预测提升"；在找到架构突破前过早扩展算力是在烧钱。

编程领域：scaling laws 成立且持续
材料科学（Periodic）：成立——验证材料性质时，模型在物理和化学方面整体变好
视觉智能：成立（Andy 的讲座佐证）
海洋学等新前沿：不清楚算力是否直接相关，"大概比前沿领域落后两三年"，还处于研究阶段
Transformer 证明比预期更可扩展，但"不意味着你应该在准备好之前就往问题上砸算力"
关键概念：compute optimal scaling——第一次做某事很贵，第二、第三次总是更便宜（DeepSeek 不是第一个推理模型，而是第三个）

"There's nothing that can replace finding the right architecture and algorithm to learn efficiently." —— Anjney Midha

GPU 集群新门槛：4K 卡起步，通用内核是终极愿景

核心要点：今天做有意义的前沿训练研究，集群最少需要 4K-6K 卡起步且能扩展到 16K-20K；终极愿景是"通用内核"——算力完全抽象化，研究者只说"部署"，AI 自动处理底层芯片组和调度。

512 芯片集群（年耗 $7-8M）几年前算大，现在对认真做训练的团队"几乎太小了"
AMP 兴奋的形态：4K 起步但能扩展到 16K-20K 的集群
旧 H100 的价值：推理 + 低于规模的研究
通用内核愿景：跟 Claude 说"这个消融实验效果好，部署"，AI 搞定所有底层——芯片组、调度、自动扩展
供应商短期可能没动力做标准化，但历史规律（AC/DC 标准化）表明标准化让生产力更高、需求更大
训练 vs 推理的区别正在消失——RL rollouts 本身就是推理，推理是训练预算的一部分；方向是"一个大的灵活算力池"

"Training vs inference, RL vs non-RL, GPU vs CPU — these are just classifications at a point in time." —— Anjney Midha

企业 AI 采购：从"买模型"到"选信任伙伴"的系统采购

核心要点：企业正从点状模型采购转向系统采购——选少数几个 AI 原生信任伙伴建立伞式合作关系；安全性是存亡级护城河，一次数据泄露可能致命。

ASML 选 Mistral 作为主要 AI 合作伙伴——不是点解决方案，而是整个公司一大堆用例的伞式合作
企业 CISO/CTO/CEO（非 AI 行业）在找"少数可信的 AI 原生合作伙伴"
逐个买模型"太复杂、太痛苦"——企业没有那个专业能力，安全拼接是噩梦
合作伙伴需要多模型冗余——跟多云策略类似
安全事件（如 Merkore）后果：企业说"我能信任你吗？我得收回到内部来做"——信任损失是存亡级的
Fortune 1000 科技行业以外的公司（如 General Motors/Mary Barra）都在走这条路

"Security is the moat. If you lose that trust, it's existential." —— Anjney Midha

数据护城河路径：新前沿 + 敏感数据 + 小数据集后训练

核心要点：没有专有数据的创业公司有两条路——发掘从未被这样表征过的新前沿数据组合，或者进入大厂无法触及的敏感数据领域；后训练飞轮只需几千个精心制作的样本。

路径一：新前沿——不同数据集的新组合（如个人笔记 + 心电图传感器 + 日历），在上面可以"非常快地提升智能"
路径二：敏感数据——关键任务的政府/军事数据（Mistral 在欧洲的优势），企业不愿分享的数据
DeepSeek 证明后训练飞轮只需"几千个精心制作的样本"
案例：a16z 十年投资备忘录如果用于 fine-tune，理论上能得到擅长那种写作风格的模型
个人数据池也是机会：最新一代 MacBook 可以做有意义的本地数据生成
开源模型是"搭便车"的方式——Gemma、中国模型、Nemotron、Mistral、Marin（Stanford/Percy Liang 的完全开源 LLM）

可验证性决定进展速度：物理可测 > 定性领域

核心要点：AI 进展在"现实可验证"的领域最快——物理性质可测量的材料科学、机器人学、工业工程；创意写作是最难的，模型仍然很差。

最快领域：材料科学（测电阻）、机器人学（物理验证合成任务）、工业工程（定量指标）
Eval 方法：① 直接物理测量 ② 有无 agent 的生产力对比（科学家完成任务时间）
最难领域：创意写作——"模型在创意写作方面仍然很差，我不确定会不会进步"
潜在方向：精心策划的品味数据集 + 足够算力 → 也许能得到"有品味的写作模型"
可解释性（mechanistic interpretability）是"AI 研究中最令人兴奋的探索不足的领域"——能提高可靠性
挑战：需要模型权重访问，呼吁建立全行业机构让闭源提供商向可解释性研究者开放模型

Action Prediction 模型：视频模型 → 动作生成，桥接软件与物理世界

核心要点：将视频模型从"生成下一帧"改为"生成下一个动作"是超级强大的基元——动作可以是键盘按键（computer use）也可以是机器人手臂运动；递归能力让持续自动化成为可能。

核心转变：next token / next video frame → next action
动作是通用的：键盘操作（computer use）、机器人手臂、自动驾驶方向盘
递归能力：模型生成动作 → 执行 → 结果反馈回模型 → 下一个动作
以前需要"好几年才能自动化的事情，用 action prediction 模型可以在几周到几个月内完成"
BFL（Black Forest Labs）在这个方向有重大投入，开源模型即将可用
最后一公里仍需人类工作：不同具身形态（双足/单体等）的集成定制
机会：凡是有"持续数据驱动机器人运动或某种变化"的工厂产线

"If you replace next token with next action, that is an incredibly powerful primitive." —— Anjney Midha

前置部署研究：成功 AI 部署需要的不再是传统工程师

核心要点：大部分成功的 AI 部署都有很重的服务组件；做集成的人需要懂 ML pipeline、构建 eval、做 RL 数据策划——这是"前置部署研究"而非传统的"前置部署工程"。

传统 forward deployed engineer（Palantir 时代概念）已进化为 forward deployed researcher
区别：需要理解如何构建正确的 eval、如何用正确数据集做 RL、如何做好 representation
课程最终收敛方向：好的基础模型 + 为任务策划数据集 + 最后一公里
Mike Abbott 在 Apple（Craig Federighi 团队）、General Motors（19000 人）、Twitter 的经验：CEO 知道需要 AI 人才但很难吸引
创业机会：与 GM 这样的公司合作解决特定问题，希望能泛化到其他领域

文化与财务纪律：创业公司最常见的致命失败模式

核心要点：文化一旦搞砸很难恢复——领导层说到做不到会导致团队失去信任；财务纪律必须从第一天开始，三年后再加入"非常非常困难"。

失败模式一：文化崩塌——"说了要做某事却没做到"，团队给一两次宽容机会，之后信任消失
失败模式二：止痛药 vs 维生素——如果产品对客户不是必需品，再好的文化也会死
失败模式三：财务纪律缺失——"花钱是否像花自己的钱？"1999 年公司案例：3 年后裁 180/220 人
公路旅行比喻：创始人坐驾驶座，偶尔绕弯（"欣赏风景"）可以，但乘客需要信任最终会回到高速公路
使命对齐是关键："我们可能没有最高薪酬，但这是真正重要的使命，我们有最好的团队"
钱应该花在：人 + 算力；大团队难管理，"人的花费不会规模化增长太多，因为那会伤害文化"

"If you take a lick of the lollipop of mediocrity, you will suck forever." —— 引用

兴奋的创业方向：意想不到的非科技领域 + 再保险 + 风险评估

核心要点：鼓励去那些"历史上有过技术但没有过真正工程团队"的意想不到领域创业——再保险、制药（实验室内部）、工业承保等有大量历史数据可做回测验证。

Anjney 近期关注：再保险、Merck（药物发现之外的实验室内部机会）
核心问题："构建一个 AI 承保人意味着什么？把所有人类判断都去掉？"
风险评估是"绝对的大方向"——历史上用过模型但"已过时"，现在有更多数据集可用
优势：大量历史数据可做回测验证 → 可验证 → 进展快
美中 AI 基础设施已分离 15 年（自防火长城起）——不是新趋势
信任通过开放标准规模化：SOC 合规 → Vanta 使认证便捷化；AI 领域也需要类似标准