← 返回
VIDEO INSIGHT

GPU 神话:Lambda CTO Stephen Balaban 拆解 2026 年 AI 算力真相

日期
2026-06
时长
75 min

概要

  • "GPU 算力会变成大宗商品"是过去几年硅谷最大的误判之一,而且唱衰者"从头到尾一直错"。Balaban 的核心反驳是:云算力根本不是商品,而是一项从土地授权、建设、HPC 设计、软件虚拟化到云服务的高度垂直整合服务——正因为它是门好生意,全球市值最高的那几家公司(亚马逊、微软、谷歌、甲骨文)才都在做云。所谓"H100 租金在跌"也是假象:长期租约价和按需价其实稳定甚至上涨,指数下跌只是统计口径里长约占比变大造成的 mix 错觉。
  • 算力不是建多了,而是一直建得不够。支撑这个判断的是两件事:scaling law 看不到尽头(投入更多算力→更高智能),以及可寻址市场的"锥形"在不断扩张(从客服、搜索替代,扩到替代/增强整个软件工程)。即便模型效率提升 10 倍,结论也不变——大家只会去处理 10 倍的 token,世界上任一时刻的固定算力总量不变(Jevons 悖论)。Balaban 早年"投钱进去、软件出来"的预测,如今被 Opus 4/5 兑现。
  • neo cloud 真正的护城河是大多数人看不见的软件,不是堆 GPU。Lambda 的 one-click cluster 能在网页上开 16 到 4000 个 GPU,而多数 neo cloud 要么不能从网站开集群、要么上限 32 个。要把上万 GPU 的集群按客户切分,必须同时分区 in-band 网络、out-of-band 监控网络和 compute fabric 三层,还要用 RDMA 让 GPU 显存直接互读——这是"高几千万到几亿美元"的软件投入,多数同行根本没有。
  • GPU 是被严重低估的优质资产,不是 3-5 年就报废的耗材。Balaban 直接点名唱衰者"完全错":2023 年部署的 H100 如今的租金比当年原价还高;多数公司用 6 年会计折旧,但经济可用寿命更长,Lambda 是唯一一家拥有"已完全折旧但仍在赚钱"GPU 的 neo cloud。信贷市场正快速成熟,把 Nvidia GPU 当成一种易于承销的成熟资产类别。
  • 最反直觉的远景:AI 不会写软件,AI 会成为软件。贯穿全场的,是 Balaban 用"工程师思维"去重构一个历来由地产和金融主导的行业——从把数据中心部署速度逼到 SpaceX 级别,到 neural OS(神经操作系统)这种"没有代码在运行、不可能有 bug 只有误解"的全新软件形态。他预测 neural software 大规模采用还要 10-15 年,但原型今天已经存在。
01

GPU 算力从来不是大宗商品——唱衰者"一直错"

核心论点:云算力是一项跨越土地、建设、HPC、软件的高度垂直整合服务,把它当商品看待是最根本的误解。

  • 几年前硅谷的主流共识是"neo cloud 会变成大宗商品,因为 GPU 算力会被商品化";快进到今天,Lambda 和多家竞争对手都在"狂飙猛进",事实正好相反。
  • Balaban 的解释:云算力是"一项非常复杂、高度垂直整合的服务,横跨从土地→土地授权→建设→HPC 高性能计算设计→软件虚拟化→其上的云服务"的每一层。全球那几家万亿市值公司(Amazon、Microsoft、Google、Oracle)都在做云,正因为这是门好生意。被误解的本质是:"它其实就是一项为 AI 时代设计的云服务。"
  • 关于"GPU 租金确实在跌",他拆穿了统计陷阱:市场上有两种价格——公有云按需价和长期租约价。Bloomberg 上的 H100 租金指数若把长约当成更大的成交量权重,当 mix 偏向长约时,指数就会"看起来在跌",而现实是长约价和按需价都稳定甚至在涨。
"唱衰者说'你这些 GPU 5 年后就得扔掉'——他们完全错了。他们完全错了,而且从头到尾一直错。" —— Stephen Balaban
02

持续在"建得不够":scaling law 没尽头,效率提升只会放大需求

核心论点:算力不是过剩而是长期不足,因为 scaling law 仍然成立、可寻址市场的锥形在持续扩张,且效率提升只会被 Jevons 悖论吃掉。

  • Balaban 判断行业"持续地、普遍地建得不够",neo cloud 的领导者们都已认识到大模型那种"贪得无厌"的需求——从当助理到代码生成。
  • 他翻出自己早年的预测:"再过几个月到几年,我们会到一个'投钱进去、软件从另一端出来'的时间点。"当年这个信念远没那么被普遍接受,而如今 Opus 4/5 的发布让"我们有一个能把钱变成软件的惊人系统"变得很清楚。
  • 让他笃定需求会持续的底层逻辑是 scaling law——投入更多算力/数据,就训出更强智能;只要它成立,可寻址市场的"锥形"就会扩张:最早只是"对客服有帮助、是谷歌搜索的替代品",现在已是"对大量软件工程岗位的替代或巨大增强"。锥形越张,算力总需求越大,"而我们一直在低估它"。
  • 对"模型效率提升 10 倍会不会让建设过剩"的担忧,他用 Jevons 式回答:效率提升 10 倍,只意味着每个人能处理 10 倍的 token,任一时刻世界上的固定算力总量不变。他还回忆 2017 年的老担忧——会不会出现某种像随机森林那样"能在 MacBook 上训练"的颠覆性新模型架构,从侧面瓦解算力需求;但至今没出现,而行业一切都建立在"扩展这个架构"的 scaling law 之上。
03

主要瓶颈是 land power shell,反对声浪多源于误信息

核心论点:当前行业最大瓶颈是"已授权兆瓦的土地"加 MEP 设备;公众对数据中心的反对很大程度建立在过时的耗水误解上。

  • 瓶颈"总是先局部、后全局"——某个站点可能卡在发电机或 UPS 系统上,那是站点的特异性。但全行业范围内,主瓶颈是 land power shell:即已经从公用事业拿到一定兆瓦承诺授权的土地,再加上进入数据中心的 MEP(机械、电气、管道)设备。
  • 对数据中心的反对"在新闻里很火、也确实很真实"。Balaban 说他花大量时间读社区评论,发现人们真正想要的是工作、税收,以及"在项目开发时有一个能上桌发声的位置"——任何大型资本项目都会带来可观税收、就业和投资。
  • 他重点辟谣"耗水"误解:每一套现代 Blackwell / Rubin 级 GPU 部署,几乎都用闭环直触芯片液冷连接干冷器(dry cooler),几乎零蒸发、不消耗大量水;会大量蒸发水的是蒸发冷却塔,而美国几乎没有新建项目在用蒸发冷却。此外数据中心还往往给电网带来表后电力、电池储能等增益,长期还能稳住社区电价。
  • 应对之道很朴素:"把好处写下来、把代价写下来,清清楚楚地呈现给社区,让他们自己做好决定。"
"人们会说数据中心消耗大量水。蒸发冷却塔确实会蒸发很多水,但美国实际上几乎没有新建项目用蒸发冷却——用的是闭环直触芯片液冷。" —— Stephen Balaban
04

算力的物理学:从光子到 token 的完整链路

核心论点:理解算力最好从物理量纲入手,把"发电→数据中心→芯片→token"看成一条带多重效率环节的流水线。

  • Balaban 喜欢用 SI 物理量纲来拆解:链路最左端是能量生产——每秒进来的光子(太阳能)或每秒进来的天然气分子;经发电厂/光伏转换成"焦耳/秒",也就是瓦,即电功率。
  • 这些瓦被整个数据中心消耗,数据中心要给自己降温,这一环节的效率指标是 PUE(衡量数据中心的关键效率)。
  • 服务器、网络、存储设备把电力转成每秒浮点运算(flops/秒);模型训练或推理消耗的就是 flops/秒 的容量,再转成 token/秒
  • 最末端,终端客户还有一层"把 token 真正转化为实际智能"的效率;链路上端则有 MFU(Model FLOPs Utilization)这样的效率百分比。"这就是端到端的整条流水线。"
05

同样的芯片,怎么榨出更多价值:利用率与零售/批发价差

核心论点:单 GPU 小时成本里折旧占大头,而利用率是折旧的倒数乘子;能收到零售价的关键是有人愿意用的云软件。

  • 拆一个 GPU 小时(以 H100 为例)的成本结构,最大头是与这个 GPU 小时关联的折旧。利用率相当于折旧上的一个"1/利用率"乘子——如果你只用了 50% 的时间,那每小时的折旧费用就翻倍(1/0.5)。
  • 所以企业获得独特优势的第一途径就是:"我怎么造一个用户真心喜爱、能拉高利用率的云产品?"
  • 第二是零售/批发价差:零售(按需开关一个 GPU 的普通云服务)的定价远高于批发(比如一次买 1 万个 GPU、用 5 年)。Lambda 要做的就是从资本部署里榨出最高的"美元利用率和百分比利用率"。
  • 关键卡点在软件:"如果你没有那套云软件,你就收不到零售价——你没法把它按小时租给别人,因为你压根没有这个能力。"而很多 neo cloud 恰恰就处在"连跑一个真正云服务的基础设施都没有"的境地。
06

把 GPU 连成网络:NVL72、spine-leaf 与 frontier inference

核心论点:现代 AI 数据中心的关键不是有 GPU,而是把 GPU 连成全连接无阻塞的网络;训练用的基础设施可以复用做分布式推理。

  • 基本结构:一大堆 Nvidia GB300 NVL72 机架(每个 72 个 GPU 经 NVLink 全互联),机架之间用 InfiniBand 或高速以太网连接,形成 spine-leaf 拓扑——完全非阻塞、每个 GPU 的每个端口都能和网络里任何其他 GPU 通信、提供最大带宽。
  • 这种集群既能训练大模型,也能做 Lambda 所说的 frontier inference(前沿推理):一种高度分布式的推理,会按某种分片(sharding)策略把模型拆到多个 GPU 上,靠高速 InfiniBand/以太网互联通信。Balaban 澄清 frontier inference 未必关乎推理模型,而是指"全世界也就三四家公司在做"的超大前沿模型推理。
  • 训练与推理在算力上同构:训练时反向传播约占 2/3 算力,前向传播≈推理。一个重要认知是"为大规模训练准备的基础设施,可以复用来做该模型的推理"。
  • 为什么需要分布式:像 Llama 这样量化后的小模型能装进单个 GPU,但"Opus 和 ChatGPT 5.5 装不进单个 GPU",必须跨服务器分片才能跑哪怕一次前向推理;MoE(专家混合)模型还有把不同专家分配到不同服务器/GPU 的策略。
07

成本栈与 Nvidia 护城河:真正难越的是 cuDNN,不是 CUDA

核心论点:资本栈里服务器(GPU)是绝对大头,而 Nvidia 最深的护城河是软件栈 cuDNN 和 NCCL,而非芯片本身。

  • 按吉瓦拆资本栈:发电 200-300 万美元/兆瓦(即 20-30 亿美元/吉瓦);建数据中心 100-150 亿美元/吉瓦;服务器(算力)350-450 亿美元/吉瓦——服务器是"遥遥领先的最大头",也是折旧的主要来源。其中服务器 BOM 又以 GPU 为主。近期 HBM 内存大幅涨价,而供应商极少,只有 Samsung、Hynix。
  • Lambda 是纯 Nvidia 阵营,理由是 Nvidia 是"唯一一家在每个主要云平台都能买到的芯片供应商",这是巨大的平台优势。其部署过的型号横跨 V100、A100、H100、H200、B200、GH200、GB200、B300,VR200 即将到货。
  • 谈到护城河,Balaban 强调"不只是 CUDA":CUDA 只是"我们都在里面游泳的水",真正难越的是 cuDNN(CUDA 深度神经网络库)——一台为矩阵乘法高度调优的引擎,内置了 Winograd 滤波等大量优化,让你不必自己手调;以及 NCCL(网络优化库)——它能感知 InfiniBand/以太网的拓扑,自动给 reduce-all、broadcast 等用于训练和推理分片的 OpenMPI 原语推荐优化路径。"这套软件栈,是很多芯片新进入者很难逾越的。"
  • 他也承认"我们其实已经身处一个多芯片世界"——全球最大的几家实验室在用多种不同芯片做推理和训练。
"人们常问 Nvidia 的护城河是什么。CUDA 只是我们都在里面游泳的水;他们最大的护城河之一其实是 cuDNN——里面烤进了太多矩阵乘法优化。" —— Stephen Balaban
08

延迟不再重要,全栈垂直整合,融资靠信用与私募信贷

核心论点:AI 异步工作流让延迟变得不重要、只剩每 token 成本;Lambda 正走向全栈垂直整合,并用 SPV/资产抵押贷款把算力打包进私募信贷市场。

  • 延迟祛魅:传统遗留云因为某些应用而极度看重延迟,但这批新的 AI 应用对延迟远没那么敏感——你看自己用 ChatGPT/Claude/Grok/Gemini,很多时候是"丢一个任务出去、过会儿回来拿研究报告"的长任务 agent 工作流,这种情况"延迟完全不重要,唯一重要的是每 token 成本"。唯一的例外是数据主权——很多国家希望本国公民用的 AI 算力跑在本国境内。
  • 垂直整合:Lambda 最初主要是租用方,现在走向全栈垂直整合——自己找地、拿出基础设计(建数据中心的全套工程图)、融资建设、放进服务器,再对接全球大算力消费者的长期 off-take(包销)协议并把一切融资打包。"我们把工程思维带进了这个历来由地产人主导的领域。"目前多为独占租户,暂不打算做对外租赁数据中心的生意。聚焦北美(美/加/墨),有 SK Telecom 投资和首尔数据中心经验,但无意大举进军欧洲或亚洲。
  • 融资栈:拆成两部分——on-demand 云看 Lambda 自身信用,off-take 协议看终端付款客户的信用。做法是把 off-take 协议、一批 GPU、租约/地产"装进一个盒子",到私募信贷市场做资产抵押贷款,多数是为这次部署专设的 SPV(特殊目的载体)。信贷方正越来越懂一颗 Nvidia 芯片的价值。
"2023 年我们部署的 H100,现在租出去的价格比 2023 年最初还要高。" —— Stephen Balaban
09

GPU 寿命神话被打破,算力开始金融化

核心论点:GPU 的经济可用寿命远超会计折旧年限,这正在让它被重估为一种成熟资产类别,并催生算力金融市场的雏形。

  • 需求高确实抬高了市场价格,这是基本规律。但更深层的是寿命误解:有人说 GPU 只有 3-5 年寿命,"完全是假的"。多数公司采约 6 年会计折旧,但那不是可用寿命——经济可用寿命更长。Lambda 作为最早的 neo cloud 之一,是"唯一一家车队里真有从会计角度已完全折旧、却仍在运营赚钱的 GPU"的公司。
  • 这正在改变信贷方的认知:"哇,这是一种非常有价值、而且对我们来说易于承销的资产。"信贷方开始涌向这类交易;过去一年最大的变化,就是大家开始把它当成"更成熟的资产类别"来对待。
  • 关于算力金融化:要先有活跃的现货市场,才谈得上期货等衍生品。Balaban 说已看到有人在研究,但他的看法是"不必搞得太花哨"——当下的关键是这个资产类别刚开始成熟,信贷方对"买 Nvidia GPU 部署进数据中心"的信贷投资越来越自在。
10

Lambda 的狂野起源:从人脸识别到 Lambda 帽子,再到意外做云

核心论点:Lambda 不是规划出来的云公司,而是从一连串与 AI 同行十多年的产品转身中"被账单逼出来"的——这段历史解释了它为何如此工程师驱动。

  • 2012:人脸识别起步。Balaban 2012 年创立 Lambda 做人脸识别软件,用一台从朋友那买来的 4×Nvidia GTX 580 工作站训练卷积网络,在当时是"很前卫"的事,多数人还不相信"深度学习"。他从 Google Code 上拉下 CUDA convnet 仓库把玩("Google Code 还在,足见 Lambda 多老")。AlexNet 论文与 Lambda 同年诞生,"绝非巧合"。人脸识别 API 攒了几千用户,但不怎么赚钱。
  • Perceptio → 被 Apple 收购。并行地,他帮两位刚读完博士的人 Zach 和 Nico 创立 Perceptio、当首位员工,2013 年就用 GPUImage 库和纯 OpenGL ES 着色器在 iPhone 本地跑 convnet。后来公司被 Apple 收购——"你 iPhone 上滑图片就能识别人脸、搜索相册"的功能,可能就源自这次收购。
  • Lambda 帽子:一顶帽檐内嵌摄像头、每 10 秒拍一张照采集人脸数据集的棒球帽。产品本身不算成功,但教会了他做消费电子——他在深圳待过一阵做 PCB,"彻底打开了我对'做生意不只是做 App'的认知"。Matt 点出妙处:快进到今天,"捕捉日常生活来训练 AI"已是一整个赛道。
  • Dreamscope → 被账单逼成云公司。2015-16 年的 Dreamscope 用 Google Deep Dream 和 Leon Gatys 风格迁移把照片变成画作,是"早期版 Midjourney",约 100 万用户、处理约 1500 万张图。这带来约 4 万美元/月的 AWS 账单。为替换它,团队"怕得要死"地做了一笔 6 万美元 CAPEX 自建工作站集群("想着最坏还能把工作站卖了")——结果上线后账单归零、1.5 个月回本。"我们省下的钱比赚的还多,也许我们该去给别的 AI 研究者提供算力。"于是开始卖工作站和服务器:硬件营收 2017 年 300 万→2018 年 1000 万→2019 年 3000 万→峰值约 2 亿美元 run rate;云业务 2019 起步、慢热,如今接近 10 亿美元 run rate,硬件业务已完全退出。
"我们当时怕死了,觉得做这笔 6 万美元的 CAPEX 会让公司倒闭。我们用工作站搭,是想着最坏情况还能把它们卖掉。" —— Stephen Balaban
11

把乐队凝聚在一起:Lambda 黑帮、COVID 与"客户至上"

核心论点:创始团队几乎原班留任并催生了"Lambda 黑帮",靠的是在资本密集、屡受冲击的环境里用"取悦客户"这一条主线把人对齐。

  • 当年做 Dreamscope 的四个人——Balaban、双胞胎兄弟兼联创 Michael Balaban、首席科学家 Shuang Li、工程负责人 Steve Clarkson——如今全都还在公司。第二位招聘 Mitesh Agrawal 待了约 8 年后离开,与前成员 Thomas Summers 创立加速器公司 Positron,如今估值超 10 亿美元——"Lambda 校友/Lambda 黑帮"网络已经成形。
  • 撑过难关靠的是这种资本与营运双密集的生意里"不断挨系统性冲击"的韧性。最典型的是 COVID:软件公司当时很爽(需求暴增、随时能发软件),而硬件公司很惨——码头关闭,三四月份"根本发不出货、收不到营收"。Balaban 记得自己站到团队前面说:"现在真的很难,我们甚至不确定能不能挺过去,但唯一能做的就是咬牙、享受这份痛、冲过去。"
  • 凝聚力的根来自"取悦客户"。他在 onboarding 的 "Lambda 101" 里会放一张图:一只 Linux 企鹅坐在 Lambda 工作站前读 GPT-2 论文、看着训练损失曲线——"把自己代入这只用我们的机器训练神经网络的企鹅,想想什么会取悦它"。于是发货团队在箱子里塞 T 恤、数据中心团队做"白色机架"来彰显自豪——正是这些细节帮公司熬过艰难时刻。
"我们都在这里的唯一原因,就是造出人们想要、并且爱到会跟朋友安利、愿意给你钱的东西。其他一切都从'取悦客户'这件事里自然生长出来。" —— Stephen Balaban
12

新 CEO 与 CTO 转身:把数据中心部署逼到 SpaceX 级速度

核心论点:Balaban 主动让出 CEO、转任 CTO,是为了把自己最热爱的"高速垂直整合部署"做到极致——一个历来由地产人主导、却最该用工程思维重做的环节。

  • Lambda 新引入 CEO Michel Combes(曾任 SoftBank International CEO、Sprint CEO、Alcatel,并在 McLaren 等公司董事会)。Balaban 说能招到这种量级的人才是"作为创始人的巨大荣幸",而他个人"从没有那种非当创始人 CEO 不可的自我执念"——融资、资本运作、日常经营他一直当作必要之事在做,而非真正热爱。他还打趣,私下和创始人 CEO 聊天总忍不住问"你到底有多讨厌……"(Matt 接梗:"居然有人不觉得整天和 VC 聊天令人兴奋,太震惊了")。
  • 转任 CTO 后,他主攻"快速数据中心部署":要把 Lambda 打造成一个垂直整合的高速度引擎。他放话:"放眼世界,能做高速部署的只有两家公司——SpaceX AI 和 Lambda。"提到 Cerebras 约 200 多天的部署记录,他认为可以被追平甚至打破,关键在流程:站点选择的约束集、MEP 流水线、建造方式、如何砍掉流程中的冗余。
  • 他指出根因:过去设计数据中心的多是地产人,"被超大规模厂商揪着脖子"丢去找总包商建一套设计,却完全不懂里面跑什么;而超大规模厂商又是为传统云服务而建——一个现代云 region 有数百种服务(从卫星基站、磁带存储到人脸识别 API),每种都有不同 SKU 和参数。一个要跑 ATM 后端的设计空间,和一个可以容忍更低可用性的 AI 数据中心完全不同——这正是 Lambda 用"AI 优先"的针对性方法创造独特价值的地方。
13

AI 不会写软件,AI 会成为软件:neural OS 与 self-assembling software

核心论点:Balaban 最反直觉的远景是 neural software——LLM 不再生成代码,而是直接"成为"软件;配合 agent,软件开发会变成上线后由用户和 agent 共同持续生长的过程。

  • 怎么体验 neural software:去 ChatGPT 或 Claude 说"给我渲染一个 ASCII 艺术的桌面界面,纯文本里假装你是个操作系统,我说'点这个、打开那个'你就照做"。你会看到 LLM"成为"软件、而非生成软件的未来雏形。它的特点是极度"软"且灵活——"不可能有 bug,只可能有对 prompt 的误解"。再往后会有多模态网络直接生成你屏幕上的每个像素、扬声器里的每段音频波形。
  • 与 vibe coding 的区别:vibe coding 仍是输入 prompt、输出人类可读可编译的静态代码(C/Python 经编译器/解释器),代码一旦生成就不会变;从传统手写代码→vibe coding→即时(just-in-time)vibe coding 是一条渐变带。而 neural OS 是更远的一端——"没有代码在运行,只有神经网络脑中特征激活空间和上下文的修改"。
  • 时间表与已有案例:Lambda 已有 neural software 原型,多家公司和学术界也有。Balaban 自评"我看早的东西通常早 10 到 15 年",预测 neural software 大规模采用还需 10-15 年。但他指出其实今天就存在一种形态:Tesla 自动驾驶这类端到端神经网络做自主决策,本身就是一种 neural software——只不过它的用户体验就是"驾驶体验"。
  • agent 如何改变算力需求:做 agent 实时编程时,wall clock 时间大量花在跑测试、采集数据、搜索代码库上,而非纯推理——就像 XKCD 那幅"编译中"的漫画(两人在办公椅上用剑决斗,被问在干嘛、答"在编译")。这意味着每个云服务都要做更多传统 CPU 负载、提供托管 Claude code 实例的安全环境,并重新思考"一大批新应用要怎么被安全保护"。
  • self-assembling software(自组装软件):把 24/7 运行的 agent 队列接上产品需求和源源不断的用户反馈,形成"提一个 bug / 功能请求→一队 agent 实时实现"的紧闭环。其精髓是"你只说软件是用来干嘛的,但大部分开发发生在软件上线之后、由用户在使用中共同定制"。更远一步,等模型更聪明,agent 会反过来叫人帮忙——"帮我插上一千个 GPU""给我某服务的 API key""帮我去把这个谈下来"。
"neural software 里没有任何代码在运行,只有神经网络脑海中特征激活空间和上下文的修改。" —— Stephen Balaban
14

吉瓦级 AI 工厂与"一人一 GPU":致敬 Apple 的半世纪长跑

核心论点:Balaban 把算力建设类比 Apple"一人一电脑"的半世纪长跑——目标宏大但需要耐心,每个美国人终将需要至少一块 GPU 的算力。

  • 吉瓦级 AI 工厂:所谓 AI 工厂就是"土地+数据中心+里面的服务器,产出 token";吉瓦级意味着消耗 1000 兆瓦、即 10 亿瓦的电力。Balaban 给了个尺度参照——"纽约市大约是 5 吉瓦"。
  • "一人一 GPU"愿景:早在 2020-2021 年募集 B、C 轮、外界还不信 AI 叙事时,他就常类比计算机产业与 AI 产业,相信 AI 正在催生一批划时代公司。这个口号致敬 Apple 早期的信条"一人一台电脑"。他细数 Apple 的时间线:1976 年创立、1984 年出 Macintosh,但 1984→1994→2004→2014,直到约 2014 年美国才真正实现"一人一台电脑"(甚至超越,因为有了笔记本和手机),而电商渗透要到 2024 年(因 COVID)才完成——从创立算起约 50 年。
  • 他选"一人一 GPU"这个口号,一是真信"未来每个美国人都将需要至少一块 GPU 的算力来完成日常工作、获取娱乐、保持高产与创造";二是带着谦卑——"连 Steve Jobs 和 Apple 这种资本主义史上最好的公司之一,都花了半个世纪才实现目标",所以一人一 GPU 也不会一夜达成。
15

Hot takes:被高估的与被低估的

核心论点:被高估的是"非软件领域的 agentic 工作流",因为缺乏可验证的反馈机制;被低估的恰恰是软件开发的 agent 工作流和 neural OS——因为多数人根本没试过。

  • 被高估:用于"非软件工程"事务的 agentic 工作流。原因是 agent 工作流要跑得好,必须有非常具体的反馈机制——这一点在软件里靠自动化测试做得极漂亮,但"去帮我买个网站"这种事就没有可供模型反复迭代的着力点。所以凡是"不易验证"的领域,agentic 工作流就被高估了。他补充,这不等于说所有非软件领域都不行——CAD、计算机辅助制造、有限元分析、计算流体力学这些可验证、可仿真再迭代的领域,agent 能做得很好。反例则是:"嘿 Claude,帮我赚十个亿、别犯任何错。"
  • 被低估:neural OS 和 self-assembling software 的某些方面;以及——主持人和嘉宾"想给同一个答案"的——软件开发的 agent 工作流。"大多数人不理解,因为他们从没试过:从没去 Claude 上说'最大努力、用最新模型',再让它开 10 个 agent 去把你想要的东西建出来。很多人到现在都还没做过。"
"这不是'嘿 Claude,帮我赚十个亿、别犯任何错'那种事。" —— Stephen Balaban(谈 agentic 工作流的边界)
16

附录:关键人/机构/产品/概念/数据

项目详情
Stephen BalabanLambda 联合创始人兼 CTO,2012 年创立公司;现专注快速数据中心部署
Matt Turck主持人,FirstMark 投资人,The MAD Podcast 主理人
Lambda头部 neo cloud;云业务营收 run rate 接近 10 亿美元,已完全退出硬件
Michael BalabanBalaban 的双胞胎兄弟、联合创始人
Shuang Li / Steve Clarkson首席科学家 / 工程负责人,创始团队仍在职
Mitesh Agrawal早期成员,后创立加速器公司 Positron(估值超 10 亿美元)
Michel Combes新任 CEO,曾任 SoftBank International CEO、Sprint CEO、Alcatel,McLaren 董事
neo cloud为 AI 时代设计的云服务;高度垂直整合,非大宗商品
land power shell已获公用事业兆瓦承诺授权的土地,当前行业主瓶颈
one-click clusterLambda 网页可开 16-4000 个 GPU;多数同行上限 32 个
cuDNN / NCCLNvidia 软件护城河:矩阵乘法调优引擎 / 网络拓扑优化库
GB300 NVL7272 个 GPU 经 NVLink 全互联的机架;机架间用 InfiniBand/以太网
spine-leaf全连接非阻塞网络拓扑,每个 GPU 都能与任意 GPU 满带宽通信
frontier inference超大前沿模型的分布式分片推理,全球仅三四家公司在做
PUE / MFU / flops数据中心制冷效率 / 模型 FLOPs 利用率 / 每秒浮点运算
资本栈成本发电 $2-3B/GW、数据中心 $10-15B/GW、服务器 $35-45B/GW
HBM 内存近期大涨价,供应商仅 Samsung、Hynix
PerceptioBalaban 参与创立、被 Apple 收购;iOS 相册人脸识别源此
Lambda hat帽檐内嵌摄像头每 10 秒拍照采集人脸数据集
Dreamscope2015-16 风格迁移应用,约 100 万用户,早期版 Midjourney
硬件营收曲线2017 $3M → 2018 $10M → 2019 $30M → 峰值约 $200M run rate
neural software / neural OSLLM 直接"成为"软件而非生成代码;无运行代码、不可能有 bug 只有误解
self-assembling software24/7 agent 队列+用户反馈闭环,软件上线后由用户共同生长
吉瓦级 AI 工厂消耗 1000 兆瓦/10 亿瓦;纽约市约 5 吉瓦做参照
一人一 GPU致敬 Apple"一人一电脑",预期每个美国人都需至少一块 GPU 算力