GPU 神话：Lambda CTO Stephen Balaban 拆解 2026 年 AI 算力真相

节目

The MAD Podcast with Matt Turck

嘉宾

Stephen Balaban

日期

2026-06

时长

75 min

查看原始内容 →

概要

"GPU 算力会变成大宗商品"是过去几年硅谷最大的误判之一，而且唱衰者"从头到尾一直错"。Balaban 的核心反驳是：云算力根本不是商品，而是一项从土地授权、建设、HPC 设计、软件虚拟化到云服务的高度垂直整合服务——正因为它是门好生意，全球市值最高的那几家公司（亚马逊、微软、谷歌、甲骨文）才都在做云。所谓"H100 租金在跌"也是假象：长期租约价和按需价其实稳定甚至上涨，指数下跌只是统计口径里长约占比变大造成的 mix 错觉。

算力不是建多了，而是一直建得不够。支撑这个判断的是两件事：scaling law 看不到尽头（投入更多算力→更高智能），以及可寻址市场的"锥形"在不断扩张（从客服、搜索替代，扩到替代/增强整个软件工程）。即便模型效率提升 10 倍，结论也不变——大家只会去处理 10 倍的 token，世界上任一时刻的固定算力总量不变（Jevons 悖论）。Balaban 早年"投钱进去、软件出来"的预测，如今被 Opus 4/5 兑现。

neo cloud 真正的护城河是大多数人看不见的软件，不是堆 GPU。Lambda 的 one-click cluster 能在网页上开 16 到 4000 个 GPU，而多数 neo cloud 要么不能从网站开集群、要么上限 32 个。要把上万 GPU 的集群按客户切分，必须同时分区 in-band 网络、out-of-band 监控网络和 compute fabric 三层，还要用 RDMA 让 GPU 显存直接互读——这是"高几千万到几亿美元"的软件投入，多数同行根本没有。

GPU 是被严重低估的优质资产，不是 3-5 年就报废的耗材。Balaban 直接点名唱衰者"完全错"：2023 年部署的 H100 如今的租金比当年原价还高；多数公司用 6 年会计折旧，但经济可用寿命更长，Lambda 是唯一一家拥有"已完全折旧但仍在赚钱"GPU 的 neo cloud。信贷市场正快速成熟，把 Nvidia GPU 当成一种易于承销的成熟资产类别。

最反直觉的远景：AI 不会写软件，AI 会成为软件。贯穿全场的，是 Balaban 用"工程师思维"去重构一个历来由地产和金融主导的行业——从把数据中心部署速度逼到 SpaceX 级别，到 neural OS（神经操作系统）这种"没有代码在运行、不可能有 bug 只有误解"的全新软件形态。他预测 neural software 大规模采用还要 10-15 年，但原型今天已经存在。

GPU 算力从来不是大宗商品——唱衰者"一直错"

核心论点：云算力是一项跨越土地、建设、HPC、软件的高度垂直整合服务，把它当商品看待是最根本的误解。

几年前硅谷的主流共识是"neo cloud 会变成大宗商品，因为 GPU 算力会被商品化"；快进到今天，Lambda 和多家竞争对手都在"狂飙猛进"，事实正好相反。
Balaban 的解释：云算力是"一项非常复杂、高度垂直整合的服务，横跨从土地→土地授权→建设→HPC 高性能计算设计→软件虚拟化→其上的云服务"的每一层。全球那几家万亿市值公司（Amazon、Microsoft、Google、Oracle）都在做云，正因为这是门好生意。被误解的本质是："它其实就是一项为 AI 时代设计的云服务。"
关于"GPU 租金确实在跌"，他拆穿了统计陷阱：市场上有两种价格——公有云按需价和长期租约价。Bloomberg 上的 H100 租金指数若把长约当成更大的成交量权重，当 mix 偏向长约时，指数就会"看起来在跌"，而现实是长约价和按需价都稳定甚至在涨。

"唱衰者说'你这些 GPU 5 年后就得扔掉'——他们完全错了。他们完全错了，而且从头到尾一直错。" —— Stephen Balaban

持续在"建得不够"：scaling law 没尽头，效率提升只会放大需求

核心论点：算力不是过剩而是长期不足，因为 scaling law 仍然成立、可寻址市场的锥形在持续扩张，且效率提升只会被 Jevons 悖论吃掉。

Balaban 判断行业"持续地、普遍地建得不够"，neo cloud 的领导者们都已认识到大模型那种"贪得无厌"的需求——从当助理到代码生成。
他翻出自己早年的预测："再过几个月到几年，我们会到一个'投钱进去、软件从另一端出来'的时间点。"当年这个信念远没那么被普遍接受，而如今 Opus 4/5 的发布让"我们有一个能把钱变成软件的惊人系统"变得很清楚。
让他笃定需求会持续的底层逻辑是 scaling law——投入更多算力/数据，就训出更强智能；只要它成立，可寻址市场的"锥形"就会扩张：最早只是"对客服有帮助、是谷歌搜索的替代品"，现在已是"对大量软件工程岗位的替代或巨大增强"。锥形越张，算力总需求越大，"而我们一直在低估它"。
对"模型效率提升 10 倍会不会让建设过剩"的担忧，他用 Jevons 式回答：效率提升 10 倍，只意味着每个人能处理 10 倍的 token，任一时刻世界上的固定算力总量不变。他还回忆 2017 年的老担忧——会不会出现某种像随机森林那样"能在 MacBook 上训练"的颠覆性新模型架构，从侧面瓦解算力需求；但至今没出现，而行业一切都建立在"扩展这个架构"的 scaling law 之上。

主要瓶颈是 land power shell，反对声浪多源于误信息

核心论点：当前行业最大瓶颈是"已授权兆瓦的土地"加 MEP 设备；公众对数据中心的反对很大程度建立在过时的耗水误解上。

瓶颈"总是先局部、后全局"——某个站点可能卡在发电机或 UPS 系统上，那是站点的特异性。但全行业范围内，主瓶颈是 land power shell：即已经从公用事业拿到一定兆瓦承诺授权的土地，再加上进入数据中心的 MEP（机械、电气、管道）设备。
对数据中心的反对"在新闻里很火、也确实很真实"。Balaban 说他花大量时间读社区评论，发现人们真正想要的是工作、税收，以及"在项目开发时有一个能上桌发声的位置"——任何大型资本项目都会带来可观税收、就业和投资。
他重点辟谣"耗水"误解：每一套现代 Blackwell / Rubin 级 GPU 部署，几乎都用闭环直触芯片液冷连接干冷器（dry cooler），几乎零蒸发、不消耗大量水；会大量蒸发水的是蒸发冷却塔，而美国几乎没有新建项目在用蒸发冷却。此外数据中心还往往给电网带来表后电力、电池储能等增益，长期还能稳住社区电价。
应对之道很朴素："把好处写下来、把代价写下来，清清楚楚地呈现给社区，让他们自己做好决定。"

"人们会说数据中心消耗大量水。蒸发冷却塔确实会蒸发很多水，但美国实际上几乎没有新建项目用蒸发冷却——用的是闭环直触芯片液冷。" —— Stephen Balaban

算力的物理学：从光子到 token 的完整链路

核心论点：理解算力最好从物理量纲入手，把"发电→数据中心→芯片→token"看成一条带多重效率环节的流水线。

Balaban 喜欢用 SI 物理量纲来拆解：链路最左端是能量生产——每秒进来的光子（太阳能）或每秒进来的天然气分子；经发电厂/光伏转换成"焦耳/秒"，也就是瓦，即电功率。
这些瓦被整个数据中心消耗，数据中心要给自己降温，这一环节的效率指标是 PUE（衡量数据中心的关键效率）。
服务器、网络、存储设备把电力转成每秒浮点运算（flops/秒）；模型训练或推理消耗的就是 flops/秒的容量，再转成 token/秒。
最末端，终端客户还有一层"把 token 真正转化为实际智能"的效率；链路上端则有 MFU（Model FLOPs Utilization）这样的效率百分比。"这就是端到端的整条流水线。"

同样的芯片，怎么榨出更多价值：利用率与零售/批发价差

核心论点：单 GPU 小时成本里折旧占大头，而利用率是折旧的倒数乘子；能收到零售价的关键是有人愿意用的云软件。

拆一个 GPU 小时（以 H100 为例）的成本结构，最大头是与这个 GPU 小时关联的折旧。利用率相当于折旧上的一个"1/利用率"乘子——如果你只用了 50% 的时间，那每小时的折旧费用就翻倍（1/0.5）。
所以企业获得独特优势的第一途径就是："我怎么造一个用户真心喜爱、能拉高利用率的云产品？"
第二是零售/批发价差：零售（按需开关一个 GPU 的普通云服务）的定价远高于批发（比如一次买 1 万个 GPU、用 5 年）。Lambda 要做的就是从资本部署里榨出最高的"美元利用率和百分比利用率"。
关键卡点在软件："如果你没有那套云软件，你就收不到零售价——你没法把它按小时租给别人，因为你压根没有这个能力。"而很多 neo cloud 恰恰就处在"连跑一个真正云服务的基础设施都没有"的境地。

把 GPU 连成网络：NVL72、spine-leaf 与 frontier inference

核心论点：现代 AI 数据中心的关键不是有 GPU，而是把 GPU 连成全连接无阻塞的网络；训练用的基础设施可以复用做分布式推理。

基本结构：一大堆 Nvidia GB300 NVL72 机架（每个 72 个 GPU 经 NVLink 全互联），机架之间用 InfiniBand 或高速以太网连接，形成 spine-leaf 拓扑——完全非阻塞、每个 GPU 的每个端口都能和网络里任何其他 GPU 通信、提供最大带宽。
这种集群既能训练大模型，也能做 Lambda 所说的 frontier inference（前沿推理）：一种高度分布式的推理，会按某种分片（sharding）策略把模型拆到多个 GPU 上，靠高速 InfiniBand/以太网互联通信。Balaban 澄清 frontier inference 未必关乎推理模型，而是指"全世界也就三四家公司在做"的超大前沿模型推理。
训练与推理在算力上同构：训练时反向传播约占 2/3 算力，前向传播≈推理。一个重要认知是"为大规模训练准备的基础设施，可以复用来做该模型的推理"。
为什么需要分布式：像 Llama 这样量化后的小模型能装进单个 GPU，但"Opus 和 ChatGPT 5.5 装不进单个 GPU"，必须跨服务器分片才能跑哪怕一次前向推理；MoE（专家混合）模型还有把不同专家分配到不同服务器/GPU 的策略。

成本栈与 Nvidia 护城河：真正难越的是 cuDNN，不是 CUDA

核心论点：资本栈里服务器（GPU）是绝对大头，而 Nvidia 最深的护城河是软件栈 cuDNN 和 NCCL，而非芯片本身。

按吉瓦拆资本栈：发电 200-300 万美元/兆瓦（即 20-30 亿美元/吉瓦）；建数据中心 100-150 亿美元/吉瓦；服务器（算力）350-450 亿美元/吉瓦——服务器是"遥遥领先的最大头"，也是折旧的主要来源。其中服务器 BOM 又以 GPU 为主。近期 HBM 内存大幅涨价，而供应商极少，只有 Samsung、Hynix。
Lambda 是纯 Nvidia 阵营，理由是 Nvidia 是"唯一一家在每个主要云平台都能买到的芯片供应商"，这是巨大的平台优势。其部署过的型号横跨 V100、A100、H100、H200、B200、GH200、GB200、B300，VR200 即将到货。
谈到护城河，Balaban 强调"不只是 CUDA"：CUDA 只是"我们都在里面游泳的水"，真正难越的是 cuDNN（CUDA 深度神经网络库）——一台为矩阵乘法高度调优的引擎，内置了 Winograd 滤波等大量优化，让你不必自己手调；以及 NCCL（网络优化库）——它能感知 InfiniBand/以太网的拓扑，自动给 reduce-all、broadcast 等用于训练和推理分片的 OpenMPI 原语推荐优化路径。"这套软件栈，是很多芯片新进入者很难逾越的。"
他也承认"我们其实已经身处一个多芯片世界"——全球最大的几家实验室在用多种不同芯片做推理和训练。

"人们常问 Nvidia 的护城河是什么。CUDA 只是我们都在里面游泳的水；他们最大的护城河之一其实是 cuDNN——里面烤进了太多矩阵乘法优化。" —— Stephen Balaban

延迟不再重要，全栈垂直整合，融资靠信用与私募信贷

核心论点：AI 异步工作流让延迟变得不重要、只剩每 token 成本；Lambda 正走向全栈垂直整合，并用 SPV/资产抵押贷款把算力打包进私募信贷市场。

延迟祛魅：传统遗留云因为某些应用而极度看重延迟，但这批新的 AI 应用对延迟远没那么敏感——你看自己用 ChatGPT/Claude/Grok/Gemini，很多时候是"丢一个任务出去、过会儿回来拿研究报告"的长任务 agent 工作流，这种情况"延迟完全不重要，唯一重要的是每 token 成本"。唯一的例外是数据主权——很多国家希望本国公民用的 AI 算力跑在本国境内。
垂直整合：Lambda 最初主要是租用方，现在走向全栈垂直整合——自己找地、拿出基础设计（建数据中心的全套工程图）、融资建设、放进服务器，再对接全球大算力消费者的长期 off-take（包销）协议并把一切融资打包。"我们把工程思维带进了这个历来由地产人主导的领域。"目前多为独占租户，暂不打算做对外租赁数据中心的生意。聚焦北美（美/加/墨），有 SK Telecom 投资和首尔数据中心经验，但无意大举进军欧洲或亚洲。
融资栈：拆成两部分——on-demand 云看 Lambda 自身信用，off-take 协议看终端付款客户的信用。做法是把 off-take 协议、一批 GPU、租约/地产"装进一个盒子"，到私募信贷市场做资产抵押贷款，多数是为这次部署专设的 SPV（特殊目的载体）。信贷方正越来越懂一颗 Nvidia 芯片的价值。

"2023 年我们部署的 H100，现在租出去的价格比 2023 年最初还要高。" —— Stephen Balaban

GPU 寿命神话被打破，算力开始金融化

核心论点：GPU 的经济可用寿命远超会计折旧年限，这正在让它被重估为一种成熟资产类别，并催生算力金融市场的雏形。

需求高确实抬高了市场价格，这是基本规律。但更深层的是寿命误解：有人说 GPU 只有 3-5 年寿命，"完全是假的"。多数公司采约 6 年会计折旧，但那不是可用寿命——经济可用寿命更长。Lambda 作为最早的 neo cloud 之一，是"唯一一家车队里真有从会计角度已完全折旧、却仍在运营赚钱的 GPU"的公司。
这正在改变信贷方的认知："哇，这是一种非常有价值、而且对我们来说易于承销的资产。"信贷方开始涌向这类交易；过去一年最大的变化，就是大家开始把它当成"更成熟的资产类别"来对待。
关于算力金融化：要先有活跃的现货市场，才谈得上期货等衍生品。Balaban 说已看到有人在研究，但他的看法是"不必搞得太花哨"——当下的关键是这个资产类别刚开始成熟，信贷方对"买 Nvidia GPU 部署进数据中心"的信贷投资越来越自在。

Lambda 的狂野起源：从人脸识别到 Lambda 帽子，再到意外做云

核心论点：Lambda 不是规划出来的云公司，而是从一连串与 AI 同行十多年的产品转身中"被账单逼出来"的——这段历史解释了它为何如此工程师驱动。

2012：人脸识别起步。Balaban 2012 年创立 Lambda 做人脸识别软件，用一台从朋友那买来的 4×Nvidia GTX 580 工作站训练卷积网络，在当时是"很前卫"的事，多数人还不相信"深度学习"。他从 Google Code 上拉下 CUDA convnet 仓库把玩（"Google Code 还在，足见 Lambda 多老"）。AlexNet 论文与 Lambda 同年诞生，"绝非巧合"。人脸识别 API 攒了几千用户，但不怎么赚钱。
Perceptio → 被 Apple 收购。并行地，他帮两位刚读完博士的人 Zach 和 Nico 创立 Perceptio、当首位员工，2013 年就用 GPUImage 库和纯 OpenGL ES 着色器在 iPhone 本地跑 convnet。后来公司被 Apple 收购——"你 iPhone 上滑图片就能识别人脸、搜索相册"的功能，可能就源自这次收购。
Lambda 帽子：一顶帽檐内嵌摄像头、每 10 秒拍一张照采集人脸数据集的棒球帽。产品本身不算成功，但教会了他做消费电子——他在深圳待过一阵做 PCB，"彻底打开了我对'做生意不只是做 App'的认知"。Matt 点出妙处：快进到今天，"捕捉日常生活来训练 AI"已是一整个赛道。
Dreamscope → 被账单逼成云公司。2015-16 年的 Dreamscope 用 Google Deep Dream 和 Leon Gatys 风格迁移把照片变成画作，是"早期版 Midjourney"，约 100 万用户、处理约 1500 万张图。这带来约 4 万美元/月的 AWS 账单。为替换它，团队"怕得要死"地做了一笔 6 万美元 CAPEX 自建工作站集群（"想着最坏还能把工作站卖了"）——结果上线后账单归零、1.5 个月回本。"我们省下的钱比赚的还多，也许我们该去给别的 AI 研究者提供算力。"于是开始卖工作站和服务器：硬件营收 2017 年 300 万→2018 年 1000 万→2019 年 3000 万→峰值约 2 亿美元 run rate；云业务 2019 起步、慢热，如今接近 10 亿美元 run rate，硬件业务已完全退出。

"我们当时怕死了，觉得做这笔 6 万美元的 CAPEX 会让公司倒闭。我们用工作站搭，是想着最坏情况还能把它们卖掉。" —— Stephen Balaban

把乐队凝聚在一起：Lambda 黑帮、COVID 与"客户至上"

核心论点：创始团队几乎原班留任并催生了"Lambda 黑帮"，靠的是在资本密集、屡受冲击的环境里用"取悦客户"这一条主线把人对齐。

当年做 Dreamscope 的四个人——Balaban、双胞胎兄弟兼联创 Michael Balaban、首席科学家 Shuang Li、工程负责人 Steve Clarkson——如今全都还在公司。第二位招聘 Mitesh Agrawal 待了约 8 年后离开，与前成员 Thomas Summers 创立加速器公司 Positron，如今估值超 10 亿美元——"Lambda 校友/Lambda 黑帮"网络已经成形。
撑过难关靠的是这种资本与营运双密集的生意里"不断挨系统性冲击"的韧性。最典型的是 COVID：软件公司当时很爽（需求暴增、随时能发软件），而硬件公司很惨——码头关闭，三四月份"根本发不出货、收不到营收"。Balaban 记得自己站到团队前面说："现在真的很难，我们甚至不确定能不能挺过去，但唯一能做的就是咬牙、享受这份痛、冲过去。"
凝聚力的根来自"取悦客户"。他在 onboarding 的 "Lambda 101" 里会放一张图：一只 Linux 企鹅坐在 Lambda 工作站前读 GPT-2 论文、看着训练损失曲线——"把自己代入这只用我们的机器训练神经网络的企鹅，想想什么会取悦它"。于是发货团队在箱子里塞 T 恤、数据中心团队做"白色机架"来彰显自豪——正是这些细节帮公司熬过艰难时刻。

"我们都在这里的唯一原因，就是造出人们想要、并且爱到会跟朋友安利、愿意给你钱的东西。其他一切都从'取悦客户'这件事里自然生长出来。" —— Stephen Balaban

新 CEO 与 CTO 转身：把数据中心部署逼到 SpaceX 级速度

核心论点：Balaban 主动让出 CEO、转任 CTO，是为了把自己最热爱的"高速垂直整合部署"做到极致——一个历来由地产人主导、却最该用工程思维重做的环节。

Lambda 新引入 CEO Michel Combes（曾任 SoftBank International CEO、Sprint CEO、Alcatel，并在 McLaren 等公司董事会）。Balaban 说能招到这种量级的人才是"作为创始人的巨大荣幸"，而他个人"从没有那种非当创始人 CEO 不可的自我执念"——融资、资本运作、日常经营他一直当作必要之事在做，而非真正热爱。他还打趣，私下和创始人 CEO 聊天总忍不住问"你到底有多讨厌……"（Matt 接梗："居然有人不觉得整天和 VC 聊天令人兴奋，太震惊了"）。
转任 CTO 后，他主攻"快速数据中心部署"：要把 Lambda 打造成一个垂直整合的高速度引擎。他放话："放眼世界，能做高速部署的只有两家公司——SpaceX AI 和 Lambda。"提到 Cerebras 约 200 多天的部署记录，他认为可以被追平甚至打破，关键在流程：站点选择的约束集、MEP 流水线、建造方式、如何砍掉流程中的冗余。
他指出根因：过去设计数据中心的多是地产人，"被超大规模厂商揪着脖子"丢去找总包商建一套设计，却完全不懂里面跑什么；而超大规模厂商又是为传统云服务而建——一个现代云 region 有数百种服务（从卫星基站、磁带存储到人脸识别 API），每种都有不同 SKU 和参数。一个要跑 ATM 后端的设计空间，和一个可以容忍更低可用性的 AI 数据中心完全不同——这正是 Lambda 用"AI 优先"的针对性方法创造独特价值的地方。

AI 不会写软件，AI 会成为软件：neural OS 与 self-assembling software

核心论点：Balaban 最反直觉的远景是 neural software——LLM 不再生成代码，而是直接"成为"软件；配合 agent，软件开发会变成上线后由用户和 agent 共同持续生长的过程。

怎么体验 neural software：去 ChatGPT 或 Claude 说"给我渲染一个 ASCII 艺术的桌面界面，纯文本里假装你是个操作系统，我说'点这个、打开那个'你就照做"。你会看到 LLM"成为"软件、而非生成软件的未来雏形。它的特点是极度"软"且灵活——"不可能有 bug，只可能有对 prompt 的误解"。再往后会有多模态网络直接生成你屏幕上的每个像素、扬声器里的每段音频波形。
与 vibe coding 的区别：vibe coding 仍是输入 prompt、输出人类可读可编译的静态代码（C/Python 经编译器/解释器），代码一旦生成就不会变；从传统手写代码→vibe coding→即时（just-in-time）vibe coding 是一条渐变带。而 neural OS 是更远的一端——"没有代码在运行，只有神经网络脑中特征激活空间和上下文的修改"。
时间表与已有案例：Lambda 已有 neural software 原型，多家公司和学术界也有。Balaban 自评"我看早的东西通常早 10 到 15 年"，预测 neural software 大规模采用还需 10-15 年。但他指出其实今天就存在一种形态：Tesla 自动驾驶这类端到端神经网络做自主决策，本身就是一种 neural software——只不过它的用户体验就是"驾驶体验"。
agent 如何改变算力需求：做 agent 实时编程时，wall clock 时间大量花在跑测试、采集数据、搜索代码库上，而非纯推理——就像 XKCD 那幅"编译中"的漫画（两人在办公椅上用剑决斗，被问在干嘛、答"在编译"）。这意味着每个云服务都要做更多传统 CPU 负载、提供托管 Claude code 实例的安全环境，并重新思考"一大批新应用要怎么被安全保护"。
self-assembling software（自组装软件）：把 24/7 运行的 agent 队列接上产品需求和源源不断的用户反馈，形成"提一个 bug / 功能请求→一队 agent 实时实现"的紧闭环。其精髓是"你只说软件是用来干嘛的，但大部分开发发生在软件上线之后、由用户在使用中共同定制"。更远一步，等模型更聪明，agent 会反过来叫人帮忙——"帮我插上一千个 GPU""给我某服务的 API key""帮我去把这个谈下来"。

"neural software 里没有任何代码在运行，只有神经网络脑海中特征激活空间和上下文的修改。" —— Stephen Balaban

吉瓦级 AI 工厂与"一人一 GPU"：致敬 Apple 的半世纪长跑

核心论点：Balaban 把算力建设类比 Apple"一人一电脑"的半世纪长跑——目标宏大但需要耐心，每个美国人终将需要至少一块 GPU 的算力。

吉瓦级 AI 工厂：所谓 AI 工厂就是"土地+数据中心+里面的服务器，产出 token"；吉瓦级意味着消耗 1000 兆瓦、即 10 亿瓦的电力。Balaban 给了个尺度参照——"纽约市大约是 5 吉瓦"。
"一人一 GPU"愿景：早在 2020-2021 年募集 B、C 轮、外界还不信 AI 叙事时，他就常类比计算机产业与 AI 产业，相信 AI 正在催生一批划时代公司。这个口号致敬 Apple 早期的信条"一人一台电脑"。他细数 Apple 的时间线：1976 年创立、1984 年出 Macintosh，但 1984→1994→2004→2014，直到约 2014 年美国才真正实现"一人一台电脑"（甚至超越，因为有了笔记本和手机），而电商渗透要到 2024 年（因 COVID）才完成——从创立算起约 50 年。
他选"一人一 GPU"这个口号，一是真信"未来每个美国人都将需要至少一块 GPU 的算力来完成日常工作、获取娱乐、保持高产与创造"；二是带着谦卑——"连 Steve Jobs 和 Apple 这种资本主义史上最好的公司之一，都花了半个世纪才实现目标"，所以一人一 GPU 也不会一夜达成。

Hot takes：被高估的与被低估的

核心论点：被高估的是"非软件领域的 agentic 工作流"，因为缺乏可验证的反馈机制；被低估的恰恰是软件开发的 agent 工作流和 neural OS——因为多数人根本没试过。

被高估：用于"非软件工程"事务的 agentic 工作流。原因是 agent 工作流要跑得好，必须有非常具体的反馈机制——这一点在软件里靠自动化测试做得极漂亮，但"去帮我买个网站"这种事就没有可供模型反复迭代的着力点。所以凡是"不易验证"的领域，agentic 工作流就被高估了。他补充，这不等于说所有非软件领域都不行——CAD、计算机辅助制造、有限元分析、计算流体力学这些可验证、可仿真再迭代的领域，agent 能做得很好。反例则是："嘿 Claude，帮我赚十个亿、别犯任何错。"
被低估：neural OS 和 self-assembling software 的某些方面；以及——主持人和嘉宾"想给同一个答案"的——软件开发的 agent 工作流。"大多数人不理解，因为他们从没试过：从没去 Claude 上说'最大努力、用最新模型'，再让它开 10 个 agent 去把你想要的东西建出来。很多人到现在都还没做过。"

"这不是'嘿 Claude，帮我赚十个亿、别犯任何错'那种事。" —— Stephen Balaban（谈 agentic 工作流的边界）

附录：关键人/机构/产品/概念/数据

项目	详情
Stephen Balaban	Lambda 联合创始人兼 CTO，2012 年创立公司；现专注快速数据中心部署
Matt Turck	主持人，FirstMark 投资人，The MAD Podcast 主理人
Lambda	头部 neo cloud；云业务营收 run rate 接近 10 亿美元，已完全退出硬件
Michael Balaban	Balaban 的双胞胎兄弟、联合创始人
Shuang Li / Steve Clarkson	首席科学家 / 工程负责人，创始团队仍在职
Mitesh Agrawal	早期成员，后创立加速器公司 Positron（估值超 10 亿美元）
Michel Combes	新任 CEO，曾任 SoftBank International CEO、Sprint CEO、Alcatel，McLaren 董事
neo cloud	为 AI 时代设计的云服务；高度垂直整合，非大宗商品
land power shell	已获公用事业兆瓦承诺授权的土地，当前行业主瓶颈
one-click cluster	Lambda 网页可开 16-4000 个 GPU；多数同行上限 32 个
cuDNN / NCCL	Nvidia 软件护城河：矩阵乘法调优引擎 / 网络拓扑优化库
GB300 NVL72	72 个 GPU 经 NVLink 全互联的机架；机架间用 InfiniBand/以太网
spine-leaf	全连接非阻塞网络拓扑，每个 GPU 都能与任意 GPU 满带宽通信
frontier inference	超大前沿模型的分布式分片推理，全球仅三四家公司在做
PUE / MFU / flops	数据中心制冷效率 / 模型 FLOPs 利用率 / 每秒浮点运算
资本栈成本	发电 $2-3B/GW、数据中心 $10-15B/GW、服务器 $35-45B/GW
HBM 内存	近期大涨价，供应商仅 Samsung、Hynix
Perceptio	Balaban 参与创立、被 Apple 收购；iOS 相册人脸识别源此
Lambda hat	帽檐内嵌摄像头每 10 秒拍照采集人脸数据集
Dreamscope	2015-16 风格迁移应用，约 100 万用户，早期版 Midjourney
硬件营收曲线	2017 $3M → 2018 $10M → 2019 $30M → 峰值约 $200M run rate
neural software / neural OS	LLM 直接"成为"软件而非生成代码；无运行代码、不可能有 bug 只有误解
self-assembling software	24/7 agent 队列+用户反馈闭环，软件上线后由用户共同生长
吉瓦级 AI 工厂	消耗 1000 兆瓦/10 亿瓦；纽约市约 5 吉瓦做参照
一人一 GPU	致敬 Apple"一人一电脑"，预期每个美国人都需至少一块 GPU 算力