关于 AI Infra 的一切 | 对谈阶跃星辰联创朱亦博 - 42章经
报告概述
本报告基于播客《关于 AI Infra 的一切 | 对谈阶跃星辰联创朱一博》的完整ASR原文,系统性地梳理并深入阐释了人工智能基础设施(AI Infra)领域的核心概念、发展脉络、技术演进逻辑与未来战略方向。报告以朱一博作为国内最早参与AI Infra建设的实践者之一的身份为切入点,全面呈现了其在微软研究院、字节跳动、Google及创业公司阶跃星辰的职业轨迹中所积累的深刻行业认知。报告的核心在于揭示一个被广泛忽视但至关重要的事实:AI Infra并非仅仅是“支撑应用的技术底座”,而是在大模型时代成为决定模型性能、训练效率与商业竞争力的关键变量,甚至具备重塑整个AI产业格局的战略地位。
报告首先从定义出发,构建了一个清晰的AI Infra三层架构模型——硬件层、系统层(ICE)、平台服务层(PASS)与应用层(SaaS),并强调其本质是“计算、通信、存储”三要素的工程化整合。在此基础上,报告深入剖析了AI Infra的发展历史,将其划分为两个阶段:以蒋杨青、李牧、陈天琪为代表的“第一批元老”(算法背景出身,从无到有构建框架)与以朱一博为代表的“第二批”(工业界规模化落地)。这一划分不仅揭示了技术演进的路径,更凸显了AI Infra从“研究驱动”向“工程驱动”的根本转变。报告进一步论证了AI Infra在当前大模型浪潮中的独特价值:它不仅是降本增效的工具,更是影响模型最终效果的核心环节,其优化目标直接决定了模型的竞争力。例如,DeepSeek通过早期将推理成本作为核心优化目标,使其在强化学习时代获得了远超同行的训练速度优势,这正是AI Infra战略价值的生动体现。
报告的后半部分聚焦于当前挑战与未来趋势,提出了“垂直整合”是第三方AI Infra公司的唯一生存之道,并以PS5与Steam的类比,阐明了“内容分发平台”必须拥有独占性资源才能建立壁垒。同时,报告深入探讨了组织架构对AI Infra成败的决定性影响,指出算法、数据、Infra三者应形成“铁三角”协同机制,而非简单的支持关系。最后,报告展望了多模态、模型与硬件协同设计(Co-Design)等前沿方向,并引用Richard Sutton的《The Bitter Lesson》作为理论基石,强调长期来看,唯有能持续利用摩尔定律的系统设计,才是真正的赢家。整份报告旨在为从业者、投资者和决策者提供一份兼具战略高度与实操细节的深度参考。
核心观点:AI Infra的定义、演进与战略定位
AI Infra的定义并非一个静态的分类,而是一个动态演进的生态系统,其边界随着技术范式的变迁而不断扩展。根据朱一博的阐述,AI Infra可以被系统性地划分为三个层次:最底层是硬件层,包括GPU、AI芯片、网卡、交换机等物理组件;中间层是系统层(ICE),即“Infrastructure, Compute, and Execution”,涵盖了服务器组装、网络互联、运维管控以及大规模存储系统的构建;最上层则是平台服务层(PASS),包括调度平台、资源管控平台、模型即服务(Model-as-a-Service)等,最终服务于上层的应用层(SaaS)。这一结构化的理解,使得原本模糊的概念变得清晰可操作。> “我觉得应该说硬件是一块,然后软件的话,软件有三个层次吧。硬件指的就是GPU啊那些,对对对,硬件指的AI芯片这些东西,然后也包括一些网卡、芯片、交换机什么。然后软件的话,我比较喜欢类比云计算,有ICE PASS SARS三层,最下面的ICE其实是说我有这些卡,然后我要把组装成服务器,我要把它们用网络连起来,然后怎么运维管控它们是最基础的。” 这段原话精准地勾勒出了AI Infra的物理与逻辑骨架。
这一定义的深层意义在于,它将AI Infra的本质还原为计算机科学中最基本的三大支柱:计算、通信与存储。朱一博明确指出:“所以计算机系统从科班的角度来说,其实就三件事:计算、通信、存储。嗯,INFRA最最底层的ICE就COVER这三个。” 这一论断具有极强的普适性和指导意义,它意味着任何对AI Infra的优化,都必须围绕这三大核心要素展开。例如,提升计算效率需要优化模型架构与硬件指令集的匹配度;改善通信效率则依赖于高效的网络拓扑与低延迟的通信协议;而存储效率则关乎数据的组织方式、缓存策略与I/O吞吐能力。这种回归本质的思考,避免了陷入技术细节的迷宫,为系统性解决问题提供了清晰的框架。
AI Infra的发展历程,是一部从“零散探索”走向“体系化工程”的史诗。朱一博将其划分为两个阶段:第一批元老与第二批实践者。第一批元老,如蒋杨青、李牧、陈天琪,其身份本质上是“算法研究员”。他们之所以进入AI Infra领域,是因为他们自身的研究需求——为了跑通先进的算法,必须充分利用GPU的算力。> “实际上第一批所谓的AI INFLUENCE那时候都没有这个词的人,实际上是有算法背景的人。因为他们要做先进的算法,然后要把 GPU 利用起来。于是做了这件事情,所以你可以认为那个时候真正做英福尔正规军还没有进入,所以他们是从无到有把这事做出来的,可以这么理解吗?” 这段原话揭示了一个关键事实:AI Infra的诞生并非源于一个独立的“基础设施”需求,而是由算法研究的迫切需要催生的。他们的工作,如蒋杨青的“卡费”框架,本质上是为了解决特定算法在特定硬件上的运行问题,其目标是“可用”,而非“高效”或“通用”。
而朱一博所代表的第二批,则是工业界大规模应用的推动者。他们的使命不再是“从0到1”的创造,而是“从1到N”的规模化与极致优化。> “就是深度学习工业界确实有兴趣要大规模去应用的时候,我基本干的是上规模的事。” 他们面对的挑战是,如何让数千张乃至数万张GPU协同工作,完成一个大型模型的训练任务。这要求他们解决分布式系统中的诸多难题:任务调度的公平性、容错机制的健壮性、通信带宽的瓶颈、存储系统的高并发读写等。因此,第二批人的核心能力是“工程化”与“系统性思维”,他们关注的是如何在真实世界中,将理论上的高性能转化为实际的、可衡量的效率提升。这种角色的转变,标志着AI Infra从一个边缘的、辅助性的技术,正式上升为一个与算法、数据并列的、决定成败的核心支柱。
在当前的大模型时代,AI Infra的战略定位已发生根本性重构。它不再仅仅是一个“成本中心”或“支持部门”,而是成为了模型竞争力的直接来源。朱一博以DeepSeek为例,深刻揭示了这一点:DeepSeek的早期成功,很大程度上归功于其将“推理成本”作为核心优化目标,而非传统的“训练效率”。> “因为这个优化目标不一样,在24年至少上半年,deep sick并不比大家强。从基模来说,因为我们的优化目标就是针对腿券嗯。普券我有几千张卡,训几个月训出最好的模型。” 这种差异化的战略选择,使其在2024年9月后爆发的“测试时缩放”(Test Time Scaling)浪潮中占据了绝对优势。因为强化学习的训练过程本质上是“自我推理”,而推理速度越快,获得奖励的频率就越高,训练效率也就越高。因此,DeepSeek的模型不仅在推理端快,其训练速度也因优化目标的一致性而显著领先。> “于是deep sick的模型就变成了强化学习训练最快的模型,因为它推理成本低,所以它的那个优化目标更符合强化学习时代的需求。” 这个案例完美诠释了AI Infra的战略价值:它不是被动地执行命令,而是主动地塑造模型的演化路径,从而在竞争中赢得先机。
核心观点:组织架构、团队协作与跨职能协同
AI Infra的成败,其根源往往不在于技术本身,而在于组织内部的协作模式与权力结构。朱一博深刻指出,传统互联网公司的组织架构,使得AI Infra团队长期处于“支持性角色”,缺乏反向影响力。> “尤其我在想英福人像我们刚才讲的,它其实核心是降本,是对降本这件事情,在公司里面就是容易不是大家最重要的目标。” 在这种架构下,算法团队提出一个模型设计方案,Infra团队的任务只是“把它跑得更快、更便宜”,这是一种典型的“需求-交付”模式。然而,这种模式在大模型时代已显露出严重弊端,因为它割裂了模型设计与系统实现之间的有机联系,导致“最优解”无法达成。
理想的协作模式应当是三方协同的“铁三角”机制,即算法、数据与Infra团队共同构成一个紧密耦合的创新单元。> “所以你觉得最理想的就是比如今天我们要优化一个什么东西,我们要做什么事儿,就这三方合起来大家一起讨论,然后最后集体讨论出来一个可能互有优劣的那么一个结果。” 这种模式的核心在于,每个团队都拥有对其他团队工作的“否决权”和“影响力”。例如,朱一博提出一个颠覆性的观点:模型的效率与成本,主要由系统团队设计;模型的效果,主要由数据团队负责;而算法团队的核心职责,应是设计训练方法。> “一个模型的效率啊、成本是系统决定的。那这就得到一个结论:因为跟效率、成本最相关的是模型结构。嗯,所以模型结构其实应该系统人设计你才能获得最好的成本。模型的点数的效果刷榜应该数据的人负责。嗯,那算法人负责什么?算法人其实最要做的就是训练的方式。” 这一观点直击痛点,它打破了“算法主导一切”的传统认知,强调了系统视角的重要性。如果模型结构的设计完全由算法团队主导,他们往往只关注参数量、激活函数等抽象指标,而忽略了这些设计在真实硬件上的运行效率。正如朱一博所言,算法人员画出的“参数量 vs. 效果”曲线,与系统人员关心的“运行成本 vs. 效果”曲线,是截然不同的两幅图。只有当两者打通,才能找到真正的帕累托最优。
现实中的组织障碍,常常源于权力失衡。朱一博以一个极具讽刺意味的例子说明了这一点:> “比如说你是一个INFRA TEAM,然后有一个算法TEAM,然后你们俩都汇报给同一个LEADER,但这个LEADER只懂算法,它会发生什么?” 当决策权掌握在不懂系统的人手中时,系统团队的合理建议很容易被忽视,其价值被低估。> “所以我觉得如果不是今天我在跟你聊的话,我听起来。” 这句话透露出一种无奈,也印证了“组织架构是人的问题”这一深刻洞见。在大厂中,这种问题尤为普遍,因为算法团队通常被视为“明星团队”,而Infra团队则被认为是“幕后英雄”,这种文化上的偏见,使得前者天然拥有更高的话语权。
这种组织失衡的后果是灾难性的。朱一博列举了多个典型案例,其中最具代表性的是某家知名公司在开源模型时的失误。该公司宣称其模型“不大,但效果能越级超越大模型”,然而,由于其模型架构设计未充分考虑硬件运行效率,导致其在实际部署时的运行效率甚至低于其声称的“更大”模型。> “但是实际上这个模型因为它架构设计的问题,它实际在硬件上运行的效率会非常的低下,它可能比它所谓那个大一些的模型运行的效率还要低下。” 这个案例生动地展示了“算法人员不真懂硬件”的后果。他们只看到了参数量的“小”和效果的“好”,却忽略了“运行效率”这一关键维度。> “他怎么运行这个模型?因为算法人员所谓的模型架构研究什么,他画一张图,横坐标是比如说模型的尺寸或者激活量,纵坐标是算法效果。” 这种“纸上谈兵”的研究方式,在没有系统团队深度介入的情况下,必然导致“看起来很美,实际很烂”的结果。该模型一旦开源,其糟糕的性能就会被所有使用者验证,从而损害了公司的声誉。
另一个经典案例是MOE(Mixture of Experts)模型的引入时机。朱一博指出,一个公司是否能尽早采用MOE模型,直接反映了其Infra团队在公司内部的影响力和话语权。> “我觉得做MOE模型的早还是晚,直接显示了INFRA团队在这个大团队里头它的影响力和地位。” 因为在算法团队看来,MOE只是一个“降本”的手段,它不会提升模型的能力上限,因此不值得投入精力。> “因为 MOE 这个事情在算法的人眼里,它是一个降本的事情。它不是提升模型能力上限的事情。” 然而,对于Infra团队而言,MOE的意义在于它能极大地降低推理成本,使大模型的商业化应用成为可能。正是由于Infra团队的远见卓识,他们才在2022年初就启动了MOE项目,远早于算法团队的共识。> “恰利比还没火,那时候2022年初对这个真的很早,我都没想到那个时候就有MOE了,是而且你要知道这是INFRA团队。在主导训这个MOE模型,嗯,不是算法团队哦。” 这种“自下而上”的推动,正是Infra团队影响力的体现。同样,DeepSeek从一开始就大力投入MOE,也证明了其Infra团队的强大。因此,一个健康的组织,应当允许并鼓励Infra团队在模型架构设计上发挥关键作用,而不是被动地接受“订单”。
核心观点:技术演进、指标体系与未来范式
AI Infra的技术演进,正从单一的“效率优化”迈向复杂的“范式革命”,其核心驱动力是模型与硬件之间日益加深的协同关系。朱一博指出,当前最大的挑战并非已有技术的完善,而是尚未出现的、革命性的新范式。> “那更为困难的是,一些更加革命性的一些事情,这些事情只能走一步看一步。” 他以“模型与硬件的协同设计”(Co-Design)为例,描绘了未来的可能性:设想有一种全新的芯片,其计算范式与英伟达的GPU截然不同,而有人能够利用这种芯片,设计出前所未有的、效率惊人的模型。> “你可以想象有一种新的芯片,它的特点和英伟达卡很不一样,然后呢又有人利用这个芯片。” 如果这样的突破发生,其带来的将是“无人可敌的壁垒”,甚至可能获得图灵奖。然而,朱一博也清醒地认识到,这类革命性突破极其困难,目前尚无明确路径。
在现有技术框架内,评估AI Infra水平的指标体系正在经历深刻的变革。过去,人们普遍关注“训练MFU”(Model FLOPs Utilization),即模型在训练过程中实际完成的浮点运算量与硬件理论峰值算力的比率。> “我记得当时DEEP SEEK有发了这个指标啊,说做得很好啊,甚至呃实际上不是的。DEEP SEEK的训练MFU其实是偏低的OK。” 这个案例揭示了单一指标的局限性。MFU虽然重要,但它仅反映了一部分效率,且受模型架构、数据分布、硬件特性等多种因素影响。更重要的是,它未能捕捉到当前最关键的业务需求。朱一博明确指出,当前的第一优先指标是“解码速度”(Decoding Speed)和“解码成本”。> “所以我认为现在最重要指标就是后面这个输出的速度,嗯,因为这输出的速度第一对线上业务也是非常直接的成本,第二是它直接决定你强化学习的效率。” 解码速度直接决定了用户在使用聊天机器人时的体验,是线上服务的核心KPI。同时,它也是强化学习训练效率的决定性因素,因为强化学习的本质是“自我推理”,推理越快,反馈周期越短,训练速度就越快。因此,一个能快速生成文本的模型,其在强化学习时代的竞争力将远超其他模型。
这一指标的演变,深刻反映了AI应用范式的转移。从早期的“预训练+微调”模式,到如今的“提示工程”、“Agent”和“强化学习”,模型的使用场景越来越复杂,对实时性和交互性的要求越来越高。> “所以我觉得现在的第一指标是我们叫 decoding 或者你就可以理解为模型输出的速度。” 这意味着,未来的Infra优化,必须从“训练效率”转向“推理效率”,从“批处理”转向“流式处理”。这也解释了为何许多公司仍在执着于“训练MFU”,因为他们的优化目标仍停留在上一个时代。> “但你可以说这头也许有一些运气,因为他开始定这个优化目标的时候,大概率没有想到TEST TIMES GIVING二四年九月后会发生的事情。” 这种认知上的滞后,可能导致巨大的战略误判。
展望未来,朱一博认为,多模态的统一是下一个可能带来质变的方向。> “我们觉得多模态这边还是有一些突破的可能性的,嗯,尤其通过多模态的生成和理解的统一。” 他将当前的多模态状态类比为2020年的纯语言模型阶段,那时BERT是主流,但理解与生成是分离的。> “现在多模态状态还是蛮像。就2020年的纯语言的状态,那时候最流行的模型叫BERT。” 而真正的突破在于,能否构建一个模型,既能像理解一样分析视觉信息,又能像生成一样进行推理和创作。> “就是我这一个模型做理解比只做理解的模型好,做生成也比只做生成的模型好。” 这种“端到端”的能力,将极大简化应用开发流程,创造出全新的应用场景。阶跃星辰即将发布的数百亿参数视觉推理模型,正是这一方向的先锋尝试。> “这新模型从算法角度来说,它是应该是国内第一个可以由第三方商用的这个几百B的一个视觉推理模型。” 该模型的亮点在于,它能直接“看图推理”,无需将图像转换为文字再进行处理,实现了真正的端到端理解。> “现在来说我们不需要中间那一段转成文字,他直接看图推理。” 这种能力对于机器人、自动驾驶等物理世界交互场景至关重要,因为它能保留原始视觉信息中的空间关系和上下文语义,避免了信息丢失。
核心观点:第三方AI Infra的生存之道与生态格局
在大模型生态中,第三方AI Infra公司面临着严峻的生存挑战,其价值主张必须超越简单的“降本增效”。朱一博尖锐地指出,如果第三方公司仅仅扮演“中间层”的角色,即连接硬件和模型,那么其价值将被极度稀释,陷入“恶性价格战”的泥潭。> “如果所有人都能获得的硬件和所有人都能获得模型去做中间这一层的话,其实价值相对是比较小的,会非常非常的卷,只有大家就恶性竞争打价格战,因为说白了没有人的技术能够好到在AI INFRA这边拉开多大的区别。” 这一论断揭示了第三方公司的核心困境:技术壁垒难以建立,因为硬件和模型的开放性使得底层能力趋同。
因此,朱一博为第三方公司指明了唯一的出路:垂直整合。> “所以那第三方的价值,我觉得要么它和硬件去做垂直整合,要么和模型做垂直整合。” 他以游戏主机(如PS5)和游戏平台(如Steam)的商业模式作类比,形象地说明了这一逻辑。> “我有时候也打一个比方,是比如说PS5,你为什么要买PS5?因为它上面有独占的游戏。” 同理,一个成功的AI Infra平台(如MARS)要想吸引用户,就必须提供“独占”的价值。这种独占性可以来自两个方面:一是与特定硬件厂商深度合作,获得更低的算力成本和更优的技术支持;二是与特定模型厂商深度绑定,提供独家的、经过优化的模型API。> “那比如说有的MARS,比如说它和某些硬件厂商它有非常深度的合作,它可以更便宜拿到算力以及技术支持。当然它自己也对这个硬件有非常独到的一些研究。” 这种“硬件+Infra”或“模型+Infra”的组合,构成了难以复制的竞争壁垒。
当前市场上的第三方公司,大多集中在推理加速领域。朱一博列举了国内的硅基流动、路程科技等公司,尽管他对具体公司的近况不甚了解,但他判断其核心业务是推理。> “但基本上这几家都是在做推理加速对吧?我对他们近况不是特别了解,我问我理解的是推理为主。” 这一现象背后的原因在于,训练的商业模式难以成立。> “所以我觉得这是跟时机有关系,现在的状况是训模型的主要还是非常非常懂行的专业人士,然后专业人士第一钱很不好挣,第二呢我们训模型就是为了。用模型本身出来竞争的,然后意味着我们在训练的时候,无论我们做任何的研发,都是我们的核心竞争力。” 训练过程涉及大量专有数据、私有算法和定制化优化,这些都属于公司的核心机密,不可能外包给第三方。因此,训练市场注定是封闭的,而推理市场则相对开放,更适合第三方公司切入。
然而,开源模型的兴起,也为第三方公司带来了新的机遇与挑战。一方面,开源模型促进了整个AI Infra技术的发展,因为社区会为了跑好这些模型而进行大量的优化。> “开源模型很多人觉得说它对AI Infra的总体技术还是有促进的,我觉得这也是有道理,尤其是一些很。” 另一方面,它也可能抑制创新。> “也有一种趋势是因为一个开源明星很火,大家就会花很多精力在优化它上面,反而影响了创新。” 朱一博以DeepSeek为例,指出其模型架构与之前的模型(如Llama)完全不同,导致之前为后者所做的大量优化工作都“废掉了”。> “优化他们完了以后,DPC的模型很不一样,然后今年好多积累、好多时间就废掉了。” 这表明,过度依赖某个开源模型,可能会锁定技术路线,阻碍真正的创新。
此外,开源模型的普及,还对国产芯片的替代进程产生了意想不到的负面影响。> “然后这些模型又开源、免费使用,然后您可能也听过什么一体机啊这些生意。嗯,然后你做一体机的人,他就会发现他拿英伟达的卡做一体机跑DPC会千问,就是比国产卡要性价比要好,有竞争力。” 这意味着,即使国产芯片在理论上可以运行这些模型,但由于缺乏针对性的优化,其实际性能和成本远不如英伟达卡。这反过来削弱了国产芯片的市场竞争力,形成了一个“强者愈强”的恶性循环。> “所以最后。反而影响了国产芯片在市场上的竞争力,我觉得这是必然的结果嘛?” 朱一博由此提出一个极具前瞻性的解决方案:为国产芯片设计专门的、高效的模型。> “那我就是在想,我们是不是能够做到改变这边一点点?比如说我能不能去为国产的卡去设计一些模型?嗯,然后它也是收塔的水平,可以跑得效率非常的高。” 这种“软硬协同”的思路,或许能打破僵局,为国产芯片开辟一条独特的、可持续的发展道路。
核心观点:个人成长、职业建议与终极愿景
对于希望投身AI Infra领域的个人而言,朱一博给出了极为务实且深刻的建议。他认为,“全才”是不存在的,但必须在“懂模型”和“懂硬件”之间做出选择。> “就对于一个个人来说,我觉得很难有完全的全才。但是我认为除了INFRA本身的东西,你要非常的理解你,还要么要蛮懂模型的。要么要蛮懂硬件的,嗯,这样才有可能做得好。” 这一观点强调了专业深度的重要性。AI Infra的复杂性要求从业者必须在某一侧有深厚积累,才能在系统设计中做出明智的权衡。例如,一个精通硬件的工程师,可以设计出更贴合硬件特性的模型架构;一个深谙模型的专家,则能提出更有效的系统优化方案。
朱一博的个人经历,正是这一理念的最佳注脚。他从微软研究院的分布式系统研究起步,积累了深厚的系统工程经验;随后在字节跳动负责构建大规模AI Infra,将理论应用于实践;再到Google短暂的经历,拓宽了视野;最终创立阶跃星辰,将系统、算法与硬件的协同设计推向极致。> “所以基本上可以讲说你是国内最懂AI INFRA的人了?不,不好意思,之一之一啊。” 这句谦逊的回应,恰恰彰显了他对自己专业领域的深刻自信。他的职业生涯,完美地诠释了从“研究”到“工程”再到“创业”的演进路径。
他最推崇的,是Richard Sutton的《The Bitter Lesson》。> “其实我最喜欢的一段文章是那篇BRICK SUTTON的THE BITTER LESSON。” 这篇文章的核心思想是:长期来看,最能利用计算资源的方法,才是最终的赢家。> “他其实说的就是最终最能利用计算的方法长远。” 朱一博认为,这一思想对AI Infra团队具有“非常非常有指导意义”。> “就是我们怎么样能把硬件的计算发挥出来,怎么样设计这个模型能最好的利用上计算。” 这意味着,任何短期的“奇迹”或“捷径”都不足为道,唯有持续地、系统性地挖掘硬件潜力,才能在指数级增长的算力面前立于不败之地。
展望未来,朱一博的终极愿景是影响硬件本身。> “当然我最希望的还是也许有朝一日我们还能影响硬件,因为这中间是几十年,中间发生非常多事情。” 他以英伟达GPU的崛起为例,说明了硬件范式变革的巨大威力。> “一个最典型的事情就是这个英伟达的GPU翻身了,把叉八六以前INTEL MD的CPU风头都抢了。” 英伟达的成功,源于其对并行计算的极致追求,其摩尔定律的持续性远超CPU。> “GPU相对CPU它就是没有那么灵活,它就是做并行计算,那做并行算做得特别强,它的本质是换来了摩尔定律的持续。” 这种指数级的增长,最终使得所有新应用(如AI、元宇宙)都不得不迁移到GPU平台上。因此,AI Infra团队的最高境界,不是优化现有的硬件,而是设计出能与下一代硬件范式完美契合的模型与系统,从而引领新一轮的技术革命。这不仅是技术的胜利,更是战略的胜利。