← 返回
72 min 2025-11

「AI Infra 就是命运」 | 对谈王雁鹏:亲述从大数据时代到 3 万卡集群的中国算力演进史

报告概述

本报告基于《「AI Infra 就是命运」| 对谈王雁鹏:亲述从大数据时代到 3 万卡集群的中国算力演进史》一档深度播客内容,系统梳理并重构了中国互联网基础设施在近二十年间经历的三次范式跃迁:从以Google引领的大数据时代,到以亚马逊为代表的云计算时代,再到当前由大模型驱动的AI算力时代。报告以百度百舸平台负责人王雁鹏的职业生涯为叙事主线,揭示了算力基础设施如何从“可有可无”的支撑角色,逐步演变为决定技术竞争力的核心命脉。报告指出,当前全球AI竞赛已从算法创新转向对底层算力、电力、数据中心等物理世界的全面军备竞赛,而“Infra Is Destiny”(基础设施即命运)已成为行业共识。美国OpenAI通过耗资千亿美元的“星际之门”超级计算机项目与3000亿美元的与Oracle合作建设4.5吉瓦巨型数据中心,正将这一趋势推向极致;与此同时,中国以百度为代表的科技企业也在自研芯片、构建超大规模集群方面取得突破,其三万卡国产单体集群已投入实际训练任务,展现出强大的工程能力与战略定力。

报告进一步深入剖析了算力演进背后的深层逻辑:从CPU时代的通用计算范式,到GPU时代以“堆算力”为核心的性能跃迁,再到大模型时代依托“Scaling Law”实现的工业级智能生产。在此过程中,软硬件协同优化成为关键,如DeepSeek通过模型架构与硬件的深度耦合,实现了Mixture of Experts(MoE)稀疏计算在GPU集群上的高效运行,验证了“软硬一体”设计的巨大价值。报告还前瞻性地探讨了未来竞争格局:尽管资本与规模构成显著壁垒,但真正的突破仍可能来自架构层面的颠覆性创新,如类脑神经网络、视觉化信息处理等方向,这些探索虽非当下主流,却可能是通往AGI的必经之路。最后,报告从职业发展视角出发,提出在AI Infra领域深耕需具备长期主义精神、跨学科融合能力与组织协同机制,并强调“全栈能力”将成为新一代工程师的核心竞争力。

核心观点:算力演进的三大历史阶段与范式跃迁

第一阶段:大数据时代——从商业硬件到自研系统的范式革命

2010年代初,随着互联网数据量呈指数级增长,传统商业硬件体系面临根本性挑战。IBM大型机、惠普/戴尔服务器及Oracle数据库等商用解决方案,其设计初衷服务于小规模、高成本的业务场景,面对海量数据处理需求时,不仅价格高昂,且难以扩展。这一结构性矛盾催生了以Google为代表的技术革命。Google通过发布MapReduce、BigTable和GFS三篇奠基性论文,首次系统性地提出了“用商品化硬件构建高性能分布式系统”的理念,从而开创了大数据时代的技术范式。该范式的核心在于:以软件定义硬件,用廉价的PC级硬件替代昂贵的专用设备,通过分布式计算与存储技术实现系统整体性能的飞跃。这一变革的深远意义在于,它打破了硬件厂商对基础设施的垄断,使互联网公司能够自主掌控计算资源,从而开启了“自研基础设施”的先河。

王雁鹏作为百度早期基础设施建设者,亲身经历了这一转型过程。他指出,百度在当时也面临着与Google相似的挑战,尤其是搜索业务对数据处理能力的需求远超电商或社交应用,这使得百度成为国内最早主动布局自研基础设施的公司之一。其具体实践包括:自研服务器、自研SSD硬盘,并通过软硬件一体化设计大幅降低单位算力成本。例如,当时商用服务器与自研服务器的成本差异可达一倍之多,而通过自研方案,百度成功将成本压缩至原有水平的一半以下。这种成本优势不仅体现在初期采购上,更体现在长期运维与扩展能力上。这一阶段的典型特征是:硬件相对简单,但软件复杂度极高,需要构建完整的分布式文件系统、调度系统与容错机制,从而形成一个“软件主导”的新型计算生态。

“当时他其实做这个东西,对他的这个出发点呃。是也很直接,当时的更多的商业的这种硬件的话,都是为小规模服务的。当时比如说我们看到当时有这种IBM的大型机啊,然后像这个惠普、戴尔的服务器啊,然后包括ORACLE的数据库啊,这些软硬件都是为比较就跟互联网的数据量比,基本上差两个数量级的这种规模。”

这一阶段的成果最终被广泛开源,如Hadoop生态的兴起,使得整个行业得以共享这一技术红利。然而,其局限性也逐渐显现:系统复杂度高,运维门槛高,且缺乏弹性,无法满足快速变化的业务需求。这为下一阶段的云时代埋下了伏笔。

第二阶段:云计算时代——从固定部署到弹性资源的范式跃迁

如果说大数据时代解决了“能跑起来”的问题,那么云计算时代则解决了“用得方便”的问题。亚马逊AWS的崛起标志着这一范式的成熟。其核心逻辑源于亚马逊自身在电商业务中面临的巨大波动性:淡季与旺季之间存在显著的流量峰谷。为解决闲置服务器资源浪费的问题,亚马逊创造性地将未使用的计算资源对外出租,由此诞生了全球首个公有云服务。这一模式的本质是:将计算资源抽象为可按需购买、随时释放的“服务”,实现了从“拥有硬件”到“使用服务”的根本转变

王雁鹏在回顾这一阶段时,生动地描述了早期开发者的困境:“我记得我最早做产品经理的时候,那个时候就是是跟着王兴做饭否,然后我有一个很深刻的印象,就是那会儿我们突然有一天服务器的这个量就起来了。那个时候其实我们正好办公室里面就不知道为什么备着一台没有用的服务器就放在办公室,然后还是就配好了。配好之后我是和新哥我们打了一个黄色出租车打到北京西站,那个时候我们的机房在北京西站,然后我俩搬着那个刀片儿的服务器,然后给它插进去,然后还要打电话再给。这个办公室的同事说,看一看好没好?” 这种“打车搬服务器”的原始状态,正是传统IT架构的缩影,其效率低下、响应迟缓,严重制约了产品迭代速度。而云服务的出现,彻底改变了这一局面:开发者只需点击几下鼠标,即可获得数以千计的虚拟机实例,资源的申请、配置与释放变得如同操作本地电脑一般便捷。

这一阶段的技术核心是虚拟化。AWS通过构建一套强大的虚拟化平台,将底层成千上万台物理服务器的计算、存储与网络资源,动态地虚拟化为数十万甚至上百万个独立的虚拟机实例。用户可以直观地查看CPU、内存、硬盘等资源的使用情况,并根据负载动态调整资源配置,实现了前所未有的“弹性”。为了支撑这种大规模的虚拟化,关键技术如智能网卡(SmartNIC) 应运而生。智能网卡充当了虚拟化平台的“中枢”,负责处理复杂的网络协议栈、资源隔离与调度,从而将底层物理资源与用户可见的云资源有效隔离开来,确保了系统的稳定与高效。

“所以这一套东西深刻地影响了我们说的第二阶段,我们做的这个基础设施的架构。它就需要把这种复杂的底层的这种虚拟化的能力沉到我们的数据中心这一侧。数据中心你可以管了这个几万台服务器。但是你在这几万台服务器上,你可以虚拟出来几十万台这个这个用户侧的电脑。”

这一阶段的成果是巨大的:它极大地降低了创业门槛,加速了技术创新的周期,使得无数初创公司得以在极低的成本下启动业务。然而,随着业务复杂度的提升,特别是进入AI时代后,传统的虚拟化架构开始显现出瓶颈。当计算任务高度密集、通信频繁时,虚拟化带来的额外开销(overhead)成为性能瓶颈,这促使业界迈向第三阶段——以算力为核心的新范式。

第三阶段:AI算力时代——从通用计算到专用算力的范式革命

当前,AI技术的发展已进入一个全新的纪元,其驱动力已从算法创新转向对底层算力的极致追求。王雁鹏明确指出:“AI真的是一个计算、计算范式的变化。” 这一判断深刻揭示了当前技术演进的本质。与过去依赖CPU进行通用计算不同,现代大模型的训练与推理完全依赖于GPU等专用加速芯片。其核心区别在于:CPU的设计目标是处理复杂的逻辑控制,而GPU的设计目标是最大化并行计算吞吐量

具体而言,现代CPU的晶体管中仅有约10%用于实际计算,其余90%均用于复杂的控制单元、指令流水线、乱序执行与分支预测等逻辑功能,以保证其通用性和灵活性。相比之下,GPU的晶体管几乎全部用于计算单元,其设计理念是“把所有空间都留给计算”。这种设计带来了巨大的性能优势,但也带来了新的挑战:GPU无法直接运行通用程序,必须依赖特制化的软件栈进行优化。因此,要充分发挥GPU的算力,必须采用“软硬一体”的开发模式,即算法、框架与芯片架构必须深度协同。例如,英伟达的CUDA生态之所以强大,正是因为其工程师团队长期驻场客户,帮助优化每一个算子(kernel),确保代码能在其硬件上以最高效率运行。

这一范式的核心驱动力是“Scaling Law”——即模型性能随参数量和数据量的增加而持续提升。这一规律的发现,使得AI研发从一种依赖天才灵光乍现的“艺术”转变为一种可复制、可规模化的“工业生产”。正如王雁鹏所言:“大家只要去 scaling 我的东西,scaling 我的参数量,scaling 我的数据,我的智能就会越来越强。” 这一范式的确立,意味着算力不再是简单的“工具”,而是“生产力本身”。谁掌握了最强大的算力集群,谁就能在模型迭代中占据绝对领先优势,从而形成“算力-模型-数据”的正向循环。

“所以这个催生了我们现在真正的,在我看来就是从整个大的计算平台,从CPU真正跃迁到以GPU为核心去弄,而且这个GPU为核心,智能就是算力。”

这一阶段的典型代表是OpenAI的“星际之门”计划,其传闻中的1000亿美元投资,以及与Oracle达成的3000亿美元、4.5吉瓦的巨型数据中心建设合同,其背后反映的正是对算力基础设施的极端重视。4.5吉瓦的电力需求,相当于四个核电站的发电量,其规模之巨,远超普通数据中心,凸显了算力已成为国家科技竞争力的战略资源。

核心观点:中国算力演进的实践路径与战略洞察

中国算力的规模化实践:从三万卡集群看工程能力

在全球算力竞赛的背景下,中国科技企业正通过自研与集成的方式,快速追赶国际先进水平。王雁鹏作为百度百舸平台的负责人,其团队打造的三万卡国产单体集群,是中国在AI基础设施领域最具代表性的工程成就之一。该集群不仅是国内目前最大的国产单体集群,更是百度为应对大模型时代算力需求而做出的战略性部署。其意义不仅在于规模,更在于其背后所体现的系统性工程能力。

该集群的建设并非一蹴而就,而是经过了长达数月的规划与调试。据王雁鹏透露,从集群建成到被全部投入使用,仅用了两三个月时间。这一极短的“空窗期”充分说明了国内AI产业对算力的渴求程度之高,大量前沿研究与模型训练任务因算力不足而被“压抑”已久,一旦算力到位,便迅速被填满。这印证了“算力是创新的催化剂”这一核心论断。

在技术实现层面,该集群面临诸多挑战。首先,电力供应是首要难题。三万卡集群的功耗巨大,传统的楼宇级变电站已无法满足需求,必须升级为园区级甚至更大规模的供电系统。其次,散热问题极为严峻。为解决高密度计算带来的热量,集群大规模采用了液冷技术,通过液体直接接触芯片进行冷却,相比传统的风冷,其散热效率更高,能效比更优。再次,网络互联是性能瓶颈。当集群规模达到三万卡级别时,传统的RDMA(远程直接内存访问)技术在长距离、大规模组网下的延迟与带宽瓶颈暴露无遗。为此,团队引入了长距RDMA技术,并设计了全新的网络拓扑结构,以确保节点间的通信延迟保持在可接受范围内。

“所以我们可以看到在。这个这个规模下面,我们就大规模的用了这个液冷,然后用了我们的这个长距的RDMA的技术。就原来的RDMA其实是在,就是我们这个网络互联其实是在一个比较小的规模里面去做的。当你到这个三万卡或者更大规模的时候,或者十万卡规。”

这一系列技术的集成,体现了中国企业在高端基础设施领域的系统性工程能力。尽管在芯片性能上,国产芯片与英伟达的旗舰产品(如H100)仍存在一定差距,但通过软件优化与系统设计,百度已能将国产芯片集群的利用率发挥到极致,使其成为支撑大模型训练的可靠平台。

中美算力格局的对比与差距分析

尽管中国在算力集群的规模上取得了显著进展,但与美国头部公司相比,仍存在结构性差距。王雁鹏坦承:“他们现在的头部的这家公司的集群规模,呃,我指最先进的模型训出来那个大概都在十万卡的级别。” 这意味着,美国公司在算力规模上已领先中国约三倍。这一差距的背后,是多重因素共同作用的结果。

首先,芯片性能差距是根本原因。英伟达凭借其在GPU架构、CUDA生态和软件优化上的长期积累,其产品在算力密度、能效比和编程友好性上遥遥领先。中国虽然在自研芯片领域取得突破,但在与顶级模型训练所需的算力要求相比,仍存在代际差距。其次,资本投入能力决定了扩张速度。OpenAI与英伟达的深度绑定,使其能够获得源源不断的资金支持,从而推动算力基础设施的快速迭代。相比之下,中国企业在获取海外先进芯片方面受到严格限制,迫使它们必须走自研路线,这在短期内增加了研发成本与不确定性。

然而,王雁鹏也指出,这种差距并非不可逾越。他认为,国产芯片的成功关键在于能否与最先进的模型训练深度绑定。如果未来中国的顶尖大模型(如文心大模型)能够持续在国产芯片平台上完成训练,那么国产芯片的生态系统将自然形成,其成功概率将大幅提升。这正是“芯片为模型服务”这一核心逻辑的体现。

关于“基建是否浪费”的争议与长期主义思考

近期,OpenAI与Oracle的巨额合同引发了外界对其“是否造成巨大浪费”的质疑。批评者认为,数据中心与芯片的迭代速度远快于光缆等传统基础设施,可能导致“建好即过时”的尴尬局面。对此,王雁鹏给出了深刻的回应:“我相信一百倍终终归会来,只是说我是三年到了,还是五年到了,它只是这么一个差别。”

这一观点揭示了看待算力投资的根本视角。在他看来,当前的算力投入并非单纯的“固定资产投资”,而是一种对未来技术范式的押注。正如蒸汽机发明后,人们并未因电动机尚未出现而否定蒸汽机的价值,今天的算力投入,正是为了支撑未来十年内可能出现的颠覆性技术突破。其本质是“支持更好的创新,让创新的时间拉得更短”。

“它的见的本质,就是说我要支持更好的创新。更快速的创新,让我们这个时间真的能拉短。就大家都相信那个一百倍未来的那个时代会来临,那我现在建的这个东西能不能让这个来临的时代说的短一点?那就是这么一个区别。”

因此,算力基础设施的建设不应被简单地用“短期回报率”来衡量,而应被视为一场关乎国家科技竞争力的长期战略投资。其价值不在于“是否立刻产生效益”,而在于“是否能为未来的爆发性创新提供必要的土壤”。

次要观点与细节:软硬一体、人才战略与未来展望

软硬一体:从算法到架构的深度融合

在大模型时代,算力效率的提升不再仅仅依赖于硬件性能的提升,更取决于“软硬一体”的深度协同。王雁鹏以DeepSeek为例,详细阐述了这一趋势。DeepSeek的模型架构并非孤立设计,而是从一开始就基于现有GPU芯片与集群的特性进行优化。其核心创新之一是成功实现了Mixture of Experts(MoE)稀疏计算在大规模GPU集群上的高效运行。

MoE模型的特点是“部分激活”,即每次前向传播只激活模型中的一部分专家(Expert)。这理论上可以极大提升计算效率,但对硬件提出了苛刻要求:它要求系统能够高效地调度和管理稀疏的计算任务。传统的GPU集群擅长处理密集的矩阵运算,对稀疏计算的支持较差。因此,若不进行针对性优化,MoE模型在GPU上反而可能因调度开销过大而效率更低。

DeepSeek的突破在于,其团队在设计模型架构之初,就将硬件的调度能力纳入考量,通过精心设计的路由算法与通信模式,使得稀疏计算的开销被最小化。这证明了“算法的效率与算力的效率是乘积关系”——只有当两者都得到优化时,才能实现真正的性能飞跃。

人才战略:从“运维”到“全栈创新”的职业转型

在AI Infra领域,工程师的职业发展路径正发生深刻变革。王雁鹏指出,过去从事基础设施工作的工程师常被误认为是“运维”,其工作要么“稳定如常”(无人关注),要么“宕机如雷”(被集体问责),反馈周期长,成就感弱。然而,他个人的经历表明,在正确的平台与使命下,基础设施工作同样可以成为高价值、高影响力的创新活动

其成功的关键在于两点:一是平台足够大,有足够的资源与目标去支撑大规模创新;二是与上层业务紧密耦合。王雁鹏回忆道,百度早期的自研SSD项目之所以能快速落地,正是因为其需求明确(服务于搜索业务),且团队能与业务方直接协作,形成了高效的“创新闭环”。这种模式使得十人以下的小团队也能获得百万美元级别的奖励,极大地激励了工程师的创新热情。

“因为大家知道百度有一个最高奖啊,它的标准是奖给十人以下的小团队去做出来超越超预期的这种价值,然后这个奖金是一百万美金。”

这一案例揭示了未来人才发展的方向:复合型人才。未来的AI Infra工程师,必须同时具备算法理解力与系统架构能力,能够“既懂算法又懂英法”。这种“全栈能力”将成为核心竞争力,使工程师不仅能解决稳定性问题,更能参与从模型设计到系统部署的全过程创新。

未来展望:从“算力竞赛”到“架构革命”

尽管当前算力竞赛激烈,但王雁鹏也提醒我们,这并非智能演进的终点。他引用Hinton的观点,指出Transformer架构可能只是通向AGI的初级阶段,真正的突破或许来自于对人类大脑工作机制的模仿,如类脑神经网络触发式计算等。此外,DeepSeek最新发布的OCR技术也暗示了一种新范式:人类记忆与信息处理并非基于文字Token,而是基于视觉图像。这提示我们,未来的AI可能需要更高效的输入编码方式,如图像压缩,以提升信息处理效率。

“其实人类这个在记忆里面不是用文字来记东西的,或者就我们处理信息也不是用文字来处理的,我们都是用视觉。我们看到什么?包括我们看书,其实也是在看一个视觉。”

这些前沿探索表明,未来的竞争将从“堆算力”转向“创架构”。尽管当前资本与规模构成壁垒,但真正的颠覆性创新,仍可能来自那些敢于挑战主流范式、拥抱跨学科融合的探索者。对于创业者而言,机会或许不在与云厂商的同质化竞争,而在于针对特定场景的深度优化,或在下一代计算范式上进行早期布局。

总结与启示:算力即命运,未来在脚下

综上所述,本播客通过对王雁鹏职业生涯的深度访谈,系统呈现了中国互联网基础设施从大数据时代到大模型时代的完整演进图景。其核心洞见在于:算力基础设施已从技术的“幕后”走向了创新的“前台”,成为决定国家与企业未来竞争力的核心变量。无论是OpenAI的千亿级投资,还是百度三万卡集群的建成,都印证了“Infra Is Destiny”这一铁律。

这一演进并非简单的技术叠加,而是一场深刻的范式革命:从通用计算到专用算力,从软件定义硬件到软硬一体协同,从个体创新到系统工程。它要求从业者具备长期主义精神、全栈视野与跨学科融合能力。对于个人而言,选择投身AI Infra领域,意味着选择一条虽反馈周期长但价值深远的道路;对于国家而言,这场算力竞赛,本质上是一场关乎未来科技主权的战略博弈。

最终,正如王雁鹏所言:“这真的是一个很美妙的时代。” 在这个时代,技术的边界正在被不断拓展,而每一个愿意深入其中、融会贯通的人,都将有机会亲手塑造下一个文明的基石。