← 返回
34 min 2025-10

#279.英伟达CTO谈AI时代的计算前沿与未来

引言:从芯片到宇宙——一场关于算力的范式革命

在人工智能(AI)技术迅猛发展的时代背景下,全球对算力的需求正经历前所未有的指数级增长。这一趋势不仅重塑了科技产业的格局,更深刻地改变了我们理解计算、构建系统乃至认知世界的方式。本期播客邀请到英伟达(NVIDIA)首席技术官Michael Kagan,一位拥有四十余年推动计算前沿发展经验的半导体行业传奇人物,深入探讨了AI时代下计算架构的根本性变革。

作为曾担任英特尔首席架构师、联合创办Mellanox并主导其技术方向的关键人物,Kagan亲历了从单芯片性能提升到大规模分布式计算体系演进的全过程。2019年,Mellanox被英伟达以70亿美元收购,这一事件成为AI基础设施演进史上的里程碑。自此,Kagan成为英伟达构建AI计算平台主导地位的核心推手。本报告基于完整播客内容,系统梳理其核心观点,全面呈现AI时代计算前沿的演进逻辑、关键技术挑战、工作负载演变以及对未来社会的深远影响。

报告将围绕四大主题展开:算力需求的指数级跃迁与扩展路径大规模集群的工程挑战与软件应对策略训练与推理工作负载的范式转变,以及AI驱动下的科幻愿景与人类文明新维度。所有论述均严格依据播客原文,未引入任何外部信息或推测,确保内容忠实于访谈原意。

一、算力需求的指数级跃迁与扩展路径:超越摩尔定律的“网络化计算”

传统计算的发展长期依赖于摩尔定律——即每两年晶体管数量翻倍,性能随之提升。然而,随着物理极限逼近,这种线性增长模式已难以为继。Kagan指出,当前全球对算力的需求已进入指数级发展阶段,且增速仍在持续加速。他强调:“我们通常习惯线性的去估算事物,但世界是指数级发展的,而且现在这种指数级增长甚至还在加速。”

这一变化的起点,是2010至2011年间AI的兴起,特别是GPU从图形处理器向通用可编程处理器的转型。当AI工作负载首次在GPU上运行时,其利用了GPU强大的并行处理能力与可编程特性,开启了全新的计算范式。随之而来的是模型规模与容量的爆炸式增长——“模型的规模和容量开始每三个月就翻一翻”。这意味着每年所需的性能增长高达十倍甚至六十倍,远超过去每两年翻一倍的传统节奏。

面对如此剧烈的增长需求,单一芯片的纵向扩展已无法满足要求。因此,计算架构必须转向横向扩展,即通过连接成千上万甚至数十万个芯片,形成一个统一的、可协同工作的“巨型计算单元”。

1. 纵向扩展:从单个芯片到“机架级机器”

在GPU领域,基本的计算构建模块已不再是硅片本身,而是一个完整的系统。Kagan形象地描述道:“所以我们今天所说的GPU其实是一台机架大小的机器。没错,你需要用叉车才能把它抬起来。” 这意味着,一个“GPU”实际上是一个集成了计算芯片、内存、电源、散热系统及软件栈的复杂系统。

为了实现单节点内的性能最大化,英伟达通过NVLink技术实现了纵向扩展。这是一种高带宽、低延迟的芯片间互联方案,允许在一个计算节点内部将多个GPU连接为一个统一的计算资源池。例如,从单个GPU扩展到72个GPU,同时保持相同的软件接口(如CUDA),从而实现近乎无缝的扩展体验。

2. 横向扩展:网络成为决定性瓶颈

当单节点的极限被突破后,真正的挑战在于如何将多个这样的“机架级机器”连接起来,形成跨节点、跨服务器的统一计算体。这便是横向扩展的核心任务。

Kagan明确指出:“当你把这个构建模块做到你能想象的极限大小时,你就要开始横向扩展了。” 但横向扩展并非简单地将设备用线缆连接起来,而是需要解决一系列根本性问题:

  • 通信开销:将一个任务拆分为多个子任务分发给不同GPU,虽然理论上能带来加速,但通信时间会占据相当比例。如果通信成为瓶颈,整个系统的效率将大幅下降。
  • 延迟分布的稳定性:除了峰值带宽,更重要的是延迟时间的分布是否稳定。Kagan强调:“你还需要确保无论谁和谁通信延迟时间的分布都非常窄。” 如果延迟抖动大,系统就必须预留大量冗余时间来等待最慢的通信完成,导致整体效率降低。他举例说明:“如果你本来能把任务拆给1,000个GPU,现在只能拆给10个。”
  • 通信与计算的隐藏机制:在优化应用时,开发者试图将通信时间“隐藏”在计算时间之后。但如果通信延迟变长,所有部分都得等待,破坏了并行效率。

正是在这一背景下,高速网络技术成为决定整个系统性能的关键因素。Kagan指出,网络的作用不仅是传输数据,更是让多个节点“像一台机器一样工作”的基础。而Mellanox的技术,正是在这一层面提供了不可替代的价值。

3. Mellanox的融合价值:从“连接器”到“计算中枢”

Mellanox的核心贡献在于其在高性能互联领域的深厚积累。在被英伟达收购前,英伟达的纵向扩展仅限于单节点内部。要实现跨节点的无缝连接,必须依赖Mellanox提供的InfiniBand和以太网技术,配合复杂的软件栈,才能将多台机器整合为一个逻辑上的单一计算单元。

Kagan总结道:“这就是Mellanox带来的第一个也是最直接的价值。” 此外,Mellanox的技术还支持将一个操作拆分到多台机器上运行,实现细粒度的任务并行。这种能力使得系统能够真正发挥出“百万级GPU协同工作”的潜力。

更进一步,英伟达将Mellanox的网络技术与自身产品深度融合,形成了包括计算芯片、两种网络芯片、五种在内的多元化芯片组合体系。这标志着英伟达已不再仅仅是一家GPU厂商,而是一个构建端到端AI计算平台的生态领导者。

二、大规模集群的工程挑战与软件应对策略:从可靠性到光速限制

当系统规模达到十万甚至百万级GPU时,传统的“小规模系统思维”完全失效。Kagan指出,这不仅仅是性能问题,更是系统工程学的全新挑战。他将其归纳为“多阶段的挑战”,并从硬件故障、通信延迟、跨数据中心协同等多个维度进行了剖析。

1. 硬件故障的必然性与容错设计

Kagan提出一个看似反直觉却极为关键的观点:“硬件组件在99.999%的时间里是正常工作的。” 这意味着,对于单台设备而言,故障率极低。但一旦系统规模扩大到10万个组件,即数百万个零部件,所有部件同时正常工作的概率趋近于零

因此,在设计之初就必须假设“总有东西是坏的”。这要求系统具备强大的容错能力,能够在部分硬件失效的情况下仍能维持高效运行、保障能效,并确保服务连续性。这种设计思想贯穿于英伟达从硬件到软件的全栈架构中。

2. 单一任务的跨数据中心运行:从“松散耦合”到“强耦合”

在传统数据中心中,网络服务于松散耦合的微服务架构,各服务之间相对独立。但在AI训练与推理场景中,情况完全不同:你是在10万台机器上运行一个单一的应用程序

Kagan强调:“在这种规模上构建计算网络和构建一个通用的数据中心网络是完全不同的。” 这种“强耦合”的运行模式对网络提出了更高要求。它不仅需要高带宽,更需要精确的延迟控制与智能调度。

3. 光速限制与跨数据中心通信的挑战

当工作负载需要分散部署在相隔数公里甚至数英里的多个数据中心时,光速成为不可逾越的物理瓶颈。Kagan指出:“现在你机器不同部分之间的延迟差异变得非常巨大。” 这种巨大的延迟差异带来了新的问题:

  • 网络拥塞管理困难:在传统电信网络中,常通过在边缘放置大型缓冲区来吸收突发流量,充当“减震器”。但Kagan认为:“巨大的缓冲区不是好事,有时候更大不等于更好。” 因为缓冲区会引入抖动,反而损害系统性能。
  • 通信模式需动态调整:在跨数据中心场景下,每台机器都必须知道其通信对象是短距离还是长距离,并据此调整通信策略。否则,系统将无法有效利用带宽。

为此,英伟达开发了名为Spectrum X的新一代网络技术。该技术基于Spectrum交换机,部署于数据中心边缘,能够提供实时的遥测数据与网络状态信息,使终端设备能够根据拥塞情况自我调整通信行为,从而避免对大缓冲区的依赖。

4. 数据中心的“隔离”与安全:Bluefield DPU的崛起

除了通信与计算,另一个关键挑战是基础设施与应用计算的隔离。在传统计算机中,CPU既负责运行操作系统,也负责运行应用程序,存在攻击面过大的风险。历史上曾出现的“熔断漏洞”等侧信道攻击,正是源于此。

为解决这一问题,英伟达引入了Bluefield DPU(数据处理单元)。这是一种专用的计算平台,专门用于运行数据中心操作系统和基础设施服务。其核心优势在于:

  • 将基础设施计算与应用计算彻底隔离
  • 显著减少攻击面,尤其在防止侧信道攻击方面效果显著;
  • 提升整体系统的安全性与稳定性。

Kagan表示:“我可能不太客观,但我确实认为Mellanox和英伟达的合并是双向奔赴的。” 这一整合不仅带来了技术上的协同效应,更催生了全新的安全架构范式。

三、训练与推理工作负载的范式转变:从“训练为主”到“推理即服务”

长期以来,AI的算力消耗主要集中在训练阶段。然而,生成式AI的爆发正在颠覆这一格局。Kagan指出,推理(inference)正变得同样甚至更加计算密集,其需求量级已远超训练。

1. 传统推理 vs. 生成式AI推理

传统AI推理以感知型任务为主,例如图像识别:“你给他看张图,他告诉你这是条狗。” 这类任务通常是单次、一次性完成的,计算量相对较低。

但生成式AI的出现改变了这一切。用户输入一个提示词(prompt),系统开始递归地生成文本或图像。每一次生成一个新的TOKEN,都需要重新运行整个模型。Kagan解释道:“每生成一个新的TOKEN,你都需要把整个模型重新跑一遍。”

此外,随着“思考”(reasoning)能力的引入,系统开始进行多步推理。例如,回答一个复杂问题时,机器需要权衡多种解决方案或路径。每一步思考都是一次推理

2. 推理的两个阶段:预填充(Prefill)与解码(Decode)

Kagan详细剖析了推理过程的两个关键阶段:

  • 预填充(Prefill):这是计算密集型阶段。系统接收提示词或上下文信息,构建生成答案所需的初始状态。虽然对内存要求不高,但计算量大。
  • 解码(Decode):这是内存密集型阶段。系统逐个生成TOKEN,每次生成一个新token,都需要访问历史状态并进行计算。尽管单次生成量小,但总长度可能很长,累积计算量巨大。

Kagan强调:“如果你把所有这些加起来,推理对算力的需求其实不比训练少,甚至可能更多。” 这有两个根本原因:

1. 推理本身的计算量显著增加

2. 模型只需训练一次,但推理要进行无数次

他以ChatGPT为例:“你看ChatGPT有近十亿用户一直在用它,他们训练好的同一个模型,现在又拿来做视频了,这可不得了。” 每个人都在进行推理,形成了庞大的并发请求。

3. 硬件优化方向:从通用到专用

尽管预填充和解码阶段的计算需求相似,但它们的特征不同。因此,英伟达正在探索针对性的硬件优化

Kagan宣布:“我们已经宣布了正在打造一款专门为预填充优化的GPU SKU。” 未来,数据中心可以配置两类GPU:

  • 专为预填充优化的型号;
  • 专为解码优化的型号。

两者均可互换使用,可根据典型工作负载灵活配置。这种设计体现了可编程性的重要性——“GPU用的都是同样的接口,都基于CUDA”,使得系统具备高度灵活性。

4. 部署场景的分化:从云端到边缘

推理的部署场景也呈现出多样化趋势:

  • 移动设备:手机等终端可进行轻量级推理,实现本地化响应;
  • 数据中心:大规模推理仍需依赖高性能GPU集群;
  • 混合部署:部分推理可在边缘完成,部分在云端集中处理。

Kagan指出:“可编程性的价值要远大于针对特定硬件的优化。” 因为每个硬件实例都有其成本与局限,而可编程架构能适应不断变化的工作负载。

四、AI驱动的科幻愿景与人类文明新维度:从模拟历史到发现物理定律

在技术讨论之外,Kagan展现了极具前瞻性的哲学思考。他将AI视为一种“改变世界的思想的宇宙飞船”,并展望了一系列令人震撼的未来图景。

1. 历史学的实验科学化

Kagan设想:“如何让历史学成为一门实验科学?” 在物理学中,我们可以做实验,观察结果,再尝试其他方案。但在历史中,时间是单向的,无法重来。

然而,若能构建一个“世界模拟器”,我们就能进行“历史实验”。“我们有地球2号这个气候模拟器,通过这种技术,我们就能模拟出我们今天的所作所为将如何影响50年后的全球变暖。” 这种模拟能力,使历史研究从“描述性”走向“预测性”与“实验性”。

2. 人工智能发现物理定律

更深层次的愿景在于:AI可以帮助我们发现新的物理定律

Kagan指出:“当我们让AI模型理解了物理学,我们其实就可以向AI学习物理了。” 传统理论物理学依赖于观察现象并进行归纳总结。而AI在处理海量数据、识别复杂模式方面具有天然优势。

“AI非常擅长归纳处理数据和观察。” 因此,AI不仅能验证现有理论,更可能揭示人类尚未想象的物理规律。

3. “皇家Kagan定律”:每年10倍的性能增长

在摩尔定律逐渐失效的今天,Kagan提出了一个更具野心的“皇家Kagan定律”:每年10倍的性能增长

他坦言:“这个斜率大概是每年10倍,或者说几个数量级。” 这并非指芯片制程的进步,而是指整机系统性能的提升。英伟达已将产品迭代周期从每两年一次加速至每年一次,新一代产品带来数量级的性能飞跃。

他强调:“这还不是芯片层面的性能,而是指你能用这些产品构建出的整机性能,我们关注的是单一计算单元。”

4. 人类未来的可能性:思想的宇宙飞船

最后,Kagan以诗意的语言描绘了AI的终极意义:“史蒂夫乔布斯曾称计算机是思想的自行车,那么AI我不知道它可能就是一艘思想的宇宙飞船。”

他解释道:“因为有很多我想做的事,但我没有足够的时间和资源。有了AI,我就有了,这并不意味着我会做两倍的工作,也许是十倍,但关键是我会想做比今天多一百倍的事情。”

他引用了一个普遍现象:“任何一个项目负责人,没人会说我的人手够了,资源够了,我什么都不缺了。如果你给他一个效率高一倍的资源,他会想做4倍的工作,然后他会想做10倍。”

这正如电力的发明改变了世界,使人类摆脱了对煤气灯的依赖。AI也将成为新时代的“电力”,彻底重构我们的生产力与创造力。

总结与启示:一场由算力驱动的文明跃迁

本次访谈全面揭示了AI时代计算架构的深层变革。从单芯片性能的极限,到千万级GPU协同的系统工程;从训练主导的算力需求,到推理即服务的全新范式;从现实世界的优化,到模拟历史与发现物理定律的科幻图景——这一切共同指向一个核心结论:

算力的边界,即是人类认知与创造边界的边界。

英伟达的成功,不仅在于其技术领先,更在于其文化理念:“我们追求的不是从现有的蛋糕里分走更大的一块,而是为所有人把蛋糕做得更大。” 这种“双赢文化”使得英伟达与英特尔的合作成为可能,也使其生态系统得以持续扩张。

而Mellanox的并入,则是这场变革的关键拼图。它将“连接”从辅助角色提升为计算架构的核心支柱,使英伟达真正实现了从“芯片公司”到“计算平台公司”的跃迁。

最终,Kagan所描绘的不仅是技术蓝图,更是一种文明愿景:当AI成为“思想的宇宙飞船”,人类将不再受限于时间与资源,而是迈向一个无限可能的未来。

正如他所说:“我们只是在为创新搭建平台。” 而这个平台,正承载着人类文明的星辰大海。