23 min 2025-10

#259. OpenAI x 博通宣布合作：共建 AI 基础设施的未来

概述

访谈概述

本期播客围绕 OpenAI 与半导体巨头 Broadcom 的战略合作展开，深入探讨了双方在定制芯片、系统级架构设计及全球智能基础设施建设方面的深度协同。此次合作标志着人工智能产业从“算法主导”迈向“软硬一体、全栈整合”的新阶段。

访谈由主持人 Andrew May 主导，嘉宾包括 OpenAI 高层代表、Broadcom 工程团队负责人（如 Hock Tan、Greg Charlie）以及外部技术观察者。讨论内容涵盖战略动因、技术路径、工程挑战与长期愿景，层层递进地揭示了 AI 基础设施演进的核心逻辑。

核心议题包括：

AI 算力需求的本质演变与现有硬件的局限性
定制化芯片与端到端系统设计的战略必要性
全栈垂直整合的技术范式转变
AI 自我赋能其基础设施建设的新趋势
实现“计算富足”社会的长远目标

本报告将各片段整合为一份完整、连贯的专业访谈分析，系统呈现本次合作背后的技术深意与文明级影响。

核心观点与论述

观点一：AI基础设施正成为人类历史上最大规模的联合工业项目

主要论述

主持人 Andrew May 指出，当前全球 AI 基础设施建设已超越传统科技范畴，构成一场跨企业、跨国界、跨学科的系统性工程协作。其本质不仅是技术升级，更是“定义文明下一代的操作系统”。

支撑论据

尽管当前进展仅满足未来需求的一小部分（“沧海一粟”），但投入的资源复杂度和动员能力已达前所未有的工业水平。
数十万瓦级别的计算系统部署计划，体现了物理层面的大规模能量集成与工程实施难度。

具体案例

双方正在规划“数十万瓦”级推理集群，单个数据中心功耗堪比一座小城市，需统筹热管理、电源分配、冷却系统等多维工程挑战。

关键洞察：AI 发展已进入“基建决定上限”的新阶段，技术创新必须与产能建设、生态协同并行推进。

观点二：通往AGI的认知转变——从“创意驱动”到“规模驱动”

主要论述

OpenAI 创立初期认为 AGI 的实现依赖于算法创新；然而自 2017 年起，通过 Dota 2 强化学习项目的实证研究，团队发现模型性能提升高度依赖算力扩展，从而确立“规模化即能力”的核心认知。

支撑论据

在 Dota 2 项目中，当算力翻倍时，智能体表现几乎同步提升一倍，形成清晰正向关系。
其他方法在效果上远不如扩大参数量、数据量和训练时长显著。

深层含义

这一认知跃迁促使 OpenAI 重新评估技术路线，逐步将重心从纯软件探索转向底层硬件控制。

历史节点：2017 年是 OpenAI 战略转型的关键年份，标志其从“轻视硬件”走向“掌控全栈”。

观点三：现有通用平台无法支撑超级智能时代的算力需求

主要论述

尽管 GPU 推动了过去十年的 AI 革命，但其通用性设计牺牲了能效与扩展潜力，难以应对 AGI 所需的指数级增长算力。

支撑论据

实现 AGI 所需总计算量远超当前集群承载能力，“十几瓦只是杯水车薪”，隐喻目标“桶”极大。
GPU 并未针对大模型的数据流与内存访问模式优化，存在结构性效率瓶颈。

具体案例

回顾早期尝试其他加速器的经历，行业尚无法预测今日 GPU 的发展速度，说明专用化路径需前瞻性布局。

战略判断：未来的 AI 芯片必须是 workload-specific（特定工作负载导向），而非延续通用加速器思维。

观点四：初创芯片公司未能响应系统反馈，催生内部化战略

主要论述

OpenAI 曾积极向多家芯片初创企业提供关于模型结构演进方向的技术反馈（如稀疏性、张量拓扑等），但多数企业未采纳建议，导致技术生态脱节。

支撑论据

外部厂商缺乏对上层模型趋势的深刻理解，或受限于自身产品路线图，难以协同创新。
“看到未来却无力推动”的困境促使团队决定将关键环节内部化，以掌握技术演进主动权。

深层动机：“掌控自己的命运”——自主设计不仅是性能优化手段，更是实现技术愿景的必要条件。

观点五：训练与推理对芯片提出差异化要求，需分别优化

主要论述

不同阶段的工作负载对硬件需求存在本质差异，必须进行针对性设计：

| 场景 | 核心需求 | 优化重点 |

|------|----------|-----------|

| 训练 | 高 TFLOPS、强互联 | 计算密度、片间通信带宽 |

| 推理 | 内存容量与访问速度 | 数据搬运效率、低延迟 |

支撑论据

Greg Charlie 明确指出：“如果你聚焦于推理，则更强调内存容量和访问速度，而非计算密度。”
推理请求总量远超训练所需算力，已成为资源消耗的主要部分。

战略意义：推理不再是训练的附属环节，而是决定 AI 普及程度的关键战场。

观点六：全栈垂直整合是突破性能与能效瓶颈的根本路径

主要论述

单一组件优化已不足以实现质变，唯有通过从晶体管到用户输出 Token 的全栈协同设计，才能最大化整体效能。

支撑论据

合作初期聚焦芯片设计，后自然扩展至机架结构、冷却/供电系统的完整系统开发。
单一组件优化边际收益递减，系统级耦合可释放更大潜力。

具体案例

双方联合开发包含芯片、机架、网络互连、电源管理在内的定制化系统，支持高密度、高能效的推理集群部署。

技术范围：覆盖晶体管 → 芯片 → 机架 → 网络 → 算法 → 用户体验的完整链条。

观点七：效率提升催生需求爆炸，形成“正反馈循环”

主要论述

每当计算效率提升 10 倍，用户需求通常增长 20 倍甚至更多。AI 系统的可用性改善不会减少使用，反而激发新场景、新任务、高频应用。

支撑论据

GPT-6 若相较 GPT-5 提升 30 个智商点，市场将重新爆发，打破原有饱和预期。
新用途不断被发现，旧的“需求天花板”迅速失效。

案例说明

早期 ChatGPT 辅助编程需手动复制粘贴；
Codex 可完成数小时工程任务；
下一代系统有望达到顶级工程师水平，执行跨日级复杂开发。

经济规律：每一次单位算力成本下降，都会引发剩余需求的指数级释放。

观点八：AI 正在反向赋能其自身的基础设施建设——“用 AI 设计 AI”

主要论述

OpenAI 正利用自研 AI 模型辅助芯片设计流程，标志着一种全新的“AI for AI”闭环模式。

支撑论据

在已被人类专家高度优化的设计基础上，AI 模型仍能输出面积更小、功耗更低的新布局。
“人类需一个月思考的方案，AI 可在短时间内生成。”

具体案例

AI 模型参与物理设计阶段，提供超越人力极限的速度与精度，部分成果达到或超越资深工程师水平。

范式变革：AI 进入“自我增强”阶段——用于训练模型的基础设施正由模型自身参与设计。

观点九：三维集成与光学互连是突破物理极限的关键使能技术

主要论述

传统二维平面集成已达物理极限（单芯片面积约 800 mm²），下一代 XPU 必须转向三维堆叠与光学互连。

支撑论据

三维堆叠（Z 轴）可大幅提升单位体积内的算力密度；
光学互连解决电互连的带宽、延迟与功耗瓶颈。

具体案例

最新合作项目将在芯片内集成光学模块，实现高达 100 太比特每秒（Tbps） 的片上交换能力，极大提升集群通信效率。

技术路线图：预计明年年底首次展示成果，三年内实现快速部署。

观点十：真正的变革依赖生态系统级协作与开放标准

主要论述

AI 基础设施的复杂性决定了其无法由单一企业独立完成，必须依赖全球协作与开放标准。

支撑论据

当前 AI 基建被视为“人类历史上最大的联合工业项目”，涉及多国、多行业、多企业的同步投入。
单个 1 千兆瓦数据中心运营复杂度堪比一座小城市，10 千兆瓦级设施更需跨领域系统工程能力。

具体案例

OpenAI 强调应建立类似铁路或互联网初期的通用标准体系，确保互操作性与生态繁荣。
类比“国家公路系统”：沥青或钢铁本身不重要，重要的是其所承载的交通与经济可能性。

战略定位：OpenAI 视自身为生态系统中的合作者，因其与伙伴共享“共建未来基础设施”的根本信念。

关键信息汇总

| 类别 | 关键事实 |

|------|---------|

| 合作时间线 | OpenAI 与 Broadcom 已秘密合作约 18 个月，初始聚焦定制芯片，现已拓展至完整系统联合开发 |

| 部署计划 | 预计“明年晚些时候”启动首批数十万瓦级别系统的部署 |

| 技术定位 | 新芯片专为 OpenAI 推理任务优化，显著提升吞吐量与能效比 |

| 算力规模里程碑 |
• 初始集群：2 兆瓦
• 当前年度目标：略超 2 吉瓦
• 近期合作目标：接近 30 吉瓦
• 两吉瓦电力即可服务全球 10% 人口 |

| 工程挑战 |
• 单芯片面积上限约 800 mm²
• 需三维堆叠与先进封装突破限制
• 片上光学互连达 100 Tbps
• 系统稳定性、量产交付构成三位一体难题 |

| AI 参与研发 | AI 模型已能在芯片物理设计层面提供实质性优化建议，部分成果优于人工方案 |

| 未来愿景 | 每人一台专属 AI 加速器，实现真正个性化的“数字孪生”代理服务 |

关键洞察

1. AI 竞争已从算法转向系统工程

未来的竞争力不仅取决于模型创新能力，更依赖于底层硬件与系统工程的深度协同。

2. 基础设施进步推动模型能力，而模型又重塑基础设施设计方式

形成“AI 能力提升 → 基础设施重构 → 更强 AI”的正反馈循环。

3. 能效将成为决定 AI 发展上限的关键变量

“融化沙子”的比喻揭示：终极瓶颈不是算力，而是“每单位能量中的智能密度”。

4. AI 正进入“自我增强”阶段

用于训练模型的基础设施，正由模型自身参与设计，开启“AI 设计 AI”的新时代。

5. 算力稀缺是制约人类集体智慧释放的社会性瓶颈

当前企业内部算力配额争夺、用户获取 Sora 积分困难等现象，凸显“计算资源民主化”的紧迫性。

实践建议

技术层面

推动从晶体管到系统层级的定制化设计，实现特定工作负载极致优化
同步发展高性能网络架构，支持横向与纵向扩展
加速采用三维堆叠、光学互连、异构集成等前沿封装技术

组织与生态层面

构建开放、透明的技术标准体系，促进跨组织互操作
鼓励芯片厂商与 AI 公司建立“共研共创”机制，避免生态脱节
设立全球协作框架，协调制造基地、供应链与能源供给

战略执行原则

在高压力项目节奏下，优先保障交付进度，后续复盘优化细节（“先交付后复盘”）
保持 GPU 用于探索灵活性，专用芯片用于规模化执行，构建互补体系

总结与启示

本次 OpenAI 与 Broadcom 的战略合作，远不止是一次商业联盟，而是整个 AI 产业迈向“垂直整合时代”的标志性事件。它宣告了一个新时代的到来：算法、软件、芯片、系统、能源、标准必须同步演进，才能支撑超级智能的实现。

这场变革的本质，是一场史无前例的全球性基础设施革命。其目标不仅是打造更快的芯片，更是重建支撑人类数字未来的底层平台——一个从硅材料开始，经由能量转化，最终输出“智能”的新型文明操作系统。

正如嘉宾所言：“这无法靠一个人甚至两个人完成。”

真正的突破，来自于跨领域的深度整合、持续数十年的技术沉淀，以及对“计算富足”这一普惠愿景的坚定信念。

概述

访谈概述

核心观点与论述

观点一：AI基础设施正成为人类历史上最大规模的联合工业项目

观点二：通往AGI的认知转变——从“创意驱动”到“规模驱动”

观点三：现有通用平台无法支撑超级智能时代的算力需求

观点四：初创芯片公司未能响应系统反馈，催生内部化战略

观点五：训练与推理对芯片提出差异化要求，需分别优化

观点六：全栈垂直整合是突破性能与能效瓶颈的根本路径

观点七：效率提升催生需求爆炸，形成“正反馈循环”

观点八：AI 正在反向赋能其自身的基础设施建设——“用 AI 设计 AI”

观点九：三维集成与光学互连是突破物理极限的关键使能技术

观点十：真正的变革依赖生态系统级协作与开放标准

关键信息汇总

关键洞察

实践建议

技术层面

组织与生态层面

战略执行原则

总结与启示

未来展望