← 返回
23 min 2025-10

#259. OpenAI x 博通宣布合作:共建 AI 基础设施的未来

概述

访谈概述

本期播客围绕 OpenAI 与半导体巨头 Broadcom 的战略合作展开,深入探讨了双方在定制芯片、系统级架构设计及全球智能基础设施建设方面的深度协同。此次合作标志着人工智能产业从“算法主导”迈向“软硬一体、全栈整合”的新阶段。

访谈由主持人 Andrew May 主导,嘉宾包括 OpenAI 高层代表、Broadcom 工程团队负责人(如 Hock Tan、Greg Charlie)以及外部技术观察者。讨论内容涵盖战略动因、技术路径、工程挑战与长期愿景,层层递进地揭示了 AI 基础设施演进的核心逻辑。

核心议题包括:

  • AI 算力需求的本质演变与现有硬件的局限性
  • 定制化芯片与端到端系统设计的战略必要性
  • 全栈垂直整合的技术范式转变
  • AI 自我赋能其基础设施建设的新趋势
  • 实现“计算富足”社会的长远目标

本报告将各片段整合为一份完整、连贯的专业访谈分析,系统呈现本次合作背后的技术深意与文明级影响。

核心观点与论述

观点一:AI基础设施正成为人类历史上最大规模的联合工业项目

主要论述

主持人 Andrew May 指出,当前全球 AI 基础设施建设已超越传统科技范畴,构成一场跨企业、跨国界、跨学科的系统性工程协作。其本质不仅是技术升级,更是“定义文明下一代的操作系统”。

支撑论据

  • 尽管当前进展仅满足未来需求的一小部分(“沧海一粟”),但投入的资源复杂度和动员能力已达前所未有的工业水平。
  • 数十万瓦级别的计算系统部署计划,体现了物理层面的大规模能量集成与工程实施难度。

具体案例

  • 双方正在规划“数十万瓦”级推理集群,单个数据中心功耗堪比一座小城市,需统筹热管理、电源分配、冷却系统等多维工程挑战。
关键洞察:AI 发展已进入“基建决定上限”的新阶段,技术创新必须与产能建设、生态协同并行推进。

观点二:通往AGI的认知转变——从“创意驱动”到“规模驱动”

主要论述

OpenAI 创立初期认为 AGI 的实现依赖于算法创新;然而自 2017 年起,通过 Dota 2 强化学习项目的实证研究,团队发现模型性能提升高度依赖算力扩展,从而确立“规模化即能力”的核心认知。

支撑论据

  • 在 Dota 2 项目中,当算力翻倍时,智能体表现几乎同步提升一倍,形成清晰正向关系。
  • 其他方法在效果上远不如扩大参数量、数据量和训练时长显著。

深层含义

  • 这一认知跃迁促使 OpenAI 重新评估技术路线,逐步将重心从纯软件探索转向底层硬件控制。
历史节点:2017 年是 OpenAI 战略转型的关键年份,标志其从“轻视硬件”走向“掌控全栈”。

观点三:现有通用平台无法支撑超级智能时代的算力需求

主要论述

尽管 GPU 推动了过去十年的 AI 革命,但其通用性设计牺牲了能效与扩展潜力,难以应对 AGI 所需的指数级增长算力。

支撑论据

  • 实现 AGI 所需总计算量远超当前集群承载能力,“十几瓦只是杯水车薪”,隐喻目标“桶”极大。
  • GPU 并未针对大模型的数据流与内存访问模式优化,存在结构性效率瓶颈。

具体案例

  • 回顾早期尝试其他加速器的经历,行业尚无法预测今日 GPU 的发展速度,说明专用化路径需前瞻性布局。
战略判断:未来的 AI 芯片必须是 workload-specific(特定工作负载导向),而非延续通用加速器思维。

观点四:初创芯片公司未能响应系统反馈,催生内部化战略

主要论述

OpenAI 曾积极向多家芯片初创企业提供关于模型结构演进方向的技术反馈(如稀疏性、张量拓扑等),但多数企业未采纳建议,导致技术生态脱节。

支撑论据

  • 外部厂商缺乏对上层模型趋势的深刻理解,或受限于自身产品路线图,难以协同创新。
  • “看到未来却无力推动”的困境促使团队决定将关键环节内部化,以掌握技术演进主动权。
深层动机:“掌控自己的命运”——自主设计不仅是性能优化手段,更是实现技术愿景的必要条件。

观点五:训练与推理对芯片提出差异化要求,需分别优化

主要论述

不同阶段的工作负载对硬件需求存在本质差异,必须进行针对性设计:

| 场景 | 核心需求 | 优化重点 |

|------|----------|-----------|

| 训练 | 高 TFLOPS、强互联 | 计算密度、片间通信带宽 |

| 推理 | 内存容量与访问速度 | 数据搬运效率、低延迟 |

支撑论据

  • Greg Charlie 明确指出:“如果你聚焦于推理,则更强调内存容量和访问速度,而非计算密度。”
  • 推理请求总量远超训练所需算力,已成为资源消耗的主要部分。
战略意义:推理不再是训练的附属环节,而是决定 AI 普及程度的关键战场。

观点六:全栈垂直整合是突破性能与能效瓶颈的根本路径

主要论述

单一组件优化已不足以实现质变,唯有通过从晶体管到用户输出 Token 的全栈协同设计,才能最大化整体效能。

支撑论据

  • 合作初期聚焦芯片设计,后自然扩展至机架结构、冷却/供电系统的完整系统开发。
  • 单一组件优化边际收益递减,系统级耦合可释放更大潜力。

具体案例

  • 双方联合开发包含芯片、机架、网络互连、电源管理在内的定制化系统,支持高密度、高能效的推理集群部署。
技术范围:覆盖晶体管 → 芯片 → 机架 → 网络 → 算法 → 用户体验的完整链条。

观点七:效率提升催生需求爆炸,形成“正反馈循环”

主要论述

每当计算效率提升 10 倍,用户需求通常增长 20 倍甚至更多。AI 系统的可用性改善不会减少使用,反而激发新场景、新任务、高频应用。

支撑论据

  • GPT-6 若相较 GPT-5 提升 30 个智商点,市场将重新爆发,打破原有饱和预期。
  • 新用途不断被发现,旧的“需求天花板”迅速失效。

案例说明

  • 早期 ChatGPT 辅助编程需手动复制粘贴;
  • Codex 可完成数小时工程任务;
  • 下一代系统有望达到顶级工程师水平,执行跨日级复杂开发。
经济规律:每一次单位算力成本下降,都会引发剩余需求的指数级释放。

观点八:AI 正在反向赋能其自身的基础设施建设——“用 AI 设计 AI”

主要论述

OpenAI 正利用自研 AI 模型辅助芯片设计流程,标志着一种全新的“AI for AI”闭环模式。

支撑论据

  • 在已被人类专家高度优化的设计基础上,AI 模型仍能输出面积更小、功耗更低的新布局。
  • “人类需一个月思考的方案,AI 可在短时间内生成。”

具体案例

  • AI 模型参与物理设计阶段,提供超越人力极限的速度与精度,部分成果达到或超越资深工程师水平。
范式变革:AI 进入“自我增强”阶段——用于训练模型的基础设施正由模型自身参与设计。

观点九:三维集成与光学互连是突破物理极限的关键使能技术

主要论述

传统二维平面集成已达物理极限(单芯片面积约 800 mm²),下一代 XPU 必须转向三维堆叠与光学互连。

支撑论据

  • 三维堆叠(Z 轴)可大幅提升单位体积内的算力密度;
  • 光学互连解决电互连的带宽、延迟与功耗瓶颈。

具体案例

  • 最新合作项目将在芯片内集成光学模块,实现高达 100 太比特每秒(Tbps) 的片上交换能力,极大提升集群通信效率。
技术路线图:预计明年年底首次展示成果,三年内实现快速部署。

观点十:真正的变革依赖生态系统级协作与开放标准

主要论述

AI 基础设施的复杂性决定了其无法由单一企业独立完成,必须依赖全球协作与开放标准。

支撑论据

  • 当前 AI 基建被视为“人类历史上最大的联合工业项目”,涉及多国、多行业、多企业的同步投入。
  • 单个 1 千兆瓦数据中心运营复杂度堪比一座小城市,10 千兆瓦级设施更需跨领域系统工程能力。

具体案例

  • OpenAI 强调应建立类似铁路或互联网初期的通用标准体系,确保互操作性与生态繁荣。
  • 类比“国家公路系统”:沥青或钢铁本身不重要,重要的是其所承载的交通与经济可能性。
战略定位:OpenAI 视自身为生态系统中的合作者,因其与伙伴共享“共建未来基础设施”的根本信念。

关键信息汇总

| 类别 | 关键事实 |

|------|---------|

| 合作时间线 | OpenAI 与 Broadcom 已秘密合作约 18 个月,初始聚焦定制芯片,现已拓展至完整系统联合开发 |

| 部署计划 | 预计“明年晚些时候”启动首批数十万瓦级别系统的部署 |

| 技术定位 | 新芯片专为 OpenAI 推理任务优化,显著提升吞吐量与能效比 |

| 算力规模里程碑 |
• 初始集群:2 兆瓦
• 当前年度目标:略超 2 吉瓦
• 近期合作目标:接近 30 吉瓦
• 两吉瓦电力即可服务全球 10% 人口 |

| 工程挑战 |
• 单芯片面积上限约 800 mm²
• 需三维堆叠与先进封装突破限制
• 片上光学互连达 100 Tbps
• 系统稳定性、量产交付构成三位一体难题 |

| AI 参与研发 | AI 模型已能在芯片物理设计层面提供实质性优化建议,部分成果优于人工方案 |

| 未来愿景 | 每人一台专属 AI 加速器,实现真正个性化的“数字孪生”代理服务 |

关键洞察

1. AI 竞争已从算法转向系统工程

未来的竞争力不仅取决于模型创新能力,更依赖于底层硬件与系统工程的深度协同。

2. 基础设施进步推动模型能力,而模型又重塑基础设施设计方式

形成“AI 能力提升 → 基础设施重构 → 更强 AI”的正反馈循环。

3. 能效将成为决定 AI 发展上限的关键变量

“融化沙子”的比喻揭示:终极瓶颈不是算力,而是“每单位能量中的智能密度”。

4. AI 正进入“自我增强”阶段

用于训练模型的基础设施,正由模型自身参与设计,开启“AI 设计 AI”的新时代。

5. 算力稀缺是制约人类集体智慧释放的社会性瓶颈

当前企业内部算力配额争夺、用户获取 Sora 积分困难等现象,凸显“计算资源民主化”的紧迫性。

实践建议

技术层面

  • 推动从晶体管到系统层级的定制化设计,实现特定工作负载极致优化
  • 同步发展高性能网络架构,支持横向与纵向扩展
  • 加速采用三维堆叠、光学互连、异构集成等前沿封装技术

组织与生态层面

  • 构建开放、透明的技术标准体系,促进跨组织互操作
  • 鼓励芯片厂商与 AI 公司建立“共研共创”机制,避免生态脱节
  • 设立全球协作框架,协调制造基地、供应链与能源供给

战略执行原则

  • 在高压力项目节奏下,优先保障交付进度,后续复盘优化细节(“先交付后复盘”)
  • 保持 GPU 用于探索灵活性,专用芯片用于规模化执行,构建互补体系

总结与启示

本次 OpenAI 与 Broadcom 的战略合作,远不止是一次商业联盟,而是整个 AI 产业迈向“垂直整合时代”的标志性事件。它宣告了一个新时代的到来:算法、软件、芯片、系统、能源、标准必须同步演进,才能支撑超级智能的实现

这场变革的本质,是一场史无前例的全球性基础设施革命。其目标不仅是打造更快的芯片,更是重建支撑人类数字未来的底层平台——一个从硅材料开始,经由能量转化,最终输出“智能”的新型文明操作系统。

正如嘉宾所言:“这无法靠一个人甚至两个人完成。”

真正的突破,来自于跨领域的深度整合、持续数十年的技术沉淀,以及对“计算富足”这一普惠愿景的坚定信念。

未来展望