BNT 中文站
DigiFinexToken中文网

英伟达新芯片,困难重重

发布日期:2025-01-04 14:43    点击次数:111

如果您希望可以时常见面,欢迎标星 收藏哦~来源:内容由半导体行业观察(ID:icbank)编译自semianalysis,谢谢。如昨日报道所说,Nvidia 的 Blackwell 系列在实现大批量生产方面遇到了重大问题。这一挫折影响了他们 2024 年第三季度/第四季度以及明年上半年的生产目标。这影响了 Nvidia 的产量和收入。简而言之,Nvidia 的 Hopper 的使用寿命和出货量有所延长,以弥补大部分延迟。Blackwell 的产品时间表有所推迟,但产量受到的影响比第一批出货时间表更大。技术挑战也迫使 Nvidia 匆忙创建之前未计划的全新系统,这对数十家下游和上游供应商产生了巨大影响。今天,我们将讨论 Nvidia 面临的技术挑战、Nvidia 修改后的时间表,并详细介绍 Nvidia 新系统(包括新的 MGX GB200A Ultra NVL36)的系统和组件架构。我们还将深入探讨这将对从客户到 OEM/ODM 再到 Nvidia 组件供应商的整个供应链产生的影响。 Nvidia Blackwell 系列中技术最先进的芯片是 GB200,Nvidia 在系统层面的多个方面做出了积极的技术选择。72 GPU 机架的功率密度为每机架约 125 kW,而大多数数据中心部署的标准为每机架约 12kW 至约 20kW。这是前所未有的计算和功率密度,考虑到所需的系统级复杂性,这一提升极具挑战性。出现了许多与电力输送、过热、水冷供应链提升、快速断开漏水以及各种电路板复杂性挑战有关的问题。虽然这些问题让供应链上的一些供应商和设计师手忙脚乱,但大多数问题都是小问题,并不是 Nvidia 减少产量或重大路线图重做的原因。影响出货量的核心问题与 Nvidia 的 Blackwell 架构设计直接相关。由于台积电的封装问题以及 Nvidia 的设计,原始 Blackwell 封装的供应有限。Blackwell 封装是首款采用台积电 CoWoS-L 技术进行封装的大批量设计。 总结一下,CoWoS-L 使用 RDL 中介层,其中嵌入了局部硅互连 (LSI) 和桥接芯片,以桥接封装上各种计算和内存之间的通信。相比之下,CoWoS-S 表面上看起来要简单得多,是一块巨大的硅片。 CoWoS-L 是 CoWoS-S 的继任者,因为随着未来的 AI 加速器容纳更多的逻辑、内存和 IO,CoWoS-S 封装尺寸的增长和性能面临挑战。台积电已使用 AMD 的 MI300 将 CoWoS-S 缩小到约 3.5 倍光罩大小的中介层,但这是实际极限。有多个门控因素(gating factors),但关键因素是硅易碎,随着中介层变大,处理非常薄的硅中介层变得越来越困难。随着越来越多的光刻光罩拼接,这些大型硅中介层的成本也越来越高。有机中介层可以解决这个问题,因为它们不像硅那样易碎,但它们缺乏硅的电气性能,因此无法为更强大的加速器提供足够的 I/O。然后可以使用硅桥(无源或有源)来补充信号密度以进行补偿。此外,这些桥的性能/复杂性可以高于大型硅中介层。CoWoS-L 是一项复杂得多的技术,但它代表着未来。Nvidia 和台积电的目标是制定一个非常积极的计划,每季度生产超过一百万块芯片。因此,出现了各种各样的问题。一个问题与在中介层和有机中介层中嵌入多个精细凸块间距桥有关,这可能导致硅片、桥、有机中介层和基板之间的热膨胀系数 (CTE) 不匹配,从而引起翘曲。 桥接芯片的放置需要非常高的精度,尤其是两个主计算芯片之间的桥接,因为它们对于支持 10 TB/s 芯片间互连至关重要。据传,一个主要的设计问题与桥接芯片有关。这些桥接需要重新设计。还有传言称,Blackwell 芯片顶部的几个全局布线金属层和凸块需要重新设计。这是延迟数月的主要原因。还有一个问题是台积电总体上没有足够的 CoWoS-L 产能。过去几年,台积电建立了大量 CoWoS-S 产能,其中 Nvidia 占据了最大份额。现在,随着 Nvidia 迅速将其需求转移到 CoWoS-L,台积电正在为 CoWoS-L 建造新的晶圆厂 AP6,并在 AP3 转换现有的 CoWoS-S 产能。台积电需要转换旧的 CoWoS-S 产能,否则它将得不到充分利用,CoWoS-L 的增长将更加缓慢。这种转换过程使得增长本质上非常不稳定。结合这两个问题,很明显台积电无法像 Nvidia 所希望的那样供应足够的 Blackwell 芯片。因此,Nvidia 几乎完全将他们的产能集中在 GB200 NVL 36x2 和 NVL72 机架规模系统上。除了一些初始较低产量外,带有 B100 和 B200 的 HGX 外形尺寸现在实际上已被取消。 为了满足需求,Nvidia 现在将推出一款基于 B102 芯片的 Blackwell GPU,名为 B200A。有趣的是,这款 B102 芯片也将用于中国版 Blackwell,名为 B20。B102 是一个具有 4 个 HBM 堆栈的单片计算芯片。重要的是,这允许芯片封装在 CoWoS-S 上,而不是 CoWoS-L,甚至是Nvidia 的其他 2.5D 封装供应商,如 Amkor、ASE SPIL 和三星。原始 Blackwell 芯片有大量专用于 C2C I/O 的海岸线区域,这在单片 SOC 中是不必要的。B200A 将用于满足低端和中端 AI 系统的需求。并将取代 HGX 8-GPU 规格的 B100 和 B200 芯片。它将采用 700W 和 1000W HGX 规格,配备高达 144GB 的 HBM3E 和高达 4 TB/s 的内存带宽。值得注意的是,这比 H200 的内存带宽要小。说到 Blackwell Ultra,它是 Blackwell 的中期增强版,标准 CoWoS-L Blackwell Ultra 将被称为 B210 或 B200 Ultra。Blackwell Ultra 包含高达 288GB 的 12 Hi HBM3E 内存刷新和高达 50% 的 FLOPS 性能增强。B200A 还将推出 Ultra 版本。值得注意的是,它不会升级内存,但芯片可能会重新设计以提高 FLOPS。B200A Ultra 还引入了全新的 MGX NVL 36 外形尺寸。B200A Ultra 也将采用 HGX 配置,就像原来的 B200A 一样。 对于HPC市场,我们认为 GB200 NVL72 / 36x2 将继续最具吸引力,因为它在推理过程中对超过 2 万亿参数的模型具有最高的Performance/TCO。话虽如此,如果超大规模客户无法获得他们想要的 GB200 NVL72 / 36x2 分配,他们可能仍需要购买 MGX GB200A NVL36。此外,在功率密度较低或缺乏许可/无法获得水进行液体冷却改造的数据中心,MGX NVL36 看起来更具吸引力。HGX Blackwell 服务器仍将被超大规模企业购买,因为它是可供出租给外部客户的最小计算单元,但其购买量将比以前少得多。对于小型机型,HGX 仍然是性能/TCO 最佳的机型,因为这些机型不需要大量内存,并且可以装入 NVL8 的单个内存连贯域中。HGX Blackwell 的性能/TCO 在训练运行时也表现出色,训练工作量少于 5,000 个 GPU。话虽如此,MGX NVL36 是许多下一代模型的最佳选择,并且通常具有更灵活的基础设施,因此在许多情况下它是最佳选择。对于 neocloud 市场,我们认为大多数客户不会购买 GB200 NVL72 / 36x2,因为寻找支持液体冷却或高功率密度 Sidecar 的主机托管提供商非常复杂。此外,由于 GB200 NVL72 / 36x2 卷有限,大多数 neocloud 的排名通常比超大规模企业靠后。我们认为,Coreweave 等最大的 Neocloud 既拥有自己的自建数据中心/改造,又拥有较大的客户,它们将选择 GB200 NVL72/36x2。对于 Neocloud 市场的其他部分,大多数将选择 HGX Blackwell 服务器和 MGX NVL36,因为这些服务器可以仅使用空气冷却和较低功率密度机架进行部署。目前,大多数 Neocloud 部署都是针对 Hopper 的,功率密度为 20kW/机架。我们认为 Neocloud 可以部署 MGX GB200 NVL36,因为这只需要 40kW/机架的空气冷却。通过使用冷通道封闭系统并跳过数据中心的行列,每机架 40kW 的部署并不困难。在 NeoCloud 规模上,NeoCloud 运营商和 NeoCloud 客户实际上并不倾向于考虑其特定工作负载的 TCO 性能,而是试图采购当前最受炒作的产品。例如,大多数(如果不是全部)NeoCloud 客户不使用 FP8 训练,而是选择 bfloat16 训练。对于在 bfloat16 上训练的小型 LLM,A100 80GB 提供了更好的 TCO 性能。由于 Meta 的 LLAMA 模型正在推动许多企业和 Neoclouds 的基础设施选择,因此最相关的部署单元是能够适应 Meta 的模型。LLAMA 3 405B 不适合单个 H100 节点,但勉强适合 H200(该模型可以量化,但质量损失很大)。由于 405B 已经处于 H200 HGX 服务器的边缘,下一代 MoE LLAMA 4 肯定不适合 Blackwell HGX 的单个节点,从而极大地影响每 TCO 的性能。因此,对于推动初创企业和企业部署的最有用的开源模型的微调和推理,单个 HGX 服务器的性能/TCO 会更差。我们对 MGX B200A Ultra NVL36 的估计价格表明 HGX B200A 不太可能畅销。Nvidia 有多种强大的动机来稍微降低利润率以推动 MGX,因为他们用自己的网络更高的附加率来弥补这一点。MGX GB200A Ultra NVL36 的架构MGX GB200A NVL36 SKU 是一款完全风冷的 40kW/机架服务器,将有 36 个 GPU 通过 NVLink 完全互连。每个机架将有 9 个计算托盘和 9 个 NVSwitch 托盘。每个计算托盘为 2U,包含一个 Grace CPU 和四个 700W B200A Blackwell GPU,而 GB200 NVL72 / 36x2 则有两个 Grace CPU 和四个 1200W Blackwell GPU。MGX NVL36 设计的 CPU 与 GPU 比例仅为 1:4,而 GB200 NVL72 / 36x2 的比例为 2:4。此外,每个 1U NVSwitch Tray 只有一个交换机 ASIC,每个交换机 ASIC 的带宽为 28.8Tbit/s。 由于每机架仅 40kW,MGX NVL36 可以采用空气冷却。虽然大多数数据中心和当前的 H100 部署仅为 20kW/机架,但 40kW/机架 H100 部署也并不罕见。这是通过跳过数据中心的行并利用冷/热通道遏制来实现的。部署 40kW MGX NVL36 机架时可以应用同样的技术。这使得现有数据中心运营商可以非常轻松地部署 MGX NVL36,而无需重新设计其基础设施。与 GB200 NVL72/36x2 不同,四个 GPU 与一个 CPU 的比例更高,这意味着它将无法使用 C2C 互连,因为每个 GPU 获得的 C2C 带宽将是 GB200 NVl72/36x2 的一半。相反,将利用集成的 ConnectX-8 PCIe 交换机来允许 GPU 与 CPU 通信。此外,与所有其他现有 AI 服务器(HGX H100/B100/B200、GB200 NVL72/36x2、MI300)不同,每个后端 NIC 现在将负责两个 GPU。这意味着即使 ConnectX-8 NIC 设计可以提供 800G 的后端网络,每个 GPU 也只能访问 400G 的后端 InfiniBand/RoCE 带宽。 在 GB200 NVL72 / 36x2 上,通过 ConnectX-8 后端 NIC,每个 GPU 可以访问高达 800G 的带宽。对于参考设计,GB200A NVL36 将每个计算托盘使用一个 Bluefield-3 前端 NIC。与 GB200 NVL72 / 36x2 每个计算托盘使用两个 Bluefield-3 相比,这是一种更合理的设计。即使对于 MGX NVL36,我们仍然认为许多客户不会选择使用任何 Bluefield-3,而是选择在超大规模的情况下使用自己的内部 NIC 或使用通用前端 NIC,例如 ConnectX-6/7。GB200 NVL72/NVL36x2 计算托盘的核心是 Bianca 板。Bianca 板包含两个 Blackwell B200 GPU 和一个 Grace CPU。每个计算托盘都有两个 Bianca 板,这意味着每个计算托盘总共有两个 Grace CPU 和四个 1200W Blackwell GPU。 在 MGX GB200A NVL36 上,CPU 和 GPU 将位于不同的 PCB 上,类似于 HGX 服务器的设计。与 HGX 服务器不同,我们认为每个计算托盘的 4 个 GPU 将细分为两个 2-GPU 板。每个 2-GPU 板将具有与 Bianca 板类似的Mirror Mezz 连接器。这些 Mirror Mezz 连接器将用于连接到 ConnectX-8 夹层板,该夹层板将 ConnectX-8 ASIC 及其集成 PCIe 交换机连接到 GPU、本地 NVMe 存储和 Grace CPU。通过将 ConnectX-8 ASIC 置于非常靠近 GPU 的位置,这意味着 GPU 和 ConnectX-8 NIC 之间无需重定时器。这与 HGX H100/B100/B200 不同,后者需要重定时器从 HGX 基板连接到 PCIe 交换机。由于 Grace CPU 和 Blackwell GPU 之间没有 C2C 互连,因此 Grace CPU 也位于一个完全独立的 PCB 上,称为 CPU 主板。该主板将包含 BMC 连接器、CMOS 电池、MCIO 连接器等。 每个 GPU 的 NVLink 带宽将为每方向 900Gbyte/s,与 GB200 NVL72 / 36x2 相同。以每 FLOP 为基础,GPU 到 GPU 带宽大幅增加,这使得 MGX NVL36 适合某些工作负载。由于只有 1 层交换机连接 36 个 GPU,因此仅需 9 个 NVSwitch ASIC 即可提供无阻塞网络。此外,由于每个 1U 交换机托盘只有一个 28.8Tbit/s ASIC,因此空气冷却非常容易。25.6Tbit/s 1U 交换机(如 Quantum-2 QM9700)已经很容易通过空气冷却。虽然 Nvidia 可以通过保留带有 2 个 NVSwitch ASIC 的交换机托盘来实现 NVL36x2 设计,但这会增加成本,并且由于前 OSFP NVLink 笼阻塞气流,可能使空气冷却变得不可能。 在后端网络上,由于每个计算托盘只有两个 800G 端口,我们认为它将使用 2 轨优化的行尾网络。每八个 GB200A NVl36 机架将有两个 Quantum-X800 QM3400 交换机。 我们估计,每 GPU 700W 的功耗,GB200A NVL36 很可能每机架 40kW 左右。2U 计算托盘将需要大约 4kW 的功率,但每 2U 空间 4kW 的空气冷却散热将需要专门设计的散热器和高速风扇。 我们将在本文后面讨论这方面的散热挑战,但这对于 Nvidia 在 MGX NVL36 设计上来说是一个重大风险。MGX GB200A NVL 36 的挑战对于 GB200 NVL72 / NVL36x2,唯一不使用 Connect-X 7/8 后端 NIC 的客户是亚马逊。正如我们在GB200 架构分析中所讨论的那样,这已经带来了重大的工程挑战,因为将不会出现 ConnectX-7/8 或 Bluefield-3,这两者都具有集成的 PCIe 交换机。因此,需要 Broadcom 或 Astera Labs 的专用 PCIe 交换机将后端 NIC 连接到 CPU、GPU 和本地 NVMe 存储。这会消耗额外的电力并增加 BoM 成本。在 SemiAnalysis GB200 组件和供应链模型中,我们细分了所有组件供应商的份额、数量和 ASP,包括 PCIe 交换机。由于 GB200A NVL36 完全采用风冷,因此在 2U 机箱前端除了 PCIe 规格 NIC 之外还配备专用 PCIe 交换机,这将大大增加热工程挑战。 因此我们认为,基本上不可能有人能在 GB200A NVL36 上做定制后端 NIC。由于 Grace CPU 和 Blackwell GPU 位于单独的 PCB 上,我们相信也可能有 x86 + B200A NVL36 版本。由于许多 ML 依赖项都是针对 x86 CPU 编译和优化的,这可能是此 SKU 的额外优势。此外,与 Grace 相比,x86 CPU 平台提供更高的峰值性能 CPU。不幸的是,对于愿意提供 x86 版本的 OEM 来说,将面临散热挑战,因为 CPU 的功耗大约高出 100 瓦。我们相信,即使 Nvidia 提供 x86 B200A NVL36 解决方案,他们也会推动大多数客户转向 GB200A NVL36 解决方案,因为它可以销售 Grace CPU。GB200A NVL36 的主要卖点是它是一款每机架 40kW 的风冷系统。对客户的主要吸引力在于,许多客户仍然无法支持每机架 ~125 kW GB200 NVL72(或 36x2,两个机架超过 130kW)所需的液体冷却和电源基础设施。没有任何液体冷却意味着与 GB200 NVL72 / 36x2 相比,散热解决方案将简化整体散热解决方案,基本上归结为散热器(3D Vapor Chamber,3DVC)和一些风扇。然而,鉴于 GB200A NVL36 的计算托盘使用的是 2U 机箱,3DVC 设计将需要进行大量调整。TDP 为 700W 的 H100 目前使用 4U 高的 3DVC,而 1000W 的 H200 使用 6U 高的 3DVC。相比之下,2U 机箱中 TDP 为 700W 的 MGX B200A NVL36 则受到很大限制。我们认为需要一个水平扩展成阳台状的散热器,以增加散热器的表面积。 除了需要更大的散热器外,风扇还需要提供比 GB200 NVL72 / 36x2 2U 计算托盘或 HGX 8 GPU 设计的风扇更大的气流。我们估计,在 40kW 机架中,总系统功率的 15% 到 17% 将分配给内部机箱风扇。因此,GB200A NVL36 的 TUE 数值(一种更好地表示空气冷却和液体冷却之间的能效增益的指标)将比 GB200 NVL72 / NVL36 高得多。即使对于 HGX H100 等风冷服务器,我们认为风扇也只消耗系统总功率的 6% 到 8%。由于 MGX GB200A NVL36 需要大量风扇功率才能工作,因此这种设计效率极低。此外,这种设计也有可能行不通,Nvidia 就必须重新设计,尝试制作 3U 计算托盘或缩小 NVLink 世界大小。在讨论 GB200A NVL36 的硬件子系统和组件变化(这些变化会影响供应链中的众多参与者)之前,让我们先讨论一下 GB200A NVL64。Nvidia 为何取消 GB200A NVL64在 Nvidia 推出 MGX GB200A NVL36 之前,他们也在试验一种风冷 NVL64 机架设计。这款完全风冷的 60kW 机架将有 64 个 GPU 通过 NVLink 完全互连。我们对这个提议的 SKU 进行了广泛的工程分析,由于下面讨论的各种问题,我们认为这款产品不可行,不会出货。在建议的 NVL64 SKU 中,有 16 个计算托盘和 4 个 NVSwitch 托盘。每个计算托盘为 2U,包含一个 Grace CPU 和四个 700W Blackwell GPU,就像 MGX GB200A NVL36 一样。交换机 NVSwitch 托盘是进行重大修改的地方。Nvidia 并没有将 GB200 的每个托盘两个 NVSwitch 减少到每个托盘一个 NVSwitch,而是尝试将其增加到四个交换机 ASIC。 尽管 Nvidia 提出的设计方案称 NVL64 将是 60kW 机架,但我们估算了功率预算,认为下限更接近每机架 70kW。无论哪种方式,仅使用空气冷却每机架 60kW 或 70kW 都是疯狂的,通常需要后门热交换器,但这破坏了风冷机架架构的意义,因为仍然依赖于液体冷却供应链,并且这种解决方案仍然需要对大多数数据中心进行设施级改造,以便将设施水输送到后门热交换器。 另一个非常成问题的散热问题是 NVSwitch Tray 在单个 1U 机箱中配备四个 28.8Tbit/s 交换机 ASIC,需要近 1,500 W 的散热。1U 机箱的散热量为 1,500W 本身并不疯狂,但一旦考虑到冷却挑战,就会发现这很疯狂,因为从交换机 ASIC 到背板连接器的Ultrapass 跨接电缆会阻挡大量气流。鉴于风冷 MGX NVL 机架正以极快的速度进入市场,而 Nvidia 试图在设计开始后仅 6 个月内发货产品,对于工程资源已经捉襟见肘的行业来说,设计新的交换机托盘和供应链是相当困难的。拟议的 GB200A NVL64 的另一个主要问题是,每个机架有 64 个 800G 后端端口,但每个 XDR Quantum-X800 Q3400 交换机有 72 个 800G 下行端口,这两者之间的端口不匹配。这意味着,采用轨道优化的后端拓扑会浪费端口,每个交换机都有额外的 16 个 800G 端口闲置。昂贵的后端交换机上有空端口会严重损害网络性能/TCO,因为交换机价格昂贵,尤其是高基数模块化交换机,如 Quantum-X800。 此外,在同一个 NVLink 域内使用 64 个 GPU 并不理想。从表面上看,这可能听起来很棒,因为它是 2 的偶数倍——非常适合不同的并行化配置,例如(张量并行 TP=8、专家并行 EP=8)或(TP=4、完全分片数据并行 FSDP=16)。不幸的是,由于硬件不可靠,Nvidia 建议每个 NVL 机架至少保留一个计算托盘,以便 GPU 离线进行维护,从而用作热备用。如果每个机架中没有至少一个计算托盘处于热备用状态,那么即使机架上有一个 GPU 发生故障,其影响范围也会导致整个机架被迫停止服务相当长一段时间。这类似于 8-GPU HGX H100s 服务器上的情况,服务器上只要有一个 GPU 发生故障,就会迫使所有 8 个 H100 停止服务,无法继续为工作负载做出贡献。 保留至少一个计算托盘作为热备用,每个机架上只有 60 个 GPU 参与工作负载。虽然 64 是一个更合适的数字,因为它有 2、4、8、16 和 32 作为公因数,可以实现更好的并行组合,但 60 就不行了。这就是为什么在 NVL36*2 或 NVL72 配置中在 GB200 上总共选择 72 个 GPU 是非常慎重的 - 它允许两个计算托盘处于热备用状态,从而使用户每个机架有 64 个 GPU 为工作负载做出贡献。GB200A NVL36 可让一个计算托盘处于热备用状态,并以 2、4、8、16 作为并行方案的共同因素,从而在实际工作负载中实现更高的可靠性。由此可见,Blackwell 最初推出 MGX GB200A 的延迟对 OEM、ODM 和零部件的影响。我们预计 GB200 NVL72 / 36x2 的出货量/推出量会减少,B100 和 B200 HGX 的销量会大幅减少。相反,我们预计 Hopper 的出货量将在 2024 年第四季度至 2025 年第一季度增加。此外,下半年 GPU 的订单将从 HGX Blackwell 和 GB200 NVL36x2 转移到 MGX GB200A NVL36。这将影响所有 ODM 和零部件供应商,因为出货/收入计划在 2024 年第三季度至 2025 年第二季度发生巨大变化。对每个供应商的影响程度还取决于供应商是 GB200 NVL72 / 36、MGX NVL36 的赢家还是输家,以及他们是否在 Hopper 系列中占有很大的份额(从而受益于更长的 Hopper 生命周期)。组件影响包括冷却、PCB、CCL、基板、NVLink 铜背板内容、ACC 电缆内容、光纤内容、BMC、电源内容等。参考链接https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment点这里 加关注,锁定更多原创内容

Powered by BNT 中文站 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024