标题图片 | 《无间道》截图
Nvidia 陷入大麻烦了。
据The Information报道,Nvidia最新的杀手级功能、采用Blackwell架构的AI GPU从原定的今年Q3推迟到2025年Q1。据称这款GPU存在设计缺陷,因此需要推迟产品发布以解决问题。
此次延迟直接影响到微软、Meta、xAI等大客户,这些客户共订购了价值数百亿美元的芯片,而且关键数据中心的建设也可能受到影响。
有从业者表示,这可能会导致Nvidia失去客户的信任,并且可能会遭到起诉。
不过Nvidia的发言人很快做出回应称:“Hopper的需求非常强劲,Blackwell的产量将在下半年逐步增加。”
但种种迹象表明,被硅谷巨头寄予厚望的布莱克韦尔可能真的“违约”。
硅谷巨头的“白月光”
当采用Blackwell架构的B100/B200芯片在GTC大会上亮相时,华尔街知名投行Keybanc Capital Markets发布了这样的预测:
“Blackwell芯片将推动Nvidia数据中心业务的收入从2024财年(截至2024年1月)的475亿美元增至2025年的2000亿美元以上。”
众所周知,NVIDIA的高性能计算卡在大型模型的训练和部署中起着至关重要的作用,但BlackWell真的能独自将其性能提高一倍吗?
答案是肯定的,即使未来5年,硅谷巨头之间的军备竞赛在硬件层面也将完全围绕Blackwell架构芯片展开。
首先要明确的是,Blackwell并不是一款芯片,而是一个平台,它算是过去Hooper架构的延伸,但性能却实现了全方位的碾压。
在Blackwell架构芯片上,NVIDIA继承了H200上“组装芯片”的思路,采用统一显存架构+双核配置,将两块GPU Dies(裸晶)拼接成一块GPU,实现了192GB HBM3e显存、8TB/s显存带宽。
与上一代Hooper架构GPU相比,Blackwell结构GPU单片训练性能(FP8)是Hooper架构的2.5倍,推理性能(FP4)是Hooper架构的5倍。
Blackwell架构的能耗表现也异常出色,在GTC大会上,黄仁勋提到了一个例子:
“训练一个 1.8 万亿参数的模型需要 8,000 个 Hopper GPU 和 15MW 的电力,而 2,000 个 Blackwell GPU 仅需 4MW 的电力即可完成这项工作。
除了性能和功耗之外,Blackwell架构真正的杀手锏,是其采用了“第二代Transformer引擎”和“第五代NVLink网络技术”。
前者通过每个神经元的精度由8位提升至4位,使计算能力、带宽、模型参数规模提升一倍;后者大幅提升GPU集群的通信效率,支持最多576块GPU之间无缝高速通信,解决了万亿参数混合专家模型的通信瓶颈问题。
在科技巨头纷纷押注AI、建设自有数据中心的今天,Blackwell架构芯片所展现出的特性让他们没有理由拒绝。
然而,即使是这样突破性的平台也可能存在设计缺陷。
上文提到,Nvidia 的设计思路是将两块 die 封装在一块 GPU 上,以实现显著的性能提升,但这也带来了隐患。据 The Information 援引业内人士的话称,最近几周,台积电工程师在准备量产时发现,这一架构的连接设计存在缺陷,这将导致芯片的良率和产能受到严重影响。
因此,原定的量产计划被迫终止,Nvidia 需要重新设计 Blackwell 的布局,之后台积电也未获准进行另一轮试产。
谁会受伤?
同样采用Blackwell架构的Nvidia RTX50系列显卡也可能受到该设计缺陷的影响。
据最新消息,原本预计在今年第四季度发布的Blackwell RTX 50系列,要到明年1月7日至10日举办的CES 2025展会上才会发布。与面向AI的B100/B200等高性能GPU显卡不同,RTX系列是NVIDIA面向游戏玩家开发的显卡系列,若不能如期发布,带来的负面影响不容小觑。
当然,受害最深的还是硅谷的互联网巨头们。
AI热潮中,科技巨头斥资数十亿美元采购高性能计算卡并不罕见,而Blackwell问世后,这些公司似乎为其准备了更多“弹药”。
根据最新季度财报显示,微软、Alphabet、亚马逊、Meta四大巨头在2024年前六个月均大幅增加了资本支出。不仅如此,为了保持在AI军备竞赛中的领先地位,这些巨头还上调了支出指引,表明GPU采购需求不断增加。
这些热钱大部分都流向了“铲子卖家”英伟达。
作为英伟达最大的客户之一,微软已设定目标,将在 2024 年底前储备 180 万块 AI 芯片,并计划于明年 1 月向 OpenAI 提供采用 Blackwell 芯片的服务器。金融服务公司 DA Davidson 分析师估计,微软去年在英伟达芯片上花费了 45 亿美元(325.6 亿元人民币),并计划到 2024 年将拥有的 GPU 数量增加三倍。
Meta 也在为此次盛会做准备。在 GTC 大会上 Blackwell 亮相的第二天,扎克伯格就发表声明称,Meta 计划使用 Blackwell 来训练 Llama 模型。根据扎克伯格今年年初的披露,Meta 计划在年底前预留约 60 万块高性能 GPU,其中 35 万块将是采用 Hopper 架构的 H100 芯片,其余 25 万块则极有可能预留为 Blackwell 架构芯片。
值得一提的是,宣称要自行研发 AI 芯片的马斯克也对 Blackwell 表现出了极大的兴趣,他计划在 2025 年采购 30 万块 B200 GPU,总金额高达 90 亿美元(约合人民币 652 亿元)。这批新 GPU 将升级 X 现有的 AI GPU 集群,目前该集群由 10 万块上一代 H100 GPU 组成。
由于下一代大型模型所需算力倍增,巨头之间的算力军备竞赛达到新高,AI巨头对于Blackwell B200的需求也与日俱增。此次,Nvidia的意外推迟,让这场看似没有尽头的战争变得更加扑朔迷离。
评论(0)