媒体:英伟达新款AI芯片面临延期交付,配套服务器还出现过热问题
《志愿军:存亡之战》将宏大叙事彻底背景化,而将细腻的笔触聚焦于以李默尹、李想和李晓一家人具体的战斗故事中,从而激起观众强烈的情感共鸣。 近年来一系列以抗美援朝为背景的重大主题电影作品,例如《金刚川》和《长津湖》系列等,越来越趋向于将宏大的战争作为呈现人物个体战斗的背景,在审美过程中制造观众对人物...
11月17日消息,继英伟达首席执行官黄仁勋近日承认新一代高性能GPU Blackwell确实存在设计上的缺陷之后,该芯片又遇到配套服务器过热的情况。近几个月,英伟达多次要求供应商修改服务器机柜设计,以 过热问题。这一消息已引起了客户的焦虑,他们担心这可能会导致服务器的延迟使用。
这些新的服务器机柜设计之所以引人注目,是因为它们能够集成72颗英伟达的人工智能芯片。人工智能开发者希望,这种高集成度能够使他们更快地训练更大的人工智能模型。包括微软、Meta和埃隆·马斯克(Elon Musk)的xAI在内的主要客户,对英伟达在今年3月发布的Blackwell表现出浓厚的兴趣。
有大型云服务提供商的高管们担心,Blackwell推迟上市,可能会影响他们明年启动GPU集群的计划。他们指出,至少需要几周时间来 系统并 潜在的问题,尤其是考虑到Blackwell机柜新颖的设计和前所未有的复杂性。
例如,微软等客户计划通过更换一些组件来定制他们的Blackwell机柜,以更好地适应他们的数据中心,但最终的设计仍然取决于英伟达如何同它们进行配合。
英伟达发言人没有对Blackwell机柜设计的最终确定情况发表评论。该发言人提到,英伟达的“GB200系统是有史以来最先进的计算机”,并且“将它们集成到多样化的数据中心环境中需要与客户共同协作。”
英伟达的客户们面临着巨大的压力,因为他们希望能够在竞争对手之前推出数据中心服务器集群。英伟达首席执行官黄仁勋今年9月曾在旧金山高盛科技大会上表示:“我们组件、技术和基础设施以及软件的交付,直接影响到客户的收入,直接影响到他们的竞争力。因此,我们有着许多情绪更为激动的客户。”
黄仁勋在今年3月举行的年度GTC大会上不仅发布了Blackwell系列芯片,还推出了Blackwell服务器的机柜 方案。英伟达已生产了连接其芯片的电缆,黄仁勋的推销点是,客户可以通过订购机柜以及芯片和电缆来确保更快的连接。加载72颗GPU的机柜重达3000磅(约合1.5吨),英伟达宣称它是连接芯片以获得最快性能的最佳方式。
然而,机柜及其密集的多个GPU布局是英伟达迄今为止最复杂的设计。在公开推出机柜几个月后,英伟达工程师在 新系统时发现机柜无 常工作。连接太多高度复杂的芯片会导致它们过热,使机柜中的服务器变得不太可靠,并影响它们的性能。此外,机柜还需要液冷,而不是传统的空气冷却。大多数人工智能开发人员和数据中心提供商以前从未使用液冷技术,这也是英伟达客户对此种设计感到焦虑的另一个原因。
与此同时,客户正在考虑替代方案。一家已经订购了机柜的云公司的高管表示,Blackwell的相关问题导致该公司考虑购买更多的英伟达Hopper芯片,也就是H100或H200。客户可能会选择购买更多的Hopper芯片,而不是等待Blackwell芯片的上市。分析师和投资者认为,Hopper系列的高利润率可能会提升英伟达的短期收入。
然而,这种选择可能会影响英伟达的长期收入增长。原因是那些转向Hopper芯片的客户,未来可能不会大量购买Blackwell芯片和NVLink服务器。这样一来,英伟达未来的销售额可能会减少。(腾讯科技特约编译/无忌)