在AI算力军备竞赛中,微软再次刷新了行业认知。10月9日,微软宣布在Azure平台部署全球首个超大规模GB300 NVL72超级计算集群,共计4608颗NVIDIA Blackwell Ultra GPU通过革命性的NVLink 5和Quantum-X800 InfiniBand网络连结成「单一体」,宣称FP4推理性能高达92.1 exaFLOPS——相当于每秒钟完成92万亿亿次4位浮点运算。
这组「钢铁巨兽」的核心秘密在于NVL72机柜设计:每个机柜塞入72颗GPU和36颗Grace CPU(总计2592颗Arm核心),通过NVLink 5将HBM3E显存与LPDDR5X内存统一调度,形成37TB的「超融合内存池」。其130 TB/s的带宽足以在2分钟内传输完整个美国国会图书馆的数字馆藏。微软特别强调,这套系统能使大语言模型的训练周期从「月」级压缩到「周」级。
有趣的是,这个超级集群采用液冷散热,但微软声称通过独立热交换器设计,在满载状态下的耗水量远低于传统方案。这暗示着绿色计算与超算性能的矛盾可能迎来破局点。业内人士分析,微软此举既是向OpenAI兑现算力承诺,也是为应对Elon Musk旗下xAI等竞争对手的追赶。毕竟,NVIDIA刚与xAI签订新的芯片供应协议,而OpenAI自身的10GW算力计划更离不开微软的基础设施支撑。
这场算力狂欢的背后,是NVIDIA在AI霸权争夺中的关键一步。从HGX H100到GB300,短短两年间单机柜算力提升近10倍,而微软透露这仅仅是其全球超大规模部署的「第一块拼图」。当科技巨头们开始用「核反应堆级」的能耗追逐AI突破,或许我们该思考:这样的军备竞赛,终点究竟在哪里?