Microsoft deploys world's first 'supercomputer-scale' GB300 NVL72 Azure cluster — 4,608 GB300 GPUs linked together to form a single, unified accelerator capable of 92.1 exaFLOPS of FP4 inference

在AI算力军备竞赛中，微软再次刷新了行业认知。10月9日，微软宣布在Azure平台部署全球首个超大规模GB300 NVL72超级计算集群，共计4608颗NVIDIA Blackwell Ultra GPU通过革命性的NVLink 5和Quantum-X800 InfiniBand网络连结成「单一体」，宣称FP4推理性能高达92.1 exaFLOPS——相当于每秒钟完成92万亿亿次4位浮点运算。

这组「钢铁巨兽」的核心秘密在于NVL72机柜设计：每个机柜塞入72颗GPU和36颗Grace CPU（总计2592颗Arm核心），通过NVLink 5将HBM3E显存与LPDDR5X内存统一调度，形成37TB的「超融合内存池」。其130 TB/s的带宽足以在2分钟内传输完整个美国国会图书馆的数字馆藏。微软特别强调，这套系统能使大语言模型的训练周期从「月」级压缩到「周」级。

有趣的是，这个超级集群采用液冷散热，但微软声称通过独立热交换器设计，在满载状态下的耗水量远低于传统方案。这暗示着绿色计算与超算性能的矛盾可能迎来破局点。业内人士分析，微软此举既是向OpenAI兑现算力承诺，也是为应对Elon Musk旗下xAI等竞争对手的追赶。毕竟，NVIDIA刚与xAI签订新的芯片供应协议，而OpenAI自身的10GW算力计划更离不开微软的基础设施支撑。

这场算力狂欢的背后，是NVIDIA在AI霸权争夺中的关键一步。从HGX H100到GB300，短短两年间单机柜算力提升近10倍，而微软透露这仅仅是其全球超大规模部署的「第一块拼图」。当科技巨头们开始用「核反应堆级」的能耗追逐AI突破，或许我们该思考：这样的军备竞赛，终点究竟在哪里？

Related Articles