在华为全联接2025大会上,这家中国科技巨头祭出了Atlas 950超级集群的杀手锏。这款数据中心级AI解决方案由超过10,240个光互联机柜组成,部署了52.4万颗昇腾950DT NPU芯片。单看纸面数据确实惊人:FP4格式下1泽塔FLOPS的推理性能,相当于每秒完成10^21次浮点运算。与此对比,去年甲骨文搭载13万颗B200 GPU的OCI超级集群也才达到2.4泽塔FLOPS。

不过魔鬼藏在细节里。这套系统占地面积堪比九座标准足球场,单是256个计算与通信机柜就占去160个,更遑论配套的制冷、供电系统需要额外空间。与之形成鲜明对比的是,英伟达Vera Rubin NVL144仅需两机柜便能实现3.6 NVFP4泽塔FLOPS性能——这暴露出国产芯片在单卡能效上的差距。华为显然采用了『以量补质』的战略,用数十万颗芯片的堆砌来抵消单核性能不足,这种设计虽能快速提升算力规模,却将运维复杂度和能耗成本转嫁给客户。

值得关注的是,华为同步公开了UBoE互联协议,宣称相比传统RoCE减少30%交换机需求。这种软硬件协同优化的思路,或许是其对抗CUDA生态的关键突破口。业内人士指出,尽管短期内性能指标亮眼,但大规模集群的实际推理效率、软件适配性和商业落地能力,才是决定这场AI芯片大战胜负的真正赛点。

随着Atlas 960 SuperCluster路线图的曝光,华为正构建起从芯片到系统的完整AI生态。在美国持续加压的半导体禁令下,这种『举国体制』的研发模式,既是中国科技自立的选择,也可能重塑全球AI基础设施的竞争格局。只是当算力堆砌遭遇物理极限,创新之路终究要回归芯片工艺与架构的革命。