Huawei's brute force AI tactic seems to be working — CloudMatrix 384 claimed to outperform Nvidia processors running DeepSeek R1

在算力竞赛中，华为祭出了「以量换质」的非常规战术。最新技术白皮书显示，由384颗昇腾910C NPU组成的CloudMatrix 384集群，在运行深言科技6710亿参数的R1大模型时，算力表现已超越英伟达H800系统。这相当于用4倍能耗换来1.7倍性能——在电力资源充沛的中国市场，这种trade-off正在被重新定义。

技术细节显示，该集群采用全光互连架构，16台机柜内部署192颗CPU和768个计算单元，实现每秒4.45 tokens的预填充速度。华为科学家坦言，设计初衷不仅要突破算力壁垒，更要建立国产NPU生态信心。不过，黄仁勋在法国VivaTech峰会上的回应直指要害：「AI是并行计算问题，单卡性能不足时，堆叠更多芯片确实是有效解法」。

值得关注的是，昇腾910C采用的双芯粒设计，疑似通过先进封装技术弥补制程短板。虽然能效仍落后英伟达2.3倍，但在国产替代的迫切需求下，中国科技巨头正以集群规模弥补单卡差距。这种「重兵集团作战」的AI基建策略，或将重塑全球算力竞争格局。

Related Articles