算力突围:揭秘华为「暴力堆料」AI集群如何反超英伟达
06/20/2025, 10:34 AM UTC
华为暴力堆料AI战略显成效:昇腾910C集群性能超越英伟达H800Huawei's brute force AI tactic seems to be working — CloudMatrix 384 claimed to outperform Nvidia processors running DeepSeek R1
➀ 华为CloudMatrix 384 AI集群搭载384颗昇腾910C芯片,在运行DeepSeek R1大模型时以300 PFLOPs BF16算力超越英伟达H800;
➁ 该方案能耗达559千瓦(英伟达系统仅145千瓦),能效低2.3倍,但得益于中国电价三年下降40%的能源成本优势;
➂ 尽管英伟达技术领先一代,华为通过光互连和自主NPU的暴力堆料策略,为受出口管制的中国客户提供了高性能替代方案。
➀ A Huawei CloudMatrix 384 cluster with 384 Ascend 910C chips outperforms Nvidia H800 in running DeepSeek's R1 LLM, achieving 300 PFLOPS BF16 compute power;
➁ The solution consumes 4x more energy (559 kW vs. Nvidia's 145 kW) with 2.3x lower efficiency, but benefits from China's abundant electricity resources;
➂ Despite Nvidia's technological lead, Huawei's brute-force approach using optical interconnects and domestic NPUs offers Chinese clients a viable alternative under export restrictions.
在算力竞赛中,华为祭出了「以量换质」的非常规战术。最新技术白皮书显示,由384颗昇腾910C NPU组成的CloudMatrix 384集群,在运行深言科技6710亿参数的R1大模型时,算力表现已超越英伟达H800系统。这相当于用4倍能耗换来1.7倍性能——在电力资源充沛的中国市场,这种trade-off正在被重新定义。
技术细节显示,该集群采用全光互连架构,16台机柜内部署192颗CPU和768个计算单元,实现每秒4.45 tokens的预填充速度。华为科学家坦言,设计初衷不仅要突破算力壁垒,更要建立国产NPU生态信心。不过,黄仁勋在法国VivaTech峰会上的回应直指要害:「AI是并行计算问题,单卡性能不足时,堆叠更多芯片确实是有效解法」。
值得关注的是,昇腾910C采用的双芯粒设计,疑似通过先进封装技术弥补制程短板。虽然能效仍落后英伟达2.3倍,但在国产替代的迫切需求下,中国科技巨头正以集群规模弥补单卡差距。这种「重兵集团作战」的AI基建策略,或将重塑全球算力竞争格局。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。