Logo

SemiVoice

  • 算力突围:揭秘华为「暴力堆料」AI集群如何反超英伟达

    tomshardware

    06/20/2025, 10:34 AM UTC

    ➀ 华为CloudMatrix 384 AI集群搭载384颗昇腾910C芯片,在运行DeepSeek R1大模型时以300 PFLOPs BF16算力超越英伟达H800;

    ➁ 该方案能耗达559千瓦(英伟达系统仅145千瓦),能效低2.3倍,但得益于中国电价三年下降40%的能源成本优势;

    ➂ 尽管英伟达技术领先一代,华为通过光互连和自主NPU的暴力堆料策略,为受出口管制的中国客户提供了高性能替代方案。

    在算力竞赛中,华为祭出了「以量换质」的非常规战术。最新技术白皮书显示,由384颗昇腾910C NPU组成的CloudMatrix 384集群,在运行深言科技6710亿参数的R1大模型时,算力表现已超越英伟达H800系统。这相当于用4倍能耗换来1.7倍性能——在电力资源充沛的中国市场,这种trade-off正在被重新定义。

    技术细节显示,该集群采用全光互连架构,16台机柜内部署192颗CPU和768个计算单元,实现每秒4.45 tokens的预填充速度。华为科学家坦言,设计初衷不仅要突破算力壁垒,更要建立国产NPU生态信心。不过,黄仁勋在法国VivaTech峰会上的回应直指要害:「AI是并行计算问题,单卡性能不足时,堆叠更多芯片确实是有效解法」。

    值得关注的是,昇腾910C采用的双芯粒设计,疑似通过先进封装技术弥补制程短板。虽然能效仍落后英伟达2.3倍,但在国产替代的迫切需求下,中国科技巨头正以集群规模弥补单卡差距。这种「重兵集团作战」的AI基建策略,或将重塑全球算力竞争格局。

    ---

    本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。

Related Articles

SemiVoice 是您的半导体新闻聚合器,探索海内外各大网站半导体精选新闻,并实时更新。在这里方便随时了解最新趋势、市场洞察和专家分析。
📧 [email protected]
© 2025