DeepSeek Research: Huawei Ascend 910C Achieves 60% of Nvidia H100 Inference Performance, Reducing Reliance on Nvidia GPUs
02/04/2025, 01:30 PM UTC
DeepSeek研究:华为Ascend 910C性能达到Nvidia H100的60%,减少对Nvidia GPU的依赖DeepSeek research suggests Huawei's Ascend 910C delivers 60% Nvidia H100 inference performance
➀ DeepSeek的研究表明,华为的Ascend 910C处理器在推理性能上达到Nvidia H100的60%;
➁ 尽管存在局限性,但Ascend 910C有助于减少中国对Nvidia GPU的依赖;
➂ 尽管不是AI训练的最佳选择,但该处理器显示了华为AI处理器能力的进步。
➀ DeepSeek research indicates that Huawei's Ascend 910C processor offers 60% of Nvidia H100's inference performance;
➁ Despite its limitations, the Ascend 910C can help reduce China's reliance on Nvidia GPUs;
➂ The processor, despite not being the best for AI training, shows progress in Huawei's AI processor capabilities.
DeepSeek的研究表明,华为的HiSilicon Ascend 910C处理器在推理性能上达到了Nvidia H100的60%。尽管Ascend 910的性能对于大型AI模型的经济高效训练来说已经不够,但它在推理方面的表现仍然值得注意。
DeepSeek的测试发现,910C处理器在推理性能上超出了预期。通过手动优化CUNN内核,其效率还可以进一步提高。DeepSeek对Ascend处理器的原生支持及其PyTorch存储库使得CUDA到CUNN的转换变得轻松,从而更容易将华为的硬件集成到AI工作流程中。
这表明,尽管美国政府实施了制裁,且无法访问台积电的最先进工艺技术,华为的AI处理器能力仍在快速发展。
然而,华为和SMIC虽然已经在2019-2020年期间追上了台积电的能力,并生产出可以与Nvidia的A100和H100处理器相媲美的芯片,但Ascend 910C并不是AI训练的最佳选择。AI训练仍然是Nvidia保持无可争议领先地位的领域。
DeepSeek的Yuchen Jin表示,长期训练可靠性是中国处理器的一个关键弱点。这一挑战源于Nvidia硬件和软件生态系统的深度融合,该生态系统已经发展了二十多年。尽管推理性能可以优化,但持续的训练工作负载需要华为在硬件和软件堆栈方面进行进一步的改进。
与原始的Ascend 910一样,新的Ascend 910C芯片采用芯片封装技术,其主计算SoC大约有530亿个晶体管。原始的Ascend 910计算芯片由台积电使用其N7+制造技术(7nm级,使用极紫外光)制造,而Ascend 910C的计算芯片由SMIC使用其第二代7nm级工艺技术N+2制造。
展望未来,一些专家预测,随着AI模型趋同于Transformer架构,Nvidia软件生态系统的地位可能下降。DeepSeek在硬件和软件优化方面的专业知识也可以显著减少对Nvidia的依赖,为AI公司提供一个更具成本效益的替代方案,特别是在推理方面。然而,要在全球范围内竞争,中国必须克服训练稳定性的挑战,并进一步细化其AI计算基础设施。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。