Logo

SemiVoice

  • 数据中心GPU的使用寿命可能只有一到三年——谷歌架构师透露

    tomshardware

    10/24/2024, 07:36 PM UTC

    数据中心GPU的使用寿命可能只有一到三年,这取决于其工作负载和利用率,据Tech Fund引述一位高级Alphabet专家的话。由于GPU负责AI训练和推理的所有繁重工作,因此它们始终承受着相当大的负载,因此比其他组件退化得更快。

    云服务提供商(CSP)数据中心中用于AI工作负载的GPU利用率在60%到70%之间。根据Tech Fund报道的Alphabet一位主要生成式AI架构师的话,在这样的利用率下,GPU通常只能存活一到两年,最多三年。

    我们可以验证自称是“Alphabet的AI首席架构师”的人的名字,因此我们不能100%相信他们的说法。尽管如此,我们认为这个说法是有根据的,因为现代用于AI和HPC应用的数据中心GPU消耗和散发热量超过700瓦,这对微小的硅片来说是一种实际的压力。

    演讲者表示,有一种方法可以延长GPU的寿命:降低其利用率。然而,这意味着它们会贬值得更慢,回收资本得更慢,这对商业来说并不是特别有利,因此,大多数云服务提供商更倾向于以高利用率使用他们的GPU。

    今年早些时候,Meta发布了一项研究,描述了其Llama 3 405B模型在由16384个Nvidia H100 80GB GPU组成的集群上进行的训练。集群的模型翻转利用率(MFU)约为38%(使用BF16),但在54天的预训练快照期间出现的419起意外中断(其中148起,占比30.1%)是由各种GPU故障(包括NVLink故障)引发的,而72起(占比17.2%)是由HBM3内存翻转引起的。

    Meta的结果似乎对H100 GPU非常有利。如果GPU及其内存以Meta的速率继续出现故障,那么这些处理器的年化故障率约为9%,而三年内这些GPU的年化故障率约为27%,尽管服务一年后GPU可能更频繁地出现故障。

    ---

    本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。

Related Articles (CSV)

SemiVoice 是您的半导体新闻聚合器,探索海内外各大网站半导体精选新闻,并实时更新。在这里方便随时了解最新趋势、市场洞察和专家分析。
📧 [email protected]
© 2025