数据中心GPU的使用寿命可能只有一到三年——谷歌架构师透露
10/24/2024, 07:36 PM UTC
数据中心GPU的使用寿命可能只有一到三年——据未具名的谷歌架构师表示Datacenter GPU service life can be surprisingly short — only one to three years is expected according to unnamed Google architect
➀ 数据中心GPU的使用寿命可能只有一到三年;➁ 高利用率导致其寿命缩短;➂ 高负载下的GPU退化更快。➀ Datacenter GPUs may only last one to three years; ➁ High utilization rates contribute to their short lifespan; ➂ GPUs under high load degrade faster.
数据中心GPU的使用寿命可能只有一到三年,这取决于其工作负载和利用率,据Tech Fund引述一位高级Alphabet专家的话。由于GPU负责AI训练和推理的所有繁重工作,因此它们始终承受着相当大的负载,因此比其他组件退化得更快。
云服务提供商(CSP)数据中心中用于AI工作负载的GPU利用率在60%到70%之间。根据Tech Fund报道的Alphabet一位主要生成式AI架构师的话,在这样的利用率下,GPU通常只能存活一到两年,最多三年。
我们可以验证自称是“Alphabet的AI首席架构师”的人的名字,因此我们不能100%相信他们的说法。尽管如此,我们认为这个说法是有根据的,因为现代用于AI和HPC应用的数据中心GPU消耗和散发热量超过700瓦,这对微小的硅片来说是一种实际的压力。
演讲者表示,有一种方法可以延长GPU的寿命:降低其利用率。然而,这意味着它们会贬值得更慢,回收资本得更慢,这对商业来说并不是特别有利,因此,大多数云服务提供商更倾向于以高利用率使用他们的GPU。
今年早些时候,Meta发布了一项研究,描述了其Llama 3 405B模型在由16384个Nvidia H100 80GB GPU组成的集群上进行的训练。集群的模型翻转利用率(MFU)约为38%(使用BF16),但在54天的预训练快照期间出现的419起意外中断(其中148起,占比30.1%)是由各种GPU故障(包括NVLink故障)引发的,而72起(占比17.2%)是由HBM3内存翻转引起的。
Meta的结果似乎对H100 GPU非常有利。如果GPU及其内存以Meta的速率继续出现故障,那么这些处理器的年化故障率约为9%,而三年内这些GPU的年化故障率约为27%,尽管服务一年后GPU可能更频繁地出现故障。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。