首次推出超以太网和UALink IP解决方案,助力大规模AI集群扩展
12/19/2024, 02:00 PM UTC
超以太网和UALink IP解决方案助力AI集群扩展Ultra Ethernet and UALink IP solutions scale AI clusters
➀ 人工智能基础设施需求的增长需要可扩展的互连技术;➁ 超以太网和UALink解决方案解决AI加速集群扩展的挑战;➂ Synopsys的IP解决方案提供高效且节能的数据中心互连技术。➀ The growing demand for AI infrastructure requires scalable interconnects; ➁ Ultra Ethernet and UALink address the challenges of scaling AI acceleration clusters; ➂ Synopsys' IP solutions offer efficient and power-efficient interconnects for data centers.随着人工智能基础设施需求的不断增长,对可扩展互连技术的需求也日益迫切。超大型AI模型承载着庞大的训练负载和推理延迟要求,这促使数据中心中的AI加速集群扩展变得迫切。
先进的GPU和NPU为计算负载提供了解决方案。然而,服务器之间的带宽不足或延迟可能会限制AI性能,而更快的互连往往需要消耗大量电力,而且这些问题的规模会迅速放大。
Ultra Ethernet和UALink这两种新倡议分别针对AI加速集群的扩展和升级需求。Synopsys通过其新的Ultra Ethernet和UALink IP解决方案,引入了经过验证的以太网和PCIe IP,包括其224G以太网PHY,以提供高效、可扩展的数据中心互连。
“将所有数据在运行大型语言模型如Llama 3及其后续版本的人工智能集群中传输和处理,面临着互连挑战,”Synopsys接口IP高级产品经理Priyank Shukla表示。“到2030年,仅训练这些模型的互连就可能消耗数据中心70%的电力。”(参见麦肯锡的更多AI数据中心2030见解。)
高级AI基础设施集群互连不是可选的——大型语言模型的需求已经远远超出了单个GPU的能力。例如,NVIDIA的H100 GPU已经达到了光刻极限,这意味着即使在先进工艺中,设计也消耗了最大的可制造晶圆尺寸,这使得在一个芯片上添加更多功能变得困难。Meta关于其Llama 3训练项目的轶事表明,有16,000个H100节点在70天内工作。它们还表明,该模型的大小每四到六个月翻一番,这很快将节点数推到数十万。
互连问题有两个不同的方面需要不同的解决方案。首先是在集群中的许多节点之间(一些在机架内,一些在几个机架之外)以低延迟移动大量数据的老式带宽分割挑战。其次是高速、低延迟地将可能数百万个端点引入和移出集群。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。