微软Azure CTO:AI数据中心电力挑战下,分布式训练成为必然趋势
10/18/2024, 06:54 PM UTC
微软Azure CTO称,随着AI数据中心接近电网极限,AI训练的分布式需求日益迫切Microsoft Azure CTO claims distribution of AI training is needed as AI datacenters approach power grid limits
➀ 微软Azure首席技术官表示,随着数据中心接近电网极限,AI训练的分布式变得必要;➁ 生成式AI模型的快速扩张需要更强大的硬件,推动现有数据中心基础设施的极限;➂ 微软正在投资能源基础设施,并考虑连接多个数据中心以进行高级AI模型训练。➀ Microsoft Azure's CTO suggests that the distribution of AI training is necessary as datacenters reach power grid limits; ➁ The rapid expansion of generative AI models requires more powerful hardware, pushing the limits of current datacenter infrastructure; ➂ Microsoft is investing in energy infrastructure and considering connecting multiple datacenters for advanced AI model training.
在人工智能领域,随着生成式AI模型的快速扩张,对更强大硬件的需求日益增长,这正在推动现有数据中心基础设施的极限。微软Azure的首席技术官Mark Russinovich指出,随着数据中心达到电网的极限,AI训练的分布式需求变得日益迫切。
现代AI数据中心,如埃隆·马斯克的公司特斯拉或xAI所建设的数据中心,可以容纳多达10万个英伟达H100或H200 GPU。随着美国巨头竞相训练行业最佳AI模型,他们需要更多的AI处理器协同工作。因此,数据中心正在变得更加耗能,这不仅是因为处理器数量的增加,也因为这些处理器的功率消耗以及冷却所需的电力。结果,消耗数吉瓦电力的数据中心可能很快就会成为现实。
面对这些挑战,微软正在对能源基础设施进行重大投资。最近,公司签署了一项协议,重新开放三里岛核电站,以确保更稳定的能源供应。在此之前,公司已投入数十亿美元用于AI基础设施的发展。但微软Azure CTO表示,这可能还不够,在某些时候,大型公司将不得不连接多个数据中心来训练最复杂的模型。
Russinovich告诉Semafor,这种情况是不可避免的。在某些情况下,可能唯一的可行方式是跨数据中心,甚至跨区域进行AI训练。他表示,我们可能不会离得太远。
这种方法的纸面解决方案可以解决电网日益增长的压力,并克服与集中式AI训练相关的技术挑战。然而,这种策略带来了重大的技术挑战,尤其是在确保数据中心保持同步并维持有效AI训练所需的高通信速度方面。要在多个地点管理这一问题,数据中心需要在相对靠近的位置,并且需要微软及其合作伙伴OpenAI内部多个团队的协作,这意味着必须在微软内部开发去中心化的AI训练方法。
去中心化AI训练方法的一个问题是,一旦开发出来,它们可以提供一种减少对最先进GPU和大规模数据中心的依赖的潜在解决方案。这可能会降低小型公司和个人训练AI模型进入门槛,无需庞大的计算资源。有趣的是,中国研究人员已经使用去中心化方法在多个数据中心训练他们的AI模型。然而,细节很少。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。