微软Azure CTO：AI数据中心电力挑战下，分布式训练成为必然趋势
tomshardware
10/18/2024, 06:54 PM UTC
微软Azure CTO称，随着AI数据中心接近电网极限，AI训练的分布式需求日益迫切Microsoft Azure CTO claims distribution of AI training is needed as AI datacenters approach power grid limits
➀ 微软Azure首席技术官表示，随着数据中心接近电网极限，AI训练的分布式变得必要；➁ 生成式AI模型的快速扩张需要更强大的硬件，推动现有数据中心基础设施的极限；➂ 微软正在投资能源基础设施，并考虑连接多个数据中心以进行高级AI模型训练。➀ Microsoft Azure's CTO suggests that the distribution of AI training is necessary as datacenters reach power grid limits; ➁ The rapid expansion of generative AI models requires more powerful hardware, pushing the limits of current datacenter infrastructure; ➂ Microsoft is investing in energy infrastructure and considering connecting multiple datacenters for advanced AI model training.
在人工智能领域，随着生成式AI模型的快速扩张，对更强大硬件的需求日益增长，这正在推动现有数据中心基础设施的极限。微软Azure的首席技术官Mark Russinovich指出，随着数据中心达到电网的极限，AI训练的分布式需求变得日益迫切。
现代AI数据中心，如埃隆·马斯克的公司特斯拉或xAI所建设的数据中心，可以容纳多达10万个英伟达H100或H200 GPU。随着美国巨头竞相训练行业最佳AI模型，他们需要更多的AI处理器协同工作。因此，数据中心正在变得更加耗能，这不仅是因为处理器数量的增加，也因为这些处理器的功率消耗以及冷却所需的电力。结果，消耗数吉瓦电力的数据中心可能很快就会成为现实。
面对这些挑战，微软正在对能源基础设施进行重大投资。最近，公司签署了一项协议，重新开放三里岛核电站，以确保更稳定的能源供应。在此之前，公司已投入数十亿美元用于AI基础设施的发展。但微软Azure CTO表示，这可能还不够，在某些时候，大型公司将不得不连接多个数据中心来训练最复杂的模型。
Russinovich告诉Semafor，这种情况是不可避免的。在某些情况下，可能唯一的可行方式是跨数据中心，甚至跨区域进行AI训练。他表示，我们可能不会离得太远。
这种方法的纸面解决方案可以解决电网日益增长的压力，并克服与集中式AI训练相关的技术挑战。然而，这种策略带来了重大的技术挑战，尤其是在确保数据中心保持同步并维持有效AI训练所需的高通信速度方面。要在多个地点管理这一问题，数据中心需要在相对靠近的位置，并且需要微软及其合作伙伴OpenAI内部多个团队的协作，这意味着必须在微软内部开发去中心化的AI训练方法。
去中心化AI训练方法的一个问题是，一旦开发出来，它们可以提供一种减少对最先进GPU和大规模数据中心的依赖的潜在解决方案。这可能会降低小型公司和个人训练AI模型进入门槛，无需庞大的计算资源。有趣的是，中国研究人员已经使用去中心化方法在多个数据中心训练他们的AI模型。然而，细节很少。
---
本文由大语言模型（LLM）生成，旨在为读者提供半导体新闻内容的知识扩展（Beta）。

SemiVoice

微软Azure CTO：AI数据中心电力挑战下，分布式训练成为必然趋势

微软Azure CTO称，随着AI数据中心接近电网极限，AI训练的分布式需求日益迫切Microsoft Azure CTO claims distribution of AI training is needed as AI datacenters approach power grid limits

Related Articles

Related Articles (CSV)