Logo

SemiVoice

  • 微软Azure CTO:AI数据中心电力挑战下,分布式训练成为必然趋势

    tomshardware

    10/18/2024, 06:54 PM UTC

    在人工智能领域,随着生成式AI模型的快速扩张,对更强大硬件的需求日益增长,这正在推动现有数据中心基础设施的极限。微软Azure的首席技术官Mark Russinovich指出,随着数据中心达到电网的极限,AI训练的分布式需求变得日益迫切。

    现代AI数据中心,如埃隆·马斯克的公司特斯拉或xAI所建设的数据中心,可以容纳多达10万个英伟达H100或H200 GPU。随着美国巨头竞相训练行业最佳AI模型,他们需要更多的AI处理器协同工作。因此,数据中心正在变得更加耗能,这不仅是因为处理器数量的增加,也因为这些处理器的功率消耗以及冷却所需的电力。结果,消耗数吉瓦电力的数据中心可能很快就会成为现实。

    面对这些挑战,微软正在对能源基础设施进行重大投资。最近,公司签署了一项协议,重新开放三里岛核电站,以确保更稳定的能源供应。在此之前,公司已投入数十亿美元用于AI基础设施的发展。但微软Azure CTO表示,这可能还不够,在某些时候,大型公司将不得不连接多个数据中心来训练最复杂的模型。

    Russinovich告诉Semafor,这种情况是不可避免的。在某些情况下,可能唯一的可行方式是跨数据中心,甚至跨区域进行AI训练。他表示,我们可能不会离得太远。

    这种方法的纸面解决方案可以解决电网日益增长的压力,并克服与集中式AI训练相关的技术挑战。然而,这种策略带来了重大的技术挑战,尤其是在确保数据中心保持同步并维持有效AI训练所需的高通信速度方面。要在多个地点管理这一问题,数据中心需要在相对靠近的位置,并且需要微软及其合作伙伴OpenAI内部多个团队的协作,这意味着必须在微软内部开发去中心化的AI训练方法。

    去中心化AI训练方法的一个问题是,一旦开发出来,它们可以提供一种减少对最先进GPU和大规模数据中心的依赖的潜在解决方案。这可能会降低小型公司和个人训练AI模型进入门槛,无需庞大的计算资源。有趣的是,中国研究人员已经使用去中心化方法在多个数据中心训练他们的AI模型。然而,细节很少。

    ---

    本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。

SemiVoice 是您的半导体新闻聚合器,探索海内外各大网站半导体精选新闻,并实时更新。在这里方便随时了解最新趋势、市场洞察和专家分析。
📧 [email protected]
© 2025