Logo

SemiVoice

  • 特斯拉曝Dojo超算核心检测黑科技:百万核芯片如何避免'一核有难,全局瘫痪'?

    tomshardware

    06/07/2025, 12:26 PM UTC

    ➀ 特斯拉开发了革命性的Stress工具,用于检测其300mm晶圆级Dojo处理器中的缺陷核心,避免因数据静默错误导致数周AI训练成果失效;

    ➁ 每个Dojo训练单元集成8850个RISC-V核心,采用台积电InFO_SoW封装,Stress系统可实现百万级核心群实时无损检测;

    ➃ 该方法不仅发现硬件问题,更揭示设计层缺陷,使特斯拉在硬件可靠性比肩谷歌Meta,并推动晶圆级芯片技术普及。

    在AI军备竞赛白热化的今天,特斯拉的Dojo超算系统凭借其革命性的晶圆级处理器架构震撼业界。每个300mm晶圆打造的Dojo训练单元集成8850个RISC-V核心,但其特殊构造也带来了前所未见的检测难题——单个核心的静默数据错误(SDC)足以让数周训练成果付诸东流。

    传统检测手段面对18,000安培电流、15,000瓦功耗的巨无霸芯片束手无策。特斯拉工程师另辟蹊径,开发出Stress检测系统:通过让核心自主交换随机指令集,利用芯片内部高达10TB/s的互联带宽进行分布式自检。更巧妙的是,系统引入寄存器异或运算和多轮次执行策略,使故障检出率提升10倍。如今,这套系统已部署在特斯拉全球Dojo集群中,实现百万级核心的动态监控。

    台积电作为Dojo芯片代工厂,其InFO_SoW封装技术功不可没。值得一提的是,Stress系统不仅定位硬件故障,更揭示出罕见的设计层漏洞,促使特斯拉团队在软件层面进行修复。行业分析师指出,这种'在线诊断'能力标志着晶圆级芯片技术迈向成熟,未来或引发微软、谷歌等厂商跟进。

    硬件可靠性方面,特斯拉通过与谷歌Meta的公开数据比对,证实其故障率已达行业顶尖水平。随着Stress系统开始用于预测芯片老化趋势,晶圆级处理器的商用前景愈发清晰。正如马斯克在财报会议所言:'Dojo不仅是超算,更是特斯拉自动驾驶的大脑再造工程。'这场芯片革命的下一章,或许正在晶圆厂的无尘车间悄然书写。

    ---

    本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。

Related Articles

SemiVoice 是您的半导体新闻聚合器,探索海内外各大网站半导体精选新闻,并实时更新。在这里方便随时了解最新趋势、市场洞察和专家分析。
📧 [email protected]
© 2025