特斯拉曝Dojo超算核心检测黑科技:百万核芯片如何避免'一核有难,全局瘫痪'?
06/07/2025, 12:26 PM UTC
特斯拉揭秘如何检测百万核心Dojo超算中的缺陷核心——单个错误或毁掉数周AI训练成果Tesla details how it finds punishing defective cores on its million-core Dojo supercomputers — a single error can ruin a weeks-long AI training run
➀ 特斯拉开发了革命性的Stress工具,用于检测其300mm晶圆级Dojo处理器中的缺陷核心,避免因数据静默错误导致数周AI训练成果失效;
➁ 每个Dojo训练单元集成8850个RISC-V核心,采用台积电InFO_SoW封装,Stress系统可实现百万级核心群实时无损检测;
➃ 该方法不仅发现硬件问题,更揭示设计层缺陷,使特斯拉在硬件可靠性比肩谷歌Meta,并推动晶圆级芯片技术普及。
➀ Tesla developed a groundbreaking 'Stress' tool to detect defective cores in its wafer-scale Dojo processors, critical for preventing silent data corruption that could invalidate weeks of AI training;
➁ Each Dojo 'Training Tile' contains 8,850 RISC-V cores and leverages TSMC's InFO_SoW packaging, with Stress enabling real-time monitoring across millions of cores without downtime;
➂ The method not only identifies faulty cores but also exposed rare design flaws, positioning Tesla alongside Google and Meta in hardware reliability while shaping future wafer-scale chip adoption.
在AI军备竞赛白热化的今天,特斯拉的Dojo超算系统凭借其革命性的晶圆级处理器架构震撼业界。每个300mm晶圆打造的Dojo训练单元集成8850个RISC-V核心,但其特殊构造也带来了前所未见的检测难题——单个核心的静默数据错误(SDC)足以让数周训练成果付诸东流。
传统检测手段面对18,000安培电流、15,000瓦功耗的巨无霸芯片束手无策。特斯拉工程师另辟蹊径,开发出Stress检测系统:通过让核心自主交换随机指令集,利用芯片内部高达10TB/s的互联带宽进行分布式自检。更巧妙的是,系统引入寄存器异或运算和多轮次执行策略,使故障检出率提升10倍。如今,这套系统已部署在特斯拉全球Dojo集群中,实现百万级核心的动态监控。
台积电作为Dojo芯片代工厂,其InFO_SoW封装技术功不可没。值得一提的是,Stress系统不仅定位硬件故障,更揭示出罕见的设计层漏洞,促使特斯拉团队在软件层面进行修复。行业分析师指出,这种'在线诊断'能力标志着晶圆级芯片技术迈向成熟,未来或引发微软、谷歌等厂商跟进。
硬件可靠性方面,特斯拉通过与谷歌Meta的公开数据比对,证实其故障率已达行业顶尖水平。随着Stress系统开始用于预测芯片老化趋势,晶圆级处理器的商用前景愈发清晰。正如马斯克在财报会议所言:'Dojo不仅是超算,更是特斯拉自动驾驶的大脑再造工程。'这场芯片革命的下一章,或许正在晶圆厂的无尘车间悄然书写。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。