在AI训练和推理领域,英伟达的数据中心GPU凭借HBM显存和CUDA生态稳坐头把交椅。但随着大模型对长文本处理需求的暴增,传统HBM方案显得大材小用。近日,英伟达祭出新杀器——Rubin CPX GPU,用GDDR7显存重构了AI推理的底层逻辑。

为何选择GDDR7?
GDDR7尽管带宽不及HBM3E,但其成本直降50%,功耗减少40%,更无需CoWoS先进封装。这让单卡128GB显存的CPX GPU成为上下文处理阶段的性价比之选。据英伟达透露,采用该方案的Vera Rubin NVL144 CPX整机柜系统,总内存达100TB,可同时处理百万token级别的文档分析。

硬件架构探秘
从流片图看,CPX GPU的16组GPC单元仍保留图形管线设计,但砍掉了NVLink接口。其30 NVFP4 PetaFLOPS算力约为旗舰R100的60%,却专注于Attention加速,配合硬件编解码模块,特别适合视频生成等长上下文场景。这种「推理加速器的加速器」设计,标志着GPU开始向专用化分层演进。

软件生态碾压
通过Dynamo智能调度系统,开发者无需手动划分上下文与生成阶段。系统可自动将计算密集的前期处理分配给CPX集群,后期生成则交给HBM强化的R100。这种异构架构将资本回报率提升30-50倍,Runway、Magic等AI公司已将其用于实时视频生成和百万token代码分析。

评论:在AI军备竞赛中,英伟达再次用架构创新筑起护城河。将推理任务『切块』处理,既巩固了HBM的旗舰地位,又用GDDR7收割中端市场。这种软硬协同的生态打法,恐怕会让对手们再次陷入跟跑困局。