【硬核突破】SSD竟能替代HBM?Pliops黑科技让AI推理效率飙升8倍!
05/16/2025, 09:46 AM UTC
Pliops推出3D NAND加速器,AI推理性能提升8倍Pliops expands AI's context windows with 3D NAND-based accelerator – can accelerate certain inference workflows by up to eight times
➀ Pliops推出XDP LightningAI加速器与FusIOnX软件,通过SSD存储预计算上下文数据,解决GPU显存瓶颈;
➁ PCIe 5.0加速卡实现接近HBM的速度,减少GPU重复计算,推理吞吐量最高提升8倍;
➂ 支持多GPU配置与跨节点数据共享,在降低AI基础设施成本的同时保持稳定延迟。
➀ Pliops introduces XDP LightningAI accelerator and FusIOnX software to address GPU HBM bottlenecks by storing precomputed context on SSDs;
➁ The PCIe 5.0 card enables near-HBM speeds, reduces redundant GPU calculations, and boosts inference throughput by up to 8x;
➂ Supports multi-GPU setups and persistent context sharing, lowering AI infrastructure costs while maintaining stable latency.
随着大模型上下文窗口的扩展,GPU显存(HBM)已成为制约AI性能的关键瓶颈。当HBM容量不足时,系统不得不反复重新计算被丢弃的数据,导致延迟飙升。Pliops的解决方案犹如一场及时雨——其XDP LightningAI加速卡通过PCIe接口,将预计算的关键值数据存储在高速SSD中,在需要时以接近HBM的速度实时调用。
这款搭载定制XDP ASIC芯片的加速器,配合FusIOnX软件栈,可无缝对接vLLM、NVIDIA Dynamo等主流AI框架。在实测中,vLLM推理吞吐量提升2.5-8倍,且支持多GPU服务器集群部署。更令人惊叹的是,24块PCIe 5.0 SSD虽仅提供336GB/s带宽(远低于H100的3.35TB/s),但通过消除重复计算,反而实现了整体性能的飞跃。
(编者注:这项创新或将重构AI硬件堆栈——用高密度SSD构建「扩展内存层」的思路,为降低大模型部署成本提供了新路径。当行业疯狂堆砌HBM时,Pliops选择用存储技术破局,这或许预示着未来算力基建的多元化趋势。)
据官方透露,该方案可使系统在不增加GPU数量的情况下,支持更长上下文、更高并发量。对于动辄需要数十块H100的超大规模模型而言,这意味着真金白银的成本节约。随着QLC SSD容量突破122TB,存储加速器的想象空间正在被重新定义。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。