09/30/2024, 06:54 PM UTC
➀ AMD发布了首个面向私人业务部署的小型语言模型AMD-135M;➁ 该模型利用推测性解码来提升AI性能;➂ AMD-Llama-135M和AMD-Llama-135M-code是两个针对特定任务进行优化的版本。➀ AMD unveiled its first small language model, AMD-135M, targeting private business deployments; ➁ The model utilizes speculative decoding to enhance AI performance; ➂ AMD-Llama-135M and AMD-Llama-135M-code are two versions optimized for specific tasks.
在人工智能领域,AMD不仅推出了新的硬件,还在软件方面下注,试图开拓不被Nvidia主导的新市场领域。
因此,AMD揭幕了其首个小型语言模型,AMD-135M,属于Llama家族,旨在针对私人商业部署。虽然不清楚这个新模型是否与公司最近收购的Silo AI有关(因为这笔交易需要由各个当局最终确定和批准,所以可能不是),但这显然是朝着使用AMD硬件进行推理、以预训练模型满足特定客户需求的方向迈出的一步。
AMD的模型之所以运行速度快,是因为它们使用了所谓的推测性解码。推测性解码引入了一个更小的'草稿模型',在单次前向传递中生成多个候选令牌。然后,令牌被传递给更大的、更准确的'目标模型'以验证或修正它们。一方面,这种方法允许同时生成多个令牌,但另一方面,由于数据传输增加,这也带来了能耗。
AMD的新发布分为两个版本:AMD-Llama-135M和AMD-Llama-135M-code,每个版本都通过使用推测性解码技术加速推理性能来优化特定任务,这对于基于小型语言模型的AI服务来说是一个合乎逻辑的做法。在AMD进行的性能测试中,这两个版本都表现出色。
基础模型AMD-Llama-135M从670亿个通用数据令牌从头开始训练,这个过程使用了四个基于8路AMD Instinct MI250的节点(在AMD的术语中,这些只是'四个AMD MI250节点'),耗时六天。
此外,AMD-Llama-135M-code使用额外20亿个专注于编码的令牌进行微调,使用相同的硬件在四天内完成这项任务。
AMD相信进一步的优化可以带来更好的性能。然而,正如公司分享了上一代GPU的基准测试数据,我们只能想象当前代(MI300X)和下一代(MI325X)能做什么。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。