AMD发布首个小型语言模型AMD-135M
tomshardware
09/30/2024, 06:54 PM UTC
AMD发布其首个小型语言模型AMD-135M —— 通过推测性解码增强AI性能AMD unveils its first small language model, AMD-135M — AI performance enhanced by speculative decoding
➀ AMD发布了首个面向私人业务部署的小型语言模型AMD-135M；➁ 该模型利用推测性解码来提升AI性能；➂ AMD-Llama-135M和AMD-Llama-135M-code是两个针对特定任务进行优化的版本。➀ AMD unveiled its first small language model, AMD-135M, targeting private business deployments; ➁ The model utilizes speculative decoding to enhance AI performance; ➂ AMD-Llama-135M and AMD-Llama-135M-code are two versions optimized for specific tasks.
在人工智能领域，AMD不仅推出了新的硬件，还在软件方面下注，试图开拓不被Nvidia主导的新市场领域。
因此，AMD揭幕了其首个小型语言模型，AMD-135M，属于Llama家族，旨在针对私人商业部署。虽然不清楚这个新模型是否与公司最近收购的Silo AI有关（因为这笔交易需要由各个当局最终确定和批准，所以可能不是），但这显然是朝着使用AMD硬件进行推理、以预训练模型满足特定客户需求的方向迈出的一步。
AMD的模型之所以运行速度快，是因为它们使用了所谓的推测性解码。推测性解码引入了一个更小的'草稿模型'，在单次前向传递中生成多个候选令牌。然后，令牌被传递给更大的、更准确的'目标模型'以验证或修正它们。一方面，这种方法允许同时生成多个令牌，但另一方面，由于数据传输增加，这也带来了能耗。
AMD的新发布分为两个版本：AMD-Llama-135M和AMD-Llama-135M-code，每个版本都通过使用推测性解码技术加速推理性能来优化特定任务，这对于基于小型语言模型的AI服务来说是一个合乎逻辑的做法。在AMD进行的性能测试中，这两个版本都表现出色。
基础模型AMD-Llama-135M从670亿个通用数据令牌从头开始训练，这个过程使用了四个基于8路AMD Instinct MI250的节点（在AMD的术语中，这些只是'四个AMD MI250节点'），耗时六天。
此外，AMD-Llama-135M-code使用额外20亿个专注于编码的令牌进行微调，使用相同的硬件在四天内完成这项任务。
AMD相信进一步的优化可以带来更好的性能。然而，正如公司分享了上一代GPU的基准测试数据，我们只能想象当前代（MI300X）和下一代（MI325X）能做什么。
---
本文由大语言模型（LLM）生成，旨在为读者提供半导体新闻内容的知识扩展（Beta）。

SemiVoice

AMD发布首个小型语言模型AMD-135M

AMD发布其首个小型语言模型AMD-135M —— 通过推测性解码增强AI性能AMD unveils its first small language model, AMD-135M — AI performance enhanced by speculative decoding

Related Articles

Related Articles (CSV)