移动LLM的实用之路：技术之外的实际应用案例
semiwiki
10/16/2024, 01:00 PM UTC
移动LLM不只是技术。实际应用案例才是关键Mobile LLMs Aren’t Just About Technology. Realistic Use Cases Matter
➀ 谷歌正在探索在移动设备上运行大型语言模型（LLM）的可行性；➁ 谷歌在移动设备上优化LLM的技术；➂ 移动设备上LLM实际应用案例的重要性
➀ Arm is exploring the feasibility of running LLMs on mobile devices; ➁ Arm's optimization techniques for LLMs on mobile; ➂ The importance of practical use cases for LLMs in mobile devices
随着Arm在移动平台上运行大型语言模型（LLMs）的讨论，我们开始思考，移动LLM不仅仅是技术的较量，实际应用案例才是决定其成功的关键。
Arm与Meta合作，在设备上或云端运行Llama 3.2，实现了看似无缝的操作。尽管在云端运行并不令人惊讶，但在设备上运行则需要更多的解释。为此，我采访了Arm的机器学习技术副总裁兼高级工程师Ian Bratt，以深入了解其背后的技术。
Arm的演示平台使用了一款中等配置手机的4个CPU核心，并没有添加NPU。Arm对模型进行了大量的优化工作，从Bfloat16权重压缩到4位，并通过他们手工优化的Kleidi库编译操作，在支持矩阵操作的字节码扩展上运行。
当然，这只是基于提示进行推理（重复下一个token的预测），而不是支持训练。它不会像专门的NPU那样快，也不会在设备上运行大型Llama模型，但可以无缝与基于云的部署协作处理此类情况。通过积极的压缩，它将牺牲一些准确性。但这些限制有多重要呢？
在移动AI的大背景下，我们看到人们对AI可能做到的事情抱有无限的期望，追逐从CNN到DNN再到transformer，甚至更前沿的基础模型的创新，以及硬件创新来加速这些模型在云端和移动应用中的运行。然而，LLM在移动设备中的应用仍然在寻找突破口。更大、更快、更好在原则上很棒，但只有当它们有用时才真正重要。也许，是时候从性能转向实用性了，探索在相对低成本的条件下，哪些新功能将吸引增长。
将AI加速器添加到设计中会增加成本、功耗和系统设计的复杂性。Arm坚持使用熟悉的基于CPU的平台来处理相对简单的推理任务（如果需要，可以通过云端的推理来实现）似乎是一个低风险的合理选择，直到我们消费者弄清楚我们觉得吸引人的杀手级应用是什么。
并非所有的边缘设备都是手机，因此边缘NPU仍有机会。例如，机器的预测性维护支持、耳机中的音频个性化、缺乏控制表面的系统的语音控制等。产品创新者将从消费者、工业、办公室、医院应用的实际需求开始，然后需要弄清楚如何将AI应用于这些需求。
---
本文由大语言模型（LLM）生成，旨在为读者提供半导体新闻内容的知识扩展（Beta）。

SemiVoice

移动LLM的实用之路：技术之外的实际应用案例

移动LLM不只是技术。实际应用案例才是关键Mobile LLMs Aren’t Just About Technology. Realistic Use Cases Matter

Related Articles

Related Articles (CSV)