移动LLM的实用之路:技术之外的实际应用案例
10/16/2024, 01:00 PM UTC
移动LLM不只是技术。实际应用案例才是关键Mobile LLMs Aren’t Just About Technology. Realistic Use Cases Matter
➀ 谷歌正在探索在移动设备上运行大型语言模型(LLM)的可行性;➁ 谷歌在移动设备上优化LLM的技术;➂ 移动设备上LLM实际应用案例的重要性➀ Arm is exploring the feasibility of running LLMs on mobile devices; ➁ Arm's optimization techniques for LLMs on mobile; ➂ The importance of practical use cases for LLMs in mobile devices随着Arm在移动平台上运行大型语言模型(LLMs)的讨论,我们开始思考,移动LLM不仅仅是技术的较量,实际应用案例才是决定其成功的关键。
Arm与Meta合作,在设备上或云端运行Llama 3.2,实现了看似无缝的操作。尽管在云端运行并不令人惊讶,但在设备上运行则需要更多的解释。为此,我采访了Arm的机器学习技术副总裁兼高级工程师Ian Bratt,以深入了解其背后的技术。
Arm的演示平台使用了一款中等配置手机的4个CPU核心,并没有添加NPU。Arm对模型进行了大量的优化工作,从Bfloat16权重压缩到4位,并通过他们手工优化的Kleidi库编译操作,在支持矩阵操作的字节码扩展上运行。
当然,这只是基于提示进行推理(重复下一个token的预测),而不是支持训练。它不会像专门的NPU那样快,也不会在设备上运行大型Llama模型,但可以无缝与基于云的部署协作处理此类情况。通过积极的压缩,它将牺牲一些准确性。但这些限制有多重要呢?
在移动AI的大背景下,我们看到人们对AI可能做到的事情抱有无限的期望,追逐从CNN到DNN再到transformer,甚至更前沿的基础模型的创新,以及硬件创新来加速这些模型在云端和移动应用中的运行。然而,LLM在移动设备中的应用仍然在寻找突破口。更大、更快、更好在原则上很棒,但只有当它们有用时才真正重要。也许,是时候从性能转向实用性了,探索在相对低成本的条件下,哪些新功能将吸引增长。
将AI加速器添加到设计中会增加成本、功耗和系统设计的复杂性。Arm坚持使用熟悉的基于CPU的平台来处理相对简单的推理任务(如果需要,可以通过云端的推理来实现)似乎是一个低风险的合理选择,直到我们消费者弄清楚我们觉得吸引人的杀手级应用是什么。
并非所有的边缘设备都是手机,因此边缘NPU仍有机会。例如,机器的预测性维护支持、耳机中的音频个性化、缺乏控制表面的系统的语音控制等。产品创新者将从消费者、工业、办公室、医院应用的实际需求开始,然后需要弄清楚如何将AI应用于这些需求。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。