【A breakthough in LLM】完全用手机端芯片推理的大模型MLC LLM来了当前头条_金融

今天中午，量子位公众号宣传了LLM领域最新的进展，陈天奇团队的MLC LLM，实现了全球首个能够完全用安卓和苹果手机端芯片推理的大模型，个人用A breakthough in LLM来形容这个技术，完全不过分！

我看了一下开源的Github的日志记录，发现针对适配安卓手机的模型，3天前上传了3Billion参数的模型，2天前上传了7Billion参数的模型，MLC LLM绝对是最新的还未被大范围报道的大模型领域的技术突破。

(资料图片)

下面直接使用一些本人自问自答的方式展开，来给大家介绍这个突破性的技术！

================================================================

1. MLC LLM 是什么？

MLC LLM是一个通用的解决方案，它允许任何语言模型以本机方式部署在一组不同的硬件后端和本机应用程序上，此外，它还为每个人提供了一个高效的框架，以针对自己的用例进一步优化模型性能。一切都在本地运行，无需服务器支持，并通过手机和笔记本电脑上的本地GPU进行加速。

2. 哪些设备上可以运行MLC LLM?

iPhone手机; 安卓; Windows Linux Mac; Web浏览器

3. 重点关注的当然是手机端的推理，硬件要求有哪些？

对手机性能要求较高，一般是6GRAM起步的手机，基本是就是目前各家厂商的旗舰级手机的性能要求，其中安卓手机需要用支持OpenCL的带GPU的高通骁龙8Gen 2 手机（雪球爱者之贻总结）。

具体来说，iPhone手机可以试试这个TestFlight页面（仅限于前9000名用户，网页链接），安装并使用我们为iPhone构建的示例iOS聊天应用程序。Vicuna-7B需要4GB的RAM，RedPajama-3B需要2.2GB才能运行。考虑到iOS和其他正在运行的应用程序，我们需要一款最新的iPhone，Vicuna-7B为6GB，RedPajama-3B为4GB才能运行该应用程序。该应用程序仅在iPhone 14 Pro Max、iPhone 14 Pro和iPhone 12 Pro上进行测试。安卓手机，在此处下载APK文件网页链接并安装在您的手机上。然后，您可以开始与LLM聊天。当你第一次打开应用程序时，需要下载参数，加载过程可能会很慢。在未来的运行中，参数将从缓存中加载（这很快），您可以离线使用该应用程序。我们目前的演示依赖于手机上的OpenCL支持，需要大约6GB的RAM，如果你有一部带有最新Snapdragon芯片的手机，你可以尝试演示。作者在三星Galaxy S23上测试了我们的演示。

4. MLC LLM 使用手机芯片推理的表现如何？

根据量子位公众号的测试，文字创作能力还算不错，

难题代码类问题，还有待加强

5. 团队开发MLC LLM的初心是什么？

近年来，在生成人工智能（AI）和大型语言模型（LLM）方面取得了显著进展，这些领域正变得越来越普遍。得益于开源举措，现在可以使用开源模型开发个人人工智能助理。然而，LLM往往是资源密集型的，并且对计算要求很高。为了创建可扩展的服务，开发人员可能需要依靠强大的集群和昂贵的硬件来运行模型推理。此外，部署LLM还带来了一些挑战，例如不断发展的模型创新、内存限制以及对潜在优化技术的需求。

该项目的目标是在一系列设备上开发、优化和部署用于推理的人工智能模型，不仅包括服务器级硬件，还包括用户的浏览器、笔记本电脑和移动应用程序。

6. MLC LLM的开发过程中克服了哪些关键技术挑战？

为了实现这一点，我们需要解决计算设备和部署环境的多样性问题。一些关键挑战包括：

支持不同型号的CPU、GPU，以及潜在的其他协处理器和加速器。

在用户设备的本地环境上部署，这些设备可能没有现成的python或其他必要的依赖项。

通过仔细规划分配和积极压缩模型参数来解决内存限制。

MLC LLM提供了一个可重复、系统和可定制的工作流程，使开发人员和人工智能系统研究人员能够以注重生产力的Python优先方法实现模型和优化。这种方法能够快速试验新模型、新思想和新的编译器通道，然后将本机部署到所需的目标。此外，我们正在通过拓宽TVM后端来不断扩展LLM加速，以使模型编译更加透明和高效。

7. MLC LLM 团队未来将大模型引入消费类设备的发展方向？

将LLM引入消费类设备的机会非常多。以下是一些可能的未来的可能不完整的列表：

个性化。聪明的语言模型知道很多东西，另一方面，他们不一定知道我们最喜欢的歌曲或写作风格。在一个可能的未来，有些人可能希望有一个个人的人工智能伴侣。这些模型可能不是最聪明的，但它们了解我们自己，可以用来放大我们的日常工作流程。它们还可以与服务器上更强大的模型一起工作，以创造更放大的体验。它们也可以是在开放的强大模型之上构建的适配器形式。然而，要创建这样的个性化人工智能，我们需要将个人数据输入到模型中，理想情况下是在我们自己的消费设备上运行。

专业化和应用程序集成。语言模型可以做很多事情，但也有一些领域，也许我们只需要对其进行一点精简。看到未来的游戏利用这些模型的一些变体来为每一场游戏产生独特的体验也就不足为奇了。专门研究游戏对话框是现有应用程序如何从集成LLM中获益的一个例子。拥有直接在游戏机上运行的专业模型可以创造很多有趣的机会。

离线支持和客户端-服务器混合使用案例。我们并不是一直都能上网。当我们离线、飞行或想去一个不容易上网的地方时，如果能有一些功能较弱但仍然智能的人工智能助手来帮助我们，那就太好了。在另一种情况下，让不同的人工智能组件协同工作，在本地卸载部分计算，并与云上运行的模型协作，也是一件好事。或者使用一种服务，根据我们所处的环境，在两者之间无缝地移动计算。

去中心化。还有一个有趣的未来。虽然每个消费者设备的计算功能可能不如数据中心上的计算功能强大，但当消费者设备连接在一起时，可以做很多功能强大的事情。在去中心化人工智能领域有很多有趣的运动，如果得到正确的工具支持，看看它们能实现什么将是很有趣的。

向消费者硬件部署LLM面临的挑战：

讨论的想法都是（可能的）未来。除了谈论它们，更有趣的是，我们如何才能实现一些可能的未来。具体来说，我们是否可以为开源社区做出贡献，以推动以下目标：

使每个人都能在任何地方本地开发、优化和部署人工智能模型，包括服务器环境和消费设备。

让我们从这里的一个关键元素开始——硬件加速。大型模型需要大量计算，并且有大量的内存需求。重要的是要利用硬件加速来真正将一些大型号带到消费设备上。

8. MLC LLM产业机会有哪些？

本人观点，就是边缘端AI芯片（Soc芯片），是特指专门做端侧深度学习模型推理的芯片，包括GPU, NPU, TPU以及上游IP那些公司，这点与周五涨停的边缘计算$美格智能(SZ002881)$还是有所不同的。

MLC LLM产业机会，应该是$芯原股份(SH688521)$瑞芯微全志科技等这些做端侧深度学习模型推理的芯片的公司，他们拥有最丰富的边缘端深度学习模型推理优化经验及硬件加速方案支持。

此外最正宗的，是在美股的苹果和高通，而且对目前的$高通(QCOM)$是巨大利好。因为安卓端，目前只支持搭载高通骁龙8Gen2芯片的安卓旗舰机。