PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型,实现每秒 11.68 个令牌的惊人速度,比其它最先进的框架快 22 倍。即使对于 7B 型号,仅将 FFN 权重的 50% 放置在手机上,PowerInfer-2 仍然保持最先进的速度!
PowerInfer-2 的速度很快:
- 异构计算:将粗粒度的矩阵计算分解为细粒度的“神经元簇”,然后根据不同硬件组件的特性动态调整这些簇的大小。
- I/O 计算管道:神经元缓存和细粒度神经元簇级管道技术旨在最大化神经元加载和计算之间的重叠。
PowerInfer-2 的一个显著优势是其内存使用量显著减少。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下,比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。结果清楚地表明,PowerInfer-2 明显优于其它框架。
PowerInfer-2 的另一个优势是其推理速度的提升。无论是在全内存场景还是卸载场景中,PowerInfer-2 的表现都远远优于其它框架,尤其是在智能手机上。
对于 7B LLM,PowerInfer-2 的技术可以节省近 40% 的内存使用量,同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。
使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。“50% 卸载”表示 FFN 块的 50% 模型权重被卸载到闪存中。“无卸载”表示所有模型参数都驻留在内存中。红色标签 ⨉ 表示由于缺乏权重卸载支持而导致执行失败。