专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS

2024年 6月 13日 55.7k 0

PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型,实现每秒 11.68 个令牌的惊人速度,比其它最先进的框架快 22 倍。即使对于 7B 型号,仅将 FFN 权重的 50% 放置在手机上,PowerInfer-2 仍然保持最先进的速度!

专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS-1
PowerInfer-2 的速度很快:

  • 异构计算:将粗粒度的矩阵计算分解为细粒度的“神经元簇”,然后根据不同硬件组件的特性动态调整这些簇的大小。
  • I/O 计算管道:神经元缓存和细粒度神经元簇级管道技术旨在最大化神经元加载和计算之间的重叠。

PowerInfer-2 的一个显著优势是其内存使用量显著减少。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下,比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。结果清楚地表明,PowerInfer-2 明显优于其它框架。

专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS-2

PowerInfer-2 的另一个优势是其推理速度的提升。无论是在全内存场景还是卸载场景中,PowerInfer-2 的表现都远远优于其它框架,尤其是在智能手机上。

对于 7B LLM,PowerInfer-2 的技术可以节省近 40% 的内存使用量,同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。

专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS-3

使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。“50% 卸载”表示 FFN 块的 50% 模型权重被卸载到闪存中。“无卸载”表示所有模型参数都驻留在内存中。红色标签 ⨉ 表示由于缺乏权重卸载支持而导致执行失败。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论