专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型,实现每秒 11.68 个令牌的惊人速度,比其它最先进的框架快 22 倍。即使对于 7B 型号,仅将 FFN 权重的 50% 放置在手机上,PowerInfer-2 仍然保持最先进的速度! PowerInfer-2 的速度很快: 异构计算:将粗粒度的矩阵计算分解 运维资讯 2024-06-13 爱可生开源社区