Llamafile 0.7带来AVX512支持:AMD Zen 4 10倍更快的提示评估时间

Llamafile 0.7带来AVX512支持:AMD Zen 4 10倍更快的提示评估时间-每日运维
Mozilla Ocho团队将在复活节周日发布Llamafile的新版本。Llamafile是一种从单个文件分发和运行大型语言模型(llm)的方法,使llm更容易被开发人员和最终用户分发和使用。Llamafile是Mozilla最近推出的最有趣的非浏览器项目之一,迄今为止前景光明。

通过利用Llama.cpp, Llamafile使处理大型语言模型变得更加方便和容易部署,并且可以轻松地在单个文件可执行文件中交付整个LLM,该文件可执行文件适用于大多数系统,同时能够利用CPU和GPU执行。

随着Llamafile 0.7今天发布,AVX-512终于得到了支持!那些在支持AVX-512的cpu(如AMD Zen 4)上测试Llama 0.7的人发现,在这种支持下,提示评估时间大约快了10倍。对于那些使用AVX-512并在cpu上使用Llamafile进行大型语言模型的人来说,这是一个非常好的复活节礼物。

我已经运行了几个月的Llamafile基准测试,并期待着尝试Llamafile 0.7,看看它在AVX-512英特尔和AMD处理器上的性能提升。

Llamafile 0.7还带来了BF16 CPU支持,安全修复,各种Windows改进,在F16权重的树莓派5上的提示评估现在快了8倍左右,以及各种其他改进。

Downloads and more information on Llamafile 0.7 via GitHub.