Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分

运维资讯 2024-05-10 法医手机阅读

Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分-每日运维作为浏览器公司的创新和实验小组，Mozilla Ocho的一个有趣的创新是Llamafile，这是一种从单个文件分发和运行人工智能大型语言模型（LLM）的简单方法。今晚发布的是Llamafile 0.8.2，它是最新版本，更新了Llama.cpp，最令人兴奋的是一些AVX2性能优化。

Llamafile旨在通过支持单个文件中大型语言模型的精简部署，使用户和开发人员更容易访问AI LLM，该文件既可以与CPU和GPU执行协同工作，也可以跨平台工作。Llamafile已经支持利用AVX/AVX2获得更快的性能，并支持AVX-512获得更高的速度。今天的Llamafile 0.8.2版本提供了额外的AVX2优化。

Llamafile 0.8.2发行说明提到：

“此版本为K量子和IQ4_XS引入了更快的AVX2提示处理。这是@ikawrakow为llamafile做出的贡献，他最初于去年发明了K量子：ggerganov/llama.cpp@99009e7.在之前的版本中，我们推荐使用遗留的Q4_0 quant，因为它是使用最新matmul优化最简单、最直观的方法。由于Iwan Kawrakow的努力，最好的量子（例如Q5_K_M）现在将运行得最快（在现代x86系统上）。"

在过去的几年里，Advanced Vector Extensions 2在英特尔和AMD处理器中得到了广泛支持：自Haswell以来的过去十年中，大多数英特尔CPU或自挖掘机CPU以来的AMD方面。

拉取请求为更快的AVX2提示处理带来了一些令人兴奋的好处。据报道，不同数量的加速在1.4~2.3倍的范围内。

Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分-每日运维