作为浏览器公司的创新和实验小组,Mozilla Ocho的一个有趣的创新是Llamafile,这是一种从单个文件分发和运行人工智能大型语言模型(LLM)的简单方法。今晚发布的是Llamafile 0.8.2,它是最新版本,更新了Llama.cpp,最令人兴奋的是一些AVX2性能优化。
Llamafile旨在通过支持单个文件中大型语言模型的精简部署,使用户和开发人员更容易访问AI LLM,该文件既可以与CPU和GPU执行协同工作,也可以跨平台工作。Llamafile已经支持利用AVX/AVX2获得更快的性能,并支持AVX-512获得更高的速度。今天的Llamafile 0.8.2版本提供了额外的AVX2优化。
Llamafile 0.8.2发行说明提到:
“此版本为K量子和IQ4_XS引入了更快的AVX2提示处理。这是@ikawrakow为llamafile做出的贡献,他最初于去年发明了K量子:ggerganov/llama.cpp@99009e7.在之前的版本中,我们推荐使用遗留的Q4_0 quant,因为它是使用最新matmul优化最简单、最直观的方法。由于Iwan Kawrakow的努力,最好的量子(例如Q5_K_M)现在将运行得最快(在现代x86系统上)。"
在过去的几年里,Advanced Vector Extensions 2在英特尔和AMD处理器中得到了广泛支持:自Haswell以来的过去十年中,大多数英特尔CPU或自挖掘机CPU以来的AMD方面。
拉取请求为更快的AVX2提示处理带来了一些令人兴奋的好处。据报道,不同数量的加速在1.4~2.3倍的范围内。
Justine Tunney积极参与Llamafile的开发,她最初回应了这一请求:
“这是一个显著的变化@ikawrakow。我很高兴看到最好的量化格式现在将运行得最快。对于即时处理,我一直看到x86-64机器上的速度在1.2倍到2.0倍之间。你甚至设法使代币生成更快(我发现这要困难得多),在某些情况下高达1.33倍!”
这些针对提示处理的AVX2优化对于Llamafile 0.8.2来说已经足够令人兴奋了。但这个v0.8.2版本也带来了内存错误修复、文本生成的轻微性能优化、本周针对Llama.cpp代码的更新以及各种新标志。
Downloads and more details on the Llamafile 0.8.2 release via GitHub. New Llamafile benchmarks against the new version soon.