Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分

2024年 5月 10日 86.9k 0

Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分-1作为浏览器公司的创新和实验小组,Mozilla Ocho的一个有趣的创新是Llamafile,这是一种从单个文件分发和运行人工智能大型语言模型(LLM)的简单方法。今晚发布的是Llamafile 0.8.2,它是最新版本,更新了Llama.cpp,最令人兴奋的是一些AVX2性能优化。

Llamafile旨在通过支持单个文件中大型语言模型的精简部署,使用户和开发人员更容易访问AI LLM,该文件既可以与CPU和GPU执行协同工作,也可以跨平台工作。Llamafile已经支持利用AVX/AVX2获得更快的性能,并支持AVX-512获得更高的速度。今天的Llamafile 0.8.2版本提供了额外的AVX2优化。

Llamafile 0.8.2发行说明提到:

“此版本为K量子和IQ4_XS引入了更快的AVX2提示处理。这是@ikawrakow为llamafile做出的贡献,他最初于去年发明了K量子:ggerganov/llama.cpp@99009e7.在之前的版本中,我们推荐使用遗留的Q4_0 quant,因为它是使用最新matmul优化最简单、最直观的方法。由于Iwan Kawrakow的努力,最好的量子(例如Q5_K_M)现在将运行得最快(在现代x86系统上)。"

在过去的几年里,Advanced Vector Extensions 2在英特尔和AMD处理器中得到了广泛支持:自Haswell以来的过去十年中,大多数英特尔CPU或自挖掘机CPU以来的AMD方面。

拉取请求为更快的AVX2提示处理带来了一些令人兴奋的好处。据报道,不同数量的加速在1.4~2.3倍的范围内。

Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分-2

Justine Tunney积极参与Llamafile的开发,她最初回应了这一请求:

“这是一个显著的变化@ikawrakow。我很高兴看到最好的量化格式现在将运行得最快。对于即时处理,我一直看到x86-64机器上的速度在1.2倍到2.0倍之间。你甚至设法使代币生成更快(我发现这要困难得多),在某些情况下高达1.33倍!”

这些针对提示处理的AVX2优化对于Llamafile 0.8.2来说已经足够令人兴奋了。但这个v0.8.2版本也带来了内存错误修复、文本生成的轻微性能优化、本周针对Llama.cpp代码的更新以及各种新标志。

Downloads and more details on the Llamafile 0.8.2 release via GitHub. New Llamafile benchmarks against the new version soon.

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论