在人工智能时代,Llamafile是Mozilla的Ocho团队的一个非常有趣的项目。Llamafile使运行和分发独立于单个文件中的大型语言模型(LLM)变得容易。Llamafile建立在Llama.cpp的基础上,可以轻松地将整个LLM作为一个单独的文件,同时支持CPU和GPU执行。Llamafile 0.8现在将加入LLaMA3的乐趣,并提供其他模型支持和增强CPU性能。
Llamafile 0.8是一个激动人心的版本,添加了对LLaMA3、Grok和Mixtral 8x22b的支持。
Mixtral和Grok等混合专家(MoE)模型在重构tinyBLAS CPU代码后,在CPU上执行的速度现在也快了2~5倍。复盆子Pi 5的F16性能也快了20%左右,英特尔Skylake的F16速度快了30%左右,苹果M2的F16成绩快了60%左右。
Llamafile 0.8还带来了改进的CPU功能检测和其他增强功能:
-现在可以支持LLaMA3
-已引入对Grok的支持
-已引入对Mixtral 8x22b的支持
-已引入对Command-R型号的支持
-MoE型号(例如Mixtral、Grok)现在在CPU上的速度提高了2-5倍
-F16现在在树莓派5上的速度快了20%(TinyLLaMA 1.1b提示评估提高了62->75 tok/sec)
-F16现在在Skylake上快了30%(TinyLLaMA 1.1b即时评估提高了171->219 tok/sec)
-F16现在在Apple M2上的速度快了60%(Mistral 7b提示评估提高了79->128 tok/sec)
-添加在创建llamafile时覆盖web gui中聊天模板的功能
-改进服务器中的标记和语法高亮显示
-CPU特征检测得到改进
Llamafile 0.8 downloads via GitHub. I'll be working on new Llamafile benchmarks soon.