Llamafile 0.8与LLaMA3&Grok支持,更快的F16性能

2024年 4月 26日 58.6k 0

在人工智能时代,Llamafile是Mozilla的Ocho团队的一个非常有趣的项目。Llamafile使运行和分发独立于单个文件中的大型语言模型(LLM)变得容易。Llamafile建立在Llama.cpp的基础上,可以轻松地将整个LLM作为一个单独的文件,同时支持CPU和GPU执行。Llamafile 0.8现在将加入LLaMA3的乐趣,并提供其他模型支持和增强CPU性能。

Llamafile 0.8是一个激动人心的版本,添加了对LLaMA3、Grok和Mixtral 8x22b的支持。

Mixtral和Grok等混合专家(MoE)模型在重构tinyBLAS CPU代码后,在CPU上执行的速度现在也快了2~5倍。复盆子Pi 5的F16性能也快了20%左右,英特尔Skylake的F16速度快了30%左右,苹果M2的F16成绩快了60%左右。

Llamafile 0.8还带来了改进的CPU功能检测和其他增强功能:

-现在可以支持LLaMA3

-已引入对Grok的支持

-已引入对Mixtral 8x22b的支持

-已引入对Command-R型号的支持

-MoE型号(例如Mixtral、Grok)现在在CPU上的速度提高了2-5倍

-F16现在在树莓派5上的速度快了20%(TinyLLaMA 1.1b提示评估提高了62->75 tok/sec)

-F16现在在Skylake上快了30%(TinyLLaMA 1.1b即时评估提高了171->219 tok/sec)

-F16现在在Apple M2上的速度快了60%(Mistral 7b提示评估提高了79->128 tok/sec)

-添加在创建llamafile时覆盖web gui中聊天模板的功能

-改进服务器中的标记和语法高亮显示

-CPU特征检测得到改进

Llamafile 0.8 downloads via GitHub. I'll be working on new Llamafile benchmarks soon.

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论