运维首页 > 运维资讯 > Llamafile 0.8与LLaMA3&Grok支持，更快的F16性能

Llamafile 0.8与LLaMA3&Grok支持，更快的F16性能

2024年 4月 26日 73.6k 0

在人工智能时代，Llamafile是Mozilla的Ocho团队的一个非常有趣的项目。Llamafile使运行和分发独立于单个文件中的大型语言模型（LLM）变得容易。Llamafile建立在Llama.cpp的基础上，可以轻松地将整个LLM作为一个单独的文件，同时支持CPU和GPU执行。Llamafile 0.8现在将加入LLaMA3的乐趣，并提供其他模型支持和增强CPU性能。

Llamafile 0.8是一个激动人心的版本，添加了对LLaMA3、Grok和Mixtral 8x22b的支持。

Mixtral和Grok等混合专家（MoE）模型在重构tinyBLAS CPU代码后，在CPU上执行的速度现在也快了2~5倍。复盆子Pi 5的F16性能也快了20%左右，英特尔Skylake的F16速度快了30%左右，苹果M2的F16成绩快了60%左右。

Llamafile 0.8还带来了改进的CPU功能检测和其他增强功能：

-现在可以支持LLaMA3

-已引入对Grok的支持

-已引入对Mixtral 8x22b的支持

-已引入对Command-R型号的支持

-MoE型号（例如Mixtral、Grok）现在在CPU上的速度提高了2-5倍

-F16现在在树莓派5上的速度快了20%（TinyLLaMA 1.1b提示评估提高了62-＞75 tok/sec）

-F16现在在Skylake上快了30%（TinyLLaMA 1.1b即时评估提高了171-＞219 tok/sec）

-F16现在在Apple M2上的速度快了60%（Mistral 7b提示评估提高了79-＞128 tok/sec）

-添加在创建llamafile时覆盖web gui中聊天模板的功能

-改进服务器中的标记和语法高亮显示

-CPU特征检测得到改进

Llamafile 0.8 downloads via GitHub. I'll be working on new Llamafile benchmarks soon.

张二河

CPUllamafile 运维资讯

0 0

RAM升级后Windows 11运行缓慢

Etnaviv NPU优化使其进入Mesa 24.1

塑造我成为 CTO 之路的“秘诀”

“人工智能教母”的公司估值达 10 亿美金

教授吐槽：985 高校成高级蓝翔！研究生基本废了，只为房子、票子……

Windows 蓝屏中断提醒开发者：Rust 比 C/C++ 更好

Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅

上海新增 11 款已完成登记生成式 AI 服务

发布评论取消回复

要发表评论，您必须先登录。

张二河

这个人很懒，什么都没有留下～

文章8551 评论0