苹果开源面向移动设备打造的小尺寸模型 OpenELM

运维资讯 2024-04-25 大白菜程序猿手机阅读

在 WWDC24 之前，苹果在 Hugging Face 平台上发布了一个「具有开源训练和推理框架的高效语言模型」，名为 OpenELM。

官方介绍称：大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此，我们发布了 OpenELM，一个最先进的开源语言模型。

OpenELM 使用分层缩放策略，可以有效地分配 Transformer 模型每一层的参数，从而提高准确率。例如，在参数量约为 10 亿的情况下，OpenELM 与 OLMo 相比准确率提升了 2.36%，同时所需的预训练 tokens 数量仅有原来的 50%。

OpenELM 有四种尺寸：2.7亿、4.5亿、11亿和30亿个参数。而微软Phi-3模型为38亿，因此前者在小型机型上运行成本更低，可在手机和笔记本电脑等移动设备上运行，是做AI硬件的绝佳小模型。

OpenELM 核心特性如下

论文地址：https://arxiv.org/abs/2404.14619
模型地址：https://huggingface.co/apple/OpenELM

运维资讯 2023-07-21 大白菜程序猿

运维资讯 2024-03-05 大白菜程序猿

运维资讯 2023-12-18 大白菜程序猿

运维资讯 2023-07-20 大白菜程序猿

运维资讯 2024-05-14 大白菜程序猿