Falcon 180B vs. Llama 2：谁将赢得开源大模型之战？

运维资讯 2023-09-23 三掌柜手机阅读

导读：今天我们比较两大开源大模型产品，它们的技术参数和能力等。

您好，我是诺马德夫！希望您度过愉快的一天。如果我有幸让您读到了这篇文章，我敢打赌您会像我一样对人工智能的世界和开源的魔力感到兴奋！

您知道，开源社区有一些真正特别的东西——它就是分享、学习与共同成长。今天，我有一些有趣的消息要告诉大家！

您看，在浩瀚的人工智能宇宙中，最近有两颗星星格外耀眼：Falcon 180B和Meta 的Llama 2 。它们最好的部分是什么？是的，它们都高高地、自信地挥舞着开源大旗！

因此，无论您是经验丰富的人工智能专家还是刚刚开始你的技术冒险和探索，这里都是您的理想之地。放松一下，也许泡一杯您最喜欢的饮料，让我们深入了解这些人工智能巨头的世界。让我们一起向前、向上！

Meta 的 Llama

首先，开发者们先拥有的是 Meta 的Llama 2 。它是 Meta 大型语言模型阵容中的第二代超级明星。Llama 2 的超酷之处在于它不仅仅是一个模型，而且它的参数范围从 70亿到高达 700亿！无论你喜欢标准聊天机器人还是代码生成，Llama 2 都能为你提供一些特别的东西。我们可以从 Llama 2 的官方页面深入了解并探索更多有关 Llama 2 的信息：

Llama 2 上的 HuggingFace 文档

https://huggingface.co/docs/transformers/main/model_doc/llama2

Meta 的官方 Llama 2 页面

https://ai.meta.com/llama/

Falcon 180B

接下来我们就来说说这个庞然大物，Falcon 180B。这个模型不仅大，而且有点太巨大了。它有 1800 亿个参数，十分的庞大！Falcon 180B 接受了令人难以置信的 3.5 万亿Token训练，因此它正在人工智能社区掀起波澜。如果您像我一样好奇，肯定会想了解有关此模型的更多信息。

以下是满足大家的知识渴求的官方页面：

Falcon 180B官方网站：

https://falconllm.tii.ae/

Falcon 180B 的 HuggingFace 演示：

https://huggingface.co/spaces/tiiuae/falcon-180b-demo

Falcon 180B 与 Llama 2的比较

型号尺寸和参数

Falcon 180B：该大语言模型具有惊人的 1800 亿个参数，使其成为同类中最大的模型之一。

Meta 的 Llama 2：Llama 2 的设计考虑到了多功能性，提供从 70亿到 700亿参数的配置。

训练数据源

Falcon 180B：它已经在包含 3.5 万亿个Token的广泛数据集上进行了训练。主要来源是RefinedWeb，它进一步补充了精选的语料库以增强其功能。

Llama 2：Llama 2 以 2 万亿Token为基础，也拥有强大的训练数据背景。

可用性和许可条款

Falcon 180B：它既可用于研究目的，也可用于商业应用。但是，用户应遵守Falcon-180B TII 许可证和可使用的相关政策。

Llama 2：Meta 为研究和商业企业提供 Llama 2，但对于大型企业有特别和具体的指导方针。

模型变体和微调

Falcon 180B：虽然它最初是一个原始的、预训练的模型，但它是为适应性而设计的。著名的变体包括 Falcon-180B-Chat 和 Falcon-7B。

Llama 2：Meta 根据超过一百万条人工注释的反馈对 Llama 2 进行了微调。一些杰出的模型包括 Llama Chat 和 Code Llama。

训练基础设施和技术

Falcon 180B：该模型使用 4,096 个 A100 40GB GPU 进行训练，利用 3D 并行策略来优化流程。

Llama 2：其显着特征之一是其处理上下文长度的能力是其前身 Llama 1 的两倍。

支持的自然语言

Falcon 180B：主要支持英语、德语、西班牙语、法语等主要语言，部分支持其他欧洲系语言。

Llama 2：虽然 Meta 没有提供详尽的列表，但鉴于其全球运营，我们可以预期会有比较广泛的语言支持。

安全协议和社区参与

Falcon 180B：重点是确保合规性、数据安全和负责任的使用。

Llama 2：Meta 提供了负责任的使用指南，并积极参与 Llama Chat 的安全评估。他们还通过 Llama Impact Challenge 和 Generative AI Community Forum 等举措促进AI社区互动。

Falcon 180B 与 Llama 2的详细比较

特征	Llama2	Falcon 180B
参数	参数范围从 70亿到 700亿	1800亿个参数
训练数据	使用 2 万亿个Token进行训练	使用来自 RefinedWeb 的 3.5 万亿个Token进行训练，并通过精选语料库进行增强
可用性和许可证	可用于研究和商业用途，但对大型企业有限制	许可证和可接受使用政策可用于研究和商业用途
微调和特殊型号	经过超过 100 万条人工注释训练的微调模型。特殊型号：Llama Chat 和 Code Llama	原始的、预训练的模型。特殊型号：Falcon-180B-Chat、Falcon-7B 和 Falcon-40B
训练详情	上下文长度是 Llama 1 的两倍	使用 3D 并行策略在多达 4,096 个 A100 40GB GPU 上进行训练