Meta 发布新一代开源大模型 Llama 3.1

运维资讯 2024-07-24 三掌柜手机阅读

今天凌晨，Meta 正式发布新一代开源大模型 Llama 3.1 系列，提供 8B、70B 及 405B 参数版本。

Meta 发布新一代开源大模型 Llama 3.1-每日运维

Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。

架构方面，该模型选择标准的仅解码器 transformer 模型架构进行调整，而不是混合专家模型，以最大化训练稳定性。

Meta 发布新一代开源大模型 Llama 3.1-每日运维

此外，Llama 3 采用了迭代的后训练程序，每一轮使用监督微调和直接偏好优化。

Meta 表示，Llama 3.1 系列在推理能力和多语言支持方面进行了改善，其上下文长度被提升至 128K，而模型参数也被提高到了 4050 亿规模，是近年来规模最大的大语言模型之一。该模型在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中足以对标 GPT-4、Claude 3.5 Sonnet 等领先闭源模型。

Meta 发布新一代开源大模型 Llama 3.1-每日运维