Meta 发布新一代开源大模型 Llama 3.1

2024年 7月 24日 44.2k 0

今天凌晨,Meta 正式发布新一代开源大模型 Llama 3.1 系列,提供 8B、70B 及 405B  参数版本。

Meta 发布新一代开源大模型 Llama 3.1-1

Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。

架构方面,该模型选择标准的仅解码器 transformer 模型架构进行调整,而不是混合专家模型,以最大化训练稳定性。

Meta 发布新一代开源大模型 Llama 3.1-2

此外,Llama 3 采用了迭代的后训练程序,每一轮使用监督微调和直接偏好优化。

Meta 表示,Llama 3.1 系列在推理能力和多语言支持方面进行了改善,其上下文长度被提升至 128K,而模型参数也被提高到了 4050 亿规模,是近年来规模最大的大语言模型之一。该模型在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中足以对标 GPT-4、Claude 3.5 Sonnet 等领先闭源模型。

Meta 发布新一代开源大模型 Llama 3.1-3 Meta 发布新一代开源大模型 Llama 3.1-4

Llama 3.1 现已于 Meta 官网和 Hugging Face 开放下载。

Llama 3.1 论文:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
Llama 3.1 官方文档:https://llama.meta.com/docs/overview/

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论