浪潮发布基础大模型“源2.0”，千亿参数全面开源

运维资讯 2023-11-28 法医手机阅读

Scan me!

浪潮信息发布“源2.0”基础大模型，并宣布全面开源。

据介绍，源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型，在编程、推理、逻辑等方面展示出了先进的能力。

算法方面，源2.0提出并采用了一种新型的注意力算法结构：局部注意力过滤增强机制(LFA：Localized Filtering-based Attention)。LFA通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确、更人性，提升了模型的自然语言表达能力，进而提升了模型精度。

数据方面，源2.0通过使用中英文书籍、百科、论文等高质量中英文资料，降低了互联网语料内容占比，结合高效的数据清洗流程，为大模型训练提供了高质量的专业数据集和逻辑推理数据集。

据称，为了更高效地获得相对匮乏的高质量中文数学及代码数据集，源2.0采用了基于大模型的数据生产及过滤方法，在保证数据的多样性的同时也在每一个类别上提升数据质量，获取了一批高质量的数学与代码预训练数据。

算力方面，源2.0采用了非均匀流水并行的方法，综合运用流水线并行+优化器参数并行+数据并行的策略，让模型在流水并行各阶段的显存占用量分布更均衡，避免出现显存瓶颈导致的训练效率降低的问题，该方法显著降低了大模型对芯片间P2P带宽的需求，为硬件差异较大训练环境提供了一种高性能的训练方法。

源2.0在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试，下面是测试结果：

源2.0采用全面开源策略，全系列模型参数和代码均可免费下载使用。

代码开源链接：https://github.com/IEIT-Yuan/Yuan-2.0
论文链接：https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2.0_paper.pdf

相关推荐

运维资讯 2023-11-03 法医

运维资讯 2024-05-04 法医

运维资讯 2023-08-12 法医

运维资讯 2023-12-30 法医

运维资讯 2024-03-17 法医

回到顶部