国内最大开源模型发布，650 亿参数无条件免费商用

运维资讯 2023-11-07 醒在深海的猫手机阅读

元象 XVERSE 公司宣布开源 650 亿参数高性能通用大模型 XVERSE-65B，无条件免费商用。

XVERSE-65B 采用了 Transformer 网络结构，模型通过训练了2.6万亿个令牌的高质量多样化数据，包含了40多种语言。具有16K 的上下文长度，适用于多轮对话、知识问答和摘要等任务。

主要特点如下:

模型结构：XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 16K 的上下文长度（Context Length），能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
训练数据：构建了 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
分词：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,534 的分词器，能够同时支持多语言，而无需额外扩展词表。
训练框架：训练中采用 FlashAttention2 加速计算，3D 并行基础上采用虚拟流水线（virtual pipeline）技术，降低较长流水线和 16k 上下文窗口产生的过高气泡率，在千卡集群的峰值算力利用率达到业界前列。同时通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至 98.6%。

评测结果