字节跳动联合北京大学的研究团队在 arXiv 上发表论文,介绍他们用于训练大语言模型的生产系统 MegaScale。该团队为 MegaScale 搭建了超过 10000 块 GPU(12,288)的单一集群,算力利用率超过 55%。
https://arxiv.org/pdf/2402.15627.pdf
整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。
据介绍,MegaScale 将大语言模型训练扩展到超过 10000 个 GPU,在 12288 个 GPU 上训练 175B LLM 模型时,MegaScale 实现了 55.2% 的模型 FLOP 利用率(MFU),与层内模型并行技术 Megatron-LM 相比,MFU 提高了 1.34 倍。
MegaScale 还包含一套诊断工具,用于监控堆栈深处的系统组件和事件,找出根本原因,并通过有效的技术来实现容错 (fault tolerance) 和缓解滞后问题。