韩国互联网巨头 Naver 上周发布了一系列名为 “HyperCLOVA X” 的大语言模型。
该公司声称该模型在亚洲语言的跨语言推理方面比其他模型表现更好,因此可能有助于该地区开发主权型大语言模型。
Naver宣布HyperCLOVA X 在韩语中首次亮相,开放期刊 arXiv 上的一份英文技术报告评测了该模型,该报告声称“我们相信 HyperCLOVA X 凭借其在英语和韩语以外其他语言方面的竞争能力,并可以为各地区提供有用的指导或国家发展自己的主权大语言模型。”
据称,HyperCLOVA X 接受了“由韩语、多语言和代码段组成”的数据预训练。
多语言子集主要是英语,但也包括各种其他主流语言,例如日语、德语和法语。
韩语材料约占预训练数据的三分之一,这表明 Naver 选择提高其母语模型的性能,预训练过程还考虑了韩语的特殊语法。
Naver 声称,这一努力的结果便是“天生精通韩语和英语”的模特。
更好的表现是,这些模型显示出“多语言能力“,使用除训练处理语言之外的语言进行工作的能力。
“我们的分析表明,HyperCLOVA X 不仅能够将其推理能力扩展到其主要目标语言之外,而且在韩语和非目标语言(例如日语与中文)之间的机器翻译方面也达到了最先进的水平,”。
技术报告还指出:
“HyperCLOVA X 令人印象深刻的多语言能力,还包括韩语和英语之间的跨语言转换,其中一种语言的指令调整可以导致另一种语言的指令跟踪功能的出现。”
多语言测试结果,可以让开发者得出更好的结论,HyperCLOVA X“可以转移到预训练数据中代表性不足的亚洲语言”。