零一万物宣布开源 Yi-9B 模型,并声称该模型是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳;不偏科,中文能力也很强。“这是继今年1月23日开源多模态模型 Yi-VL-34B 之后,零一万物在开源方向上的又一重要成果。 ”
根据介绍,Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,它的基本信息如下:
-
参数大小:Yi-9B 的实际参数为 8.8B。
-
上下文长度:与 Yi 系列其他模型一样,默认上下文长度是 4K tokens。
-
训练数据:
-
数据量:Yi-9B 是在 Yi-6B (使用了 3.1T tokens 训练)的基础上,使用了 0.8T tokens 进行继续训练。
-
数据时间:使用截止至 2023 年 6 月的数据。
-
模型优势
一直以来,Yi 系列模型的中英文能力很强 ,但在代码和数学方面还有提升空间。Yi-9B 补足了这一短板,增强了 Yi 系列模型全方位的能力。
代码和数学能力出色,综合实力强劲
- 在综合能力方面(Mean-All),Yi-9B 的性能在尺寸相近的开源模型中最好,超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。
- 在代码能力方面(Mean-Code),Yi-9B 的性能仅次于 DeepSeek-Coder-7B,超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。
- 在数学能力方面(Mean-Math),Yi-9B 的性能仅次于 DeepSeek-Math-7B,超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。
- 在常识和推理能力方面(Mean-Text),Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。
- 在语言能力方面,相比于其他相近尺寸的模型,Yi-9B 不仅具备不错的英文能力,还拥有 Yi 系列模型广受好评的强大中文能力。
消费级显卡可用,使用成本友好
- Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消费级显卡上轻松部署,使用成本较低,开发者友好。
未来展望
为了最大程度地提高模型性能,团队计划根据 scaling laws 动态调整算力资源在模型大小和数据大小上的分配,因此,团队将继续研究以下方向:
-
更优化的宽度扩增方法,尽量保留原模型的性能。
-
更高效的分阶段训练和调参方式,尽量让模型收敛得更好。
有关模型训练方面等方面的更多详情可查看官方公告。