零一万物开源 Yi9B，代码数学综合能力全面增强

运维资讯 2024-03-08 泡泡手机阅读

零一万物宣布开源 Yi-9B 模型，并声称该模型是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳；不偏科，中文能力也很强。“这是继今年1月23日开源多模态模型 Yi-VL-34B 之后，零一万物在开源方向上的又一重要成果。 ”

根据介绍，Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型，它的基本信息如下：

参数大小：Yi-9B 的实际参数为 8.8B。
上下文长度：与 Yi 系列其他模型一样，默认上下文长度是 4K tokens。
训练数据：
- 数据量：Yi-9B 是在 Yi-6B （使用了 3.1T tokens 训练）的基础上，使用了 0.8T tokens 进行继续训练。
- 数据时间：使用截止至 2023 年 6 月的数据。

模型优势

一直以来，Yi 系列模型的中英文能力很强，但在代码和数学方面还有提升空间。Yi-9B 补足了这一短板，增强了 Yi 系列模型全方位的能力。

代码和数学能力出色，综合实力强劲

在综合能力方面（Mean-All），Yi-9B 的性能在尺寸相近的开源模型中最好，超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。

在代码能力方面（Mean-Code），Yi-9B 的性能仅次于 DeepSeek-Coder-7B，超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

在数学能力方面（Mean-Math），Yi-9B 的性能仅次于 DeepSeek-Math-7B，超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

在常识和推理能力方面（Mean-Text），Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。

在语言能力方面，相比于其他相近尺寸的模型，Yi-9B 不仅具备不错的英文能力，还拥有 Yi 系列模型广受好评的强大中文能力。

消费级显卡可用，使用成本友好

Yi-9B（BF 16）和其量化版 Yi-9B（Int8）都能在消费级显卡上轻松部署，使用成本较低，开发者友好。

未来展望

为了最大程度地提高模型性能，团队计划根据 scaling laws 动态调整算力资源在模型大小和数据大小上的分配，因此，团队将继续研究以下方向：

更优化的宽度扩增方法，尽量保留原模型的性能。
更高效的分阶段训练和调参方式，尽量让模型收敛得更好。

有关模型训练方面等方面的更多详情可查看官方公告。

相关推荐

运维资讯 2023-12-30 泡泡

运维资讯 2023-11-25 泡泡

运维资讯 2024-01-06 泡泡

运维资讯 2024-06-19 泡泡

运维资讯 2024-01-04 泡泡

回到顶部