零一万物开源 Yi9B,代码数学综合能力全面增强

2024年 3月 8日 98.7k 0

零一万物宣布开源 Yi-9B 模型,并声称该模型是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳;不偏科,中文能力也很强。“这是继今年1月23日开源多模态模型 Yi-VL-34B 之后,零一万物在开源方向上的又一重要成果。 ”

根据介绍,Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,它的基本信息如下:

  • 参数大小:Yi-9B 的实际参数为 8.8B。

  • 上下文长度:与 Yi 系列其他模型一样,默认上下文长度是 4K tokens。

  • 训练数据:

    • 数据量:Yi-9B 是在 Yi-6B (使用了 3.1T tokens 训练)的基础上,使用了 0.8T tokens 进行继续训练。

    • 数据时间:使用截止至 2023 年 6 月的数据。

模型优势

一直以来,Yi 系列模型的中英文能力很强 ,但在代码和数学方面还有提升空间。Yi-9B 补足了这一短板,增强了 Yi 系列模型全方位的能力。

代码和数学能力出色,综合实力强劲

  • 在综合能力方面(Mean-All),Yi-9B 的性能在尺寸相近的开源模型中最好,超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。

  • 在代码能力方面(Mean-Code),Yi-9B 的性能仅次于 DeepSeek-Coder-7B,超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

  • 在数学能力方面(Mean-Math),Yi-9B 的性能仅次于 DeepSeek-Math-7B,超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。

  • 在常识和推理能力方面(Mean-Text),Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。

  • 在语言能力方面,相比于其他相近尺寸的模型,Yi-9B 不仅具备不错的英文能力,还拥有 Yi 系列模型广受好评的强大中文能力。

消费级显卡可用,使用成本友好

  • Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消费级显卡上轻松部署,使用成本较低,开发者友好。

未来展望 

为了最大程度地提高模型性能,团队计划根据 scaling laws 动态调整算力资源在模型大小和数据大小上的分配,因此,团队将继续研究以下方向:

  • 更优化的宽度扩增方法,尽量保留原模型的性能。

  • 更高效的分阶段训练和调参方式,尽量让模型收敛得更好。

有关模型训练方面等方面的更多详情可查看官方公告。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论