DeepSeek Coder V2 发布,首个击败 GPT-4 Turbo 的开源模型

2024年 6月 19日 69.3k 0

DeepSeek-Coder-V2 已正式上线和开源,沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。

开源模型包含236B和16B两种参数规模:

  • DeepSeek-Coder-V2:总参 236B(即官网和 API 版模型),单机 8*80G 可部署,单机 8*80G 可微调(需要技巧)

  • DeepSeek-Coder-V2-Lite:总参 16B,激活 2.4B,支持 FIM,代码能力接近 DeepSeek-Coder-33B(V1),单卡 40G 可部署,单机 8*80G 可训练。

DeepSeek Coder V2 发布,首个击败 GPT-4 Turbo 的开源模型-1

  • 模型下载:https://huggingface.co/deepseek-ai
  • 代码仓库:https://github.com/deepseek-ai/DeepSeek-Coder-V2
  • 技术报告:https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

DeepSeek Coder V2 发布,首个击败 GPT-4 Turbo 的开源模型-2

在拥有世界前列的代码、数学能力的同时,DeepSeek-Coder-V2 还具有良好的通用性能,在中英通用能力上位列国内第一梯队。

DeepSeek Coder V2 发布,首个击败 GPT-4 Turbo 的开源模型-3

DeepSeek-V2 是在今年 5 月份发布的一个开源 MoE 模型。公告指出,虽然 DeepSeek-Coder-V2 在评测中综合得分更高,但在实际应用中,两个模型各有所长。DeepSeek-V2 是文科生,DeepSeek-Coder-V2 是理科生,精通的技能点不同:

DeepSeek Coder V2 发布,首个击败 GPT-4 Turbo 的开源模型-4

在 API 服务方面,DeepSeek-Coder-V2 API 支持 32K 上下文,价格和 DeepSeek-V2 一致:

DeepSeek Coder V2 发布,首个击败 GPT-4 Turbo 的开源模型-5 

相关阅读:

  • DeepSeek 发布全球最强开源 MoE 模型

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论