deepseek-每日运维

DeepSeek-V2 登上全球开源大模型榜首

美国时间 2024年7月16日，LMSYS 组织的大模型竞技场（Chatbot Arena）更新结果发布，DeepSeek-V2-0628 超越 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等开源模型，登上全球开源模型榜首。 Chatbot Arena 是全球公认的权威大模型盲测平台，吸引了如 GPT-4、Claude、Llama、Gemini

运维资讯 2024-07-20 共饮一杯

开源日报 | 开源模型击败GPT-4 Turbo；Python考虑更改版本编号；开源大模型食用指南；你喜欢计算机/编程吗？

欢迎阅读 OSCHINA 编辑部出品的开源日报，每天更新一期。 # 2024.6.19 今日要闻彭博社：华为与腾讯接近达成协议，不向微信“抽成” 彭博社今日报道称：华为与腾讯即将达成协议，将免除微信的收入分成 (Revenue Sharing)。 via https://www.bloomberg.com 据知情人士透露，经过为期数月的谈判，双方接近达成协议。华为将同意不对微信中的应用内交易收取

运维资讯 2024-06-19 宇宙之一粟

开源日报 | 开源模型击败GPT-4 Turbo；Python考虑更改版本编号；开源大模型食用指南；你喜欢计算机/编程吗？

DeepSeek Coder V2 发布，首个击败 GPT-4 Turbo 的开源模型

DeepSeek-Coder-V2 已正式上线和开源，沿用 DeepSeek-V2 的模型结构，总参数 236B，激活 21B，在代码、数学的多个榜单上位居全球第二，介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。开源模型包含236B和16B两种参数规模： DeepSeek-Coder-V2：总参 236B（即官网和 API 版模型），单机 8*80G 可部署，单机 8*80G

运维资讯 2024-06-19 捡田螺的小男孩

DeepSeek Coder V2 发布，首个击败 GPT-4 Turbo 的开源模型

DeepSeek 发布全球最强开源 MoE 模型

幻方量化旗下组织深度求索发布了第二代开源 MoE 模型：DeepSeek-V2。据介绍，在目前大模型主流榜单中，DeepSeek-V2均表现出色: 中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral 8x22B

运维资讯 2024-05-08 捡田螺的小男孩

幻方发布全球最强MOE大模型！ DeepSeekV2

1. 介绍今天，我们介绍了DeepSeek-V2，这是一个强大的专家混合（MoE）语言模型，其特点是训练经济且推理高效。它总共包含236B个参数，每个token激活21B个。与DeepSeek 67B相比，DeepSeek-V2实现了更强的性能，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，并将最大生成吞吐量提高了5.76倍。图片图片我们在包含8.1万亿token的多样化和高

开发运维 2024-05-07 法医