大模型评测体系“司南” (OpenCompass2.0) 发布

2024年 2月 3日 60.4k 0

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系“司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。

司南OpenCompass2.0评测体系官网:https://opencompass.org.cn/
GitHub主页:https://github.com/open-compass/OpenCompass/

据介绍,“司南”全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,评测榜单涉及的大语言模型和多模态大模型超过150个,客观中立地为大模型技术的创新提供坚实的技术支撑。截至目前,已有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“司南”助力开展技术研发。

OpenCompass2.0 对过去一年来主流开源模型和商业API模型进行了全面评测,分析结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,与此同时,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

完整榜单:https://rank.opencompass.org.cn/home

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论