上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系“司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。
司南OpenCompass2.0评测体系官网:https://opencompass.org.cn/
GitHub主页:https://github.com/open-compass/OpenCompass/
据介绍,“司南”全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,评测榜单涉及的大语言模型和多模态大模型超过150个,客观中立地为大模型技术的创新提供坚实的技术支撑。截至目前,已有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“司南”助力开展技术研发。
OpenCompass2.0 对过去一年来主流开源模型和商业API模型进行了全面评测,分析结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,与此同时,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。
完整榜单:https://rank.opencompass.org.cn/home