微软宣布推出一个 27 亿参数的语言模型 Phi-2,并声称其性能可与大 25 倍的模型相匹配或优于。“展示了出色的推理和语言理解能力,展示了参数少于 130 亿的基础语言模型中最先进的性能。”
其基准测试结果表明,只需 27 亿个参数,Phi-2 就能在各种综合基准测试中超越 Mistral 和 Llama-2 模型在 7B 和 13B 参数下的性能。与大 25 倍的 Llama-2-70B 模型相比,Phi-2 在多步推理任务(即编码和数学)上实现了更好的性能。
此外,Phi-2 的性能与最近发布的 Google Gemini Nano 2 不相上下,甚至更胜一筹。
且与经过调整的现有开源模型相比,Phi-2 响应中的“毒性”和偏差也要更少。
此前,谷歌发布的 Gemini 演示视频曾展示了其解决复杂物理问题,以及对学生进行纠错的能力。微软研究人员也将 Phi-2 进行了同样的测试,并表示它同样能够正确回答问题,和使用相同的提示纠错。
Phi-2 是微软“小语言模型(SLM)”系列中的最新版本。第一个版本是拥有 13 亿参数的 Phi-1,针对基本的 Python 编码任务进行了微调。9 月,该公司将重点扩展到常识推理和语言理解,推出了一个新的 13 亿参数模型 Phi-1.5,性能可与大 5 倍的模型相媲美。
微软表示,Phi-2 的效率使其成为想要探索增强人工智能安全性、可解释性和语言模型道德发展等领域的研究人员的理想平台。目前,Phi-2 现已通过 Microsoft Azure AI Studio 的模型目录发布。
更多详情可查看官方博客。