智源FlagEval大模型评测榜单11月榜发布

AI行业动态6个月前发布 ainavi
7,132 0

智源研究院发布FlagEval大语言模型评测榜单11月榜,开源了中文语义理解评测基准C-SEM,新增近期模型评测:ChatGLM3-6B、ChatGLM2-12B(闭源)、Yi-34B、Skywork-12B、LingoWhale-8B,这也是FlagEval平台首次发布闭源模型评测结果。其中在基座(Base)模型榜单中,Yi-34B-Base、Yi-34-Base-200K模型超越Aquila2-34B,排名第一,其英文能力突出、优于中文能力;ChatGLM3-6B-Base、ChatGLM2-12B-Base表现亮眼,领先其他同参数量级模型;Skywork-13B-Base、LingoWhale-8B亦有不错表现。在有监督微调(SFT)模型榜单中,ChatGLM2-12B-sft、ChatGLM3-6B-sft均达到了同参数级对话模型的最优水平。此外,智源研究院预告FlagEval 12月榜单将发布“大语言模型鲁棒性评测结果”。

© 版权声明

关注公众号,免费获取chatgpt账号
免费获取chatgpt

相关文章

暂无评论

暂无评论...