智源FlagEval大模型评测榜单11月榜发布

AI行业动态8个月前发布 ainavi

8,076 0 3600

智源研究院发布FlagEval大语言模型评测榜单11月榜，开源了中文语义理解评测基准C-SEM，新增近期模型评测：ChatGLM3-6B、ChatGLM2-12B（闭源）、Yi-34B、Skywork-12B、LingoWhale-8B，这也是FlagEval平台首次发布闭源模型评测结果。其中在基座（Base）模型榜单中，Yi-34B-Base、Yi-34-Base-200K模型超越Aquila2-34B，排名第一，其英文能力突出、优于中文能力；ChatGLM3-6B-Base、ChatGLM2-12B-Base表现亮眼，领先其他同参数量级模型；Skywork-13B-Base、LingoWhale-8B亦有不错表现。在有监督微调（SFT）模型榜单中，ChatGLM2-12B-sft、ChatGLM3-6B-sft均达到了同参数级对话模型的最优水平。此外，智源研究院预告FlagEval 12月榜单将发布“大语言模型鲁棒性评测结果”。

# AI行业动态

© 版权声明

文章版权归作者所有，未经允许请勿转载。

关注公众号，免费获取chatgpt账号

免费获取chatgpt

相关文章

毫末龙年春节智驾数据发布：智驾里程994万公里，小魔驼配送近5000单

ainavi

6,280 800

AIGC时代的「数字生命计划」已启动！

ainavi

5,528 3200

哈工大开发深度学习框架，用于从单细胞RNA测序识别细胞相互作用

ainavi

5,840 2000

AI笔电或带动新一波换机潮业界预期最快2024年开始发酵

ainavi

0 2800

西南证券：AI PC将深入变革PC产业

ainavi

7,552 3600

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

ainavi

6,976 1200

暂无评论

暂无评论...

AI中国(aicn.me)致力于收集与AI相关的热门工具，包括但不限于ChatGPT、AI视频、AI办公、AI语音等领域，并为广大AI爱好者提供学习平台，降低获取学习资源的成本。同时，同步分享最新的行业前沿AI工具和网站，旨在帮助AI爱好者不断探索AI技术的发展。

关于我们 AI教程

Copyright © 2024 优智创想智能工具导航粤ICP备2023063465号