面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

6,568 0 1200

HuggingFace 团队最新训练的小尺寸模型 Zephyr-7B，性能超越参数十倍之大的 LLaMA2-70B-Chat。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？在权威基准测试 MT-Bench 上，Zephyr-7B 以 7.09 分的成绩整体超越 LLaMA2-70B-Chat。此外，Zephyr-7B 还在 OpenLLM Leaderboard 的 4 个数据集上取得了 66.1 的平均分。

从 Twitter 中的雷达图可以看出，这个 7B 模型的信息抽取（Extraction）和代码（Coding）能力尤其突出，大幅超越 Mistra-7B-Instruct 和 LLaMA2-70B-Chat。

以一当十，Zephyr-7B 是怎么做到的？

Zephyr-7B 基于面壁智能（ModelBest）联合清华 NLP 实验室最新开源的大规模反馈数据集 UltraFeedback 训练而成。

UltraFeedback是团队探索大模型对齐（Alignment）技术的又一座里程碑，发布不足十天，已经得到开源社区的积极认可。

GitHub地址：https://github.com/OpenBMB/UltraFeedback

HuggingFace链接： https://huggingface.co/datasets/openbmb/UltraFeedback

UltraFeedback 数据集强在哪里？

基于人类反馈的强化学习（RLHF），已被 OpenAI、Anthropic 和 Google DeepMind 等业界领先公司广泛研究并应用。

然而，由于缺乏高质量、公开可用的偏好数据集，开源社区在 RLHF 的研究和实践上仍然处于落后状态。

为了解决这一问题，助力建设繁荣的大模型开源生态。面壁智能团队构建了UltraFeedback，一个大规模、多样化、细粒度的偏好数据集，包括 25万条对话数据以及相应的偏好标注数据。

在非社区标注的偏好数据集中，这一数据规模排在首位。并且，其中每条偏好标注均包含四个方面的细粒度得分与详细的文字说明。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

此外，UltraFeedback 从多个社区开源的指令数据集中收集了约 6 万条指令。基于这些指令，UltraFeedback 从 17 种不同架构、参数量、训练数据的模型中随机选取 4 种不同模型，为每条指令生成4种有区分度的回复，极大地提升了指令和模型的多样性。

目前，团队已经发布 UltraFeedback 的相应论文，想要详细了解 UltraFeedback 技术原理的朋友可前去查看。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

如何应用 UltraFeedback？奖励模型和批评模型

基于 UltraFeedback，团队训练了两个模型来进一步辅助模型评测和模型反馈学习。

一个是奖励模型（Reward Model）——UltraRM，旨在区分同一个问题的不同回答好坏（HuggingFace 地址：https://huggingface.co/openbmb/UltraRM-13b ）。

就像老师为不同学生的答案给出评分，分数高低其实就是收到的奖励大小。高分答案可以指引大家后续的回答方向。同理，UltraRM 是大模型后续进行RLHF的基础，也是衡量反馈数据集质量的重要维度。

UltraRM 由 LLaMA2-13B 初始化，在 UltraFeedback 和三个开源数据集（Anthropic HH-RLHF, Stanford SHP和OpenAI Summarization）组成的混合数据集上进行微调。在四个公共偏好测试集上，UltraRM 显著超过其他开源奖励模型，达到了 SOTA 的性能。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

另一个机制是批评模型（Critique Model）——UltraCM，用于自动生成文本形式的反馈（HuggingFace 地址： https://huggingface.co/openbmb/UltraCM-13b）。

批评重在“评”，就像老师除了给分外，还会进一步作出点评，指出答案好在哪里，不好在哪里。根据更明确的一对一点评，才能针对性地提升回答。

能够给出文本形式评价的 UltraCM 对于可解释的模型评测以及模型反馈学习十分重要。

与 UltraRM 类似，UltraCM 由 LLaMA2-13B 初始化。在 9 个基准数据集上，UltraCM 优于所有开源 baseline，性能接近 ChatGPT。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

对齐技术给大模型戴上“紧箍咒”

“对齐（Alignment）” 是指要求人工智能系统的目标、价值观、利益等与人类的相一致，使其符合设计者的预期，避免产生超出控制的有害后果。

如果人工智能是神通广大的孙悟空，那么对齐技术就是紧箍咒。唐僧只有掌握了紧箍咒，才能确保孙悟空不会胡作非为。

面壁智能（ModelBest）与清华大学 NLP 实验室持续探索深耕大模型对齐（Alignment）技术，除了 UltraFeedback 外，团队此前还开源发布了 UltraChat 和 UltraLM。

UltraChat，高质量的对话数据集，包含了 150 余万条多轮指令数据。调用多个 ChatGPT API 相互对话，从而生成多轮对话数据。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

UltraLM，基于 UltraChat 数据训练的大语言模型，具有丰富的世界知识和超强的指令理解和跟随能力，能对各类问题/指令给出具有丰富信息量的回复。

继 UltraLM-13B-v1.0 登顶斯坦福 AlpacaEval* 开源模型榜单后，团队最新发布了与 UltraRM 联合的 UltraLM-13B-v2.0（best-of-16 采样），在 AlpacaEval 榜单取得了 92.30% 的高分，成为 70B 以下模型最高分。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

由此可见，运用面壁智能相关对齐技术能够“降本增效”地提升模型能力。

不管AI未来会有多么强大，只有被人类驯化才能服务人类。对齐技术是人工智能的好老师，让大模型的训练和生成得以控制。

*AlpacaEval 是斯坦福大学发布的用于自动评估大语言模型的排行榜，包括从测评数据集、模型回答生成，到自动评估的完整评测流程。榜单所采用的 GPT-4 评估与人类标注结果的皮尔逊相关系数达到 94%，评估方式可靠权威。

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

# AI行业动态

文章版权归作者所有，未经允许请勿转载。

关注公众号，免费获取chatgpt账号

李飞飞、吴恩达开年对话：AI 寒冬、2024新突破、智能体、企业AI

ainavi

4,928 2000

百图生科宋乐博士浅谈：AI for Science 的下一步，计算生物学的下一程

ainavi

9,424 1200

OpenAI董事会被踢爆曾与竞争对手Anthropic讨论合并，Altman 去留仍存变数

ainavi

9,216 3600

打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

ainavi

7,588 800

全面超越AutoGPT，面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

ainavi

9,808 2400

基于LLaMA却改张量名，李开复公司大模型开源行为引争议，官方回应来了

ainavi

5,252 2000

暂无评论

暂无评论...