除了分数,打出分数背后的理由对于大模型对齐更具价值。
-
论文标题:Reasons to Reject? Aligning Language Models with Judgments -
论文链接:https://arxiv.org/abs/2312.14591 -
Github 链接:https://github.com/wwxu21/CUT
-
优点:训练稳定;实现简单。 -
缺点:收集高质量、多样化的示例数据成本高;无法从错误回复中学习;示例数据往往和模型无关。
-
优点:能同时利用正确回复和错误回复;反馈信号与模型相关。 -
缺点:反馈信号稀疏;训练过程往往比较复杂。
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
![像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍](https://www.aicn.me/wp-content/themes/onenav/images/t.png)
-
步骤 1:收集指令 ,并获得目标大模型的回复
。
-
步骤 2:针对上述指令 – 回复对,标注语言反馈 。
-
步骤 3:采用 CUT,基于收集到的三元组数据 微调目标大模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
![免费获取chatgpt](https://www.aicn.me/wp-content/uploads/2023/04/jiqidanao.png)
相关文章
暂无评论...