DeepMind发布提高翻译质量的算法ReST

AI行业动态10个月前发布 ainavi
7,484 0

据机器之心报道,谷歌DeepMind于8月21日发布论文,提出一种使LLM与人类偏好对齐更简单的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人类反馈的强化学习)使用人类反馈改进语言模型,ReST通过生成和使用离线数据进行训练,从而使得LLM与人类偏好保持一致。研究团队表示,虽然ReST可用于所有生成任务,但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验,测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明,ReST可以极大地提高翻译质量。
论文地址:
https://arxiv.org/pdf/2308.08998.pdf

© 版权声明

关注公众号,免费获取chatgpt账号
免费获取chatgpt

相关文章

暂无评论

暂无评论...