WARM：提高LLM预测的整体质量和对齐_学术资讯

WARM：提高LLM预测的整体质量和对齐

阅读： 2024/1/30 17:15:36

将基于人类反馈的强化学习（RLHF）和大型语言模型（LLMs）对齐可能会导致奖励破解，LLMs 利用奖励模型（RM）中的失误来获得看似很高的奖励，却没有达到基本目标。为此，来自谷歌公司的研究团队提出了加权平均奖励模型（WARM）。实验表明，WARM 提高了 LLM 预测的整体质量和一致性；例如，使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比，胜率高达 79.4%。
论文链接：
https://arxiv.org/abs/2401.12187
转自：“学术头条”微信公众号
如有侵权，请联系本站删除！

浏览(140)

点赞(0)

收藏(0)
上一篇：SpatialVLM：教视觉语言模型学会空间推理

下一篇：PhotoMaker：一种高效个性化定制人像照片的文生图模型