学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • WARM:提高LLM预测的整体质量和对齐

    阅读: 2024/1/30 17:15:36

    将基于人类反馈的强化学习(RLHF)和大型语言模型(LLMs)对齐可能会导致奖励破解,LLMs 利用奖励模型(RM)中的失误来获得看似很高的奖励,却没有达到基本目标。为此,来自谷歌公司的研究团队提出了加权平均奖励模型(WARM)。实验表明,WARM 提高了 LLM 预测的整体质量和一致性;例如,使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比,胜率高达 79.4%。

    论文链接:

    https://arxiv.org/abs/2401.12187

    转自:“学术头条”微信公众号

    如有侵权,请联系本站删除!


    浏览(140)
    点赞(0)
    收藏(0)
  • 上一篇:SpatialVLM:教视觉语言模型学会空间推理

    下一篇:PhotoMaker:一种高效个性化定制人像照片的文生图模型

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号