学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 用深度催眠诱导LLM“越狱”,香港浸会大学初探可信大语言模型

    阅读: 2024/1/27 10:50:52

    尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的诱导,从而越过模型内置的安全防护提供一些危险 / 违法内容,即 Jailbreak。深入理解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。不同于以往采用搜索优化或计算成本较高的推断方法来生成可 Jailbreak 的 Prompt,本文受米尔格拉姆实验(Milgram experiment)启发,从心理学视角提出了一种轻量级 Jailbreak 方法:DeepInception,通过深度催眠 LLM 使其成为越狱者,并令其自行规避内置的安全防护。(DOI:arXiv:2311.03191)

    转自:“鲸锐学术”微信公众号

    如有侵权,请联系本站删除!


    浏览(215)
    点赞(0)
    收藏(0)
  • 上一篇:猪油降压,还对肝脏好?新研究:这么吃或对健康更有利

    下一篇:《自然》子刊新发现抗衰老的天然化合物:给细胞“充电”,延长动物寿命

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号