学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 《自然》:大语言模型构建的AI医生,比人类医生更出色

    阅读: 2023/8/31 15:23:58

    【导读】

    7月13日,Google和DeepMind的科研人员在《自然》杂志上发表了一项研究,提出了MultiMed QA评估基准,用于评估大语言模型在编码临床知识方面的表现。

    这个评估基准包括专业医疗、研究和消费者查询等六个方面,力图从多方面把AI培养成一名合格的医生。最终,研究人员发现大语言模型构建的AI医学在很多方面都强于人类医生。

    来自Google的Shekoofeh Azizi及其团队建立了一个名为MultiMedQA的测试基准,专门用来评估大语言模型在临床知识方面随机应变的能力。

    这个基准综合了六个现有医疗问答数据集,包括专业医疗、研究和消费者查询等多个方面。

    此外,研究者还添加了一个全新的数据集Health Search QA,光这一个数据集就包含了3173个在线搜索医学问题。接着,研究人员就对大语言模型PaLM以及其变体Flan-PaLM进行了测试,测试的系统MultiMedQA整合了美国医师执照考试问题。

    测试结果令研究人员很满意,在一些数据集中,Flan-PaLM的表现更是一骑绝尘。Flan-PaLM取得的分数比之前最先进的大语言模型还要高17%,在多选题方面表现尤为出色。

    但美中不足的是,Flan-PaLM在回答“消费者医疗问题”方面的水平有待提高。于是研究人员采用了一种“设计指令微调”的方法,Med-PaLM也应运而生。

    调试之后的Med-PaLM在专业领域中的发挥变得更加出色,在试行评估中的结果也更加突出。比如说在长篇回答方面,Flan-PaLM与医生评分的科学共识一致程度仅为61.9%,而Med-PaLM的回答评分高达92.6%,几乎与医生的回答一致(92.9%)。同样地,Flan-PaLM有29.7%的回答被评为可能导致有害结果,而Med-PaLM仅为5.8%,接近医生回答的水平(6.5%)。

    尽管这些结果都在暗示“AI+医疗”未来大有可为,但研究人员还是认为,医疗类的大语言模型需要进一步的评估。

    论文信息:

    标题:Large language models encode clinical knowledge

    出版信息:Nature,12 July 2023 2023

    DOI:10.1038/s41586-023-06291-2

    转自:“科研之友 ScholarMate”微信公众号

    如有侵权,请联系本站删除!


    浏览(209)
    点赞(0)
    收藏(0)
  • 上一篇:老胡观点:科研在左 教研在右——一线教师课题申报的教研问题与科研问题再思考

    下一篇:聂双喜教授团队 Adv. Funct. Mater.:摩擦电探针新成果

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号