学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    阅读: 2024/1/27 11:07:03

    视频语言(VL)预训练在多个下游任务中取得了显著的改进。然而,目前的VL预训练框架很难扩展到视觉和语言之外的多种模式(N种模式,N>;=3)。因此,我们提出了LanguageBind,将语言作为不同模态之间的绑定,因为语言模态已经得到了很好的探索,并且包含了丰富的语义。具体来说,我们冻结通过VL预训练获得的语言编码器,然后通过对比学习为其他模态训练编码器。结果,所有模态都映射到一个共享的特征空间,实现了多模态语义对齐。 (DOI:arXiv:2310.01852)

    转自:“鲸锐学术”微信公众号

    如有侵权,请联系本站删除!


    浏览(161)
    点赞(0)
    收藏(0)
  • 上一篇:宁夏医科大学:一次性塑料餐具热暴露对人体肠道菌群和代谢物的影响

    下一篇:49所高校共同发起!中国新闻传播学自主知识体系联盟成立

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号