用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单_学术资讯

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

阅读： 2024/1/27 11:07:03

视频语言（VL）预训练在多个下游任务中取得了显著的改进。然而，目前的VL预训练框架很难扩展到视觉和语言之外的多种模式（N种模式，N>；=3）。因此，我们提出了LanguageBind，将语言作为不同模态之间的绑定，因为语言模态已经得到了很好的探索，并且包含了丰富的语义。具体来说，我们冻结通过VL预训练获得的语言编码器，然后通过对比学习为其他模态训练编码器。结果，所有模态都映射到一个共享的特征空间，实现了多模态语义对齐。（DOI：arXiv:2310.01852）
转自：“鲸锐学术”微信公众号
如有侵权，请联系本站删除！

浏览(161)

点赞(0)

收藏(0)
上一篇：宁夏医科大学：一次性塑料餐具热暴露对人体肠道菌群和代谢物的影响

下一篇：49所高校共同发起！中国新闻传播学自主知识体系联盟成立