ConTextual：评估大型多模态模型中对上下文敏感的富文本视觉推理_学术资讯

ConTextual：评估大型多模态模型中对上下文敏感的富文本视觉推理

阅读： 2024/1/30 17:11:24

来自加州大学洛杉矶分校的研究团队提出了一个评估大型多模态模型（LMMs）执行上下文敏感文本丰富的视觉推理能力（context-sensitive text-rich visual reasoning）指令的新基准—— ConTextual。研究表明，表现最好的 LMM、GPT-4V(ision) 的整体性能仍然落后于人类。
论文链接：
https://arxiv.org/abs/2401.13311
转自：“学术头条”微信公众号
如有侵权，请联系本站删除！

浏览(148)

点赞(0)

收藏(0)
上一篇：WebVoyager：利用大型多模态模型构建端到端网络智能体

下一篇：AgentBoard：多轮LLM智能体分析评估框架