SpatialVLM：教视觉语言模型学会空间推理_学术资讯

SpatialVLM：教视觉语言模型学会空间推理

阅读： 2024/1/30 17:15:09

来自谷歌、麻省理工和斯坦福的研究团队开发了一个自动 3D 空间 VQA 数据生成框架，可在 1000 万张真实世界图像上生成 20 亿个 VQA 示例。SpatialVLM 以首个互联网规模的度量空间 3D 空间推理数据集为特色。通过在此类数据上训练 VLM，大大提高了 VLM 在定性和定量空间 VQA 方面的能力。
论文链接：
https://arxiv.org/abs/2401.12168
转自：“学术头条”微信公众号
如有侵权，请联系本站删除！

浏览(150)

点赞(0)

收藏(0)
上一篇：OK-Robot：基于开放知识的新型机器人框架

下一篇：WARM：提高LLM预测的整体质量和对齐