学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • SpatialVLM:教视觉语言模型学会空间推理

    阅读: 2024/1/30 17:15:09

    来自谷歌、麻省理工和斯坦福的研究团队开发了一个自动 3D 空间 VQA 数据生成框架,可在 1000 万张真实世界图像上生成 20 亿个 VQA 示例。SpatialVLM 以首个互联网规模的度量空间 3D 空间推理数据集为特色。通过在此类数据上训练 VLM,大大提高了 VLM 在定性和定量空间 VQA 方面的能力。

    论文链接:

    https://arxiv.org/abs/2401.12168

    转自:“学术头条”微信公众号

    如有侵权,请联系本站删除!


    浏览(150)
    点赞(0)
    收藏(0)
  • 上一篇:OK-Robot:基于开放知识的新型机器人框架

    下一篇:WARM:提高LLM预测的整体质量和对齐

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号