学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 万维群组
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • CVPR 2023 | 开放词汇目标检测新思路:探索视觉语言模型的组合特性

    阅读: 2023/5/6 9:09:11

    以下文章来源于商汤学术 ,作者吴思泽,金晟

    导读

    在 CVPR 2023 上,南洋理工大学-商汤科技联合研究中心 S-Lab、商汤科技、香港大学及上海人工智能实验室的研究团队合作提出了针对开放词汇目标检测的一个新方法:Aligning Bag of Regions for Open-Vocabulary Object Detection (BARON)。

    有别于在单个图像区域上学习视觉语言模型表征的方法,BARON 提出了 bag of regions 的概念,在一组图像区域(bag of regions)上学习视觉语言模型的表征,充分利用了视觉语言模型对一组语义概念建模能力。实验结果表明,BARON 在 OV-COCO 和 OV-LVIS 上均达到 SOTA 的性能。

    论文名称:Aligning Bag of Regions for Open-Vocabulary Object Detection

    动机和背景

    图1:本文算法的可视化结果,红色框为 novel 类的物体,蓝色框为 base 类的物体

    开放词汇目标检测(Open-Vocabulary Object Detection)旨在检测模型训练中未标注的(novel)新类别的物体。该任务的常见方法是对预训练过的视觉语言模型(Vision Language Models, VLMs)进行蒸馏,使检测器模型学到视觉语言模型的表征,从而可以识别新类别的物体。

    在预训练过程中,视觉语言模型从 “图像文本对”中学习到对一组语义概念(一个句子及其对应的完整图像内容)的表征(图2.a)。

    现有的方法(图2.b)大多让检测器在 “单个” 图像区域上学习视觉语言模型对单个物体的表征。因此,现有的方法对视觉语言模型的蒸馏忽略了视觉语言模型对于多个同时出现的视觉概念(物体)以及它们之间的关系进行表征的能力。

    为了解决这个问题,本文提出了 bag of regions 的概念,在一组图像区域(bag of regions)上对视觉语言模型进行蒸馏(图2.c),更充分地利用视觉语言模型的表征能力。

    图2:(a) 视觉语言模型的预训练;(b)现有方法在“单个”区域上蒸馏(c)本文提出在一组区域上蒸馏

    方法介绍

    什么是 bag of regions?

    中的图像区域,可以类比为句子中的单词。类比 bag of words(词袋),本文将一组区域的集合称为 bag of regions。

    本文将区域特征映射到词向量空间(word embedding space),将区域视作句子中的单词(pseudo words),使其可以作为视觉语言模型中的文本编码器的输入。

    因此,将一组区域的 pseudo words 连起来输入文本编码器,可以使文本编码器像表征 bag of words 一样,表征 bag of regions。

    与此同时,在推理过程中,可以将单个区域的 pseudo words 输入文本编码器得到的特征用于对该区域的分类。

    图3:本文中检测器的推理流程

    构建 bag of regions

    图4:本文中 bag of regions 的构建流程

    在构建 bag of regions 时,需要组合起来的区域内容上有相关性,此外,为了使组合起来的每个区域都能被视觉语言模型中的图像编码器有效地表征,每个区域需要大小相似。

    本文提出在候选区域(通过RPN产生)的邻域采样等大的框,与候选区域组合起来构建 bag of regions(图4)。

    表征 bag of regions

    图5:本文中 bag of regions 的表征

    如图5所示,本文将每个图像区域的 pseudo words 加上位置编码,连接起来输入文本编码器,得到 Student Embedding。将包含 bag of regions 的图像区域裁剪后输入图像编码器,得到 Teacher Embedding。通过对齐 Teacher Embedding 和 Student Embedding,检测器间接学到每个区域对应的 pseudo words。

    对比学习

    图6:本文中的对比学习

    如图6所示,本文采用对比学习的方式对齐 Teacher Embedding 和 Student Embedding,即拉近相对应的 Teacher 和 Student(正样本对)的表征,拉远不对应的Teacher 和 Student(负样本对)的表征。此外,本文使用队列储存 Teacher 和 Student Embeddings,以提供足够数量的负样本对。

    Caption监督

    图7:使用 caption 数据监督

    BARON 也可以使用 caption 数据作监督训练。本文需要将 Teacher Embedding 替换成文本编码器对 caption 文本的表征(图7)。

    实验结果

    BARON 在 OV-COCO(表1)和 OV-LVIS(表2)上均取得了 SOTA 的结果。

    表1:OV-COCO上的结果

    表2. OV-LVIS上的结果

    总结与展望

    本文针对开放词汇目标检测,提出了一种在一组图像区域(bag of regions)上学习视觉语言模型表征的方法,充分利用视觉语言模型对多个语义概念建模的能力。

    本文将区域(视觉概念)视作单词,运用语言模型表征一组区域(视觉概念),我们期待这一思考方式可以启发后续相关的工作。

    转自:“arXiv每日学术速递”微信公众号

    如有侵权,请联系本站删除!


    浏览(263)
    点赞(0)
    收藏(0)
  • 上一篇:CVPR目标检测新框架:不再是YOLO,而是只需要一层特征

    下一篇:ImageNet 不够用? | 谷歌大脑团队教你如何用 Diffusion 合成数据集提升模型精度!

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号