owlv2-base-patch16

owlv2-base-patch16项目介绍

项目背景

owlv2-base-patch16是一个开创性的项目，基于开放世界定位（Open-World Localization）模型OWLv2。这个项目是由Matthias Minderer、Alexey Gritsenko和Neil Houlsby提出的，主要目的是扩展开放词汇（Open-Vocabulary）的物体检测能力。OWLv2是一种零样本（zero-shot）文本条件物体检测模型，可以通过文本查询从图像中检测出特定的物体。

模型细节

OWLv2模型使用CLIP作为多模态骨干网络，通过ViT（视觉Transformer）获取视觉特征，同时通过因果语言模型获取文本特征。为了实现对象检测，OWL-ViT去掉了视觉模型的最后一个token池化层，并在每个Transformer输出token上附加了轻量级的分类和框头。通过将固定的分类层权重替换为从文本模型中获得的类别名称嵌入，实现开放词汇分类。

CLIP的训练是从头开始的，然后与分类和框头一起在标准检测数据集上进行端到端的微调，采用“双向匹配损失”（bipartite matching loss）进行训练。用户可以使用一到多个文本查询对图像进行零样本文本条件物体检测。

模型建立日期

模型在2023年6月发布。

模型类型

该模型采用CLIP作为其骨干网络，使用ViT-B/16 Transformer架构作为图像编码器，并使用遮盖自注意力Transformer作为文本编码器。这些编码器通过对比损失来训练，使得（图像，文本）对的相似性最大化。CLIP骨干网络从头开始训练，然后与框和分类预测头一起针对物体检测目标进行微调。