GenerateU

<div align="center"> <div class="logo"> <a href=""> <img src="https://yellow-cdn.veclightyear.com/835a84d5/faabe0df-469a-410a-aada-7c9cc53e9b36.png" width="180"> </a> </div> <h1>用于开放式目标检测的生成性区域-语言预训练</h1> <div> <a href='https://clin1223.github.io/' target='_blank'>林创</a>&emsp; <a href='https://enjoyyi.github.io/' target='_blank'>姜毅</a>&emsp; <a href='https://research.monash.edu/en/persons/lizhen-qu' target='_blank'>曲立珍</a>&emsp; <a href='https://shallowyuan.github.io/' target='_blank'>袁泽欢</a>&emsp; <a href='https://jianfei-cai.github.io/' target='_blank'>蔡剑飞</a> </div> <div> 蒙纳士大学 &emsp; 字节跳动有限公司&emsp; </div> <div> <strong>CVPR 2024</strong> </div> <div> <h4 align="center"> <a href="https://arxiv.org/" target='_blank'> <img src="https://yellow-cdn.veclightyear.com/835a84d5/3c0ba85c-c4f2-46a8-8a7a-8c9583e17d90.svg"> </a> <a href="https://clin1223.github.io/" target='_blank'> <img src="https://img.shields.io/badge/🐳-项目主页-blue"> </a> <img src="https://visitor-badge.laobi.icu/badge?page_id=FoundationVision/GenerateU"> </h4> </div>

⭐ 如果GenerateU对您的项目有帮助，请给这个仓库点个星。谢谢！🤗

</div>

亮点

GenerateU被CVPR2024接收。
我们引入了生成式开放式目标检测，这是一个更加通用和实用的设置，其中类别信息没有被明确定义。这种设置对于用户在推理过程中缺乏精确的物体类别知识的场景特别有意义。
尽管GenerateU在推理过程中没有看到类别名称，我们的GenerateU仍然达到了与开放词汇目标检测方法GLIP相当的结果。

结果

零样本域迁移到LVIS

伪标签示例

可视化

👨🏻‍🎨 伪标签示例

伪标签示例

🎨 零样本LVIS

伪标签示例

概览

整体结构

依赖和安装

克隆仓库

git clone https://github.com/clin1223/GenerateU.git

创建Conda环境并安装依赖

# 创建新的anaconda环境
conda create -n GenerateU python=3.8 -y
conda activate GenerateU

# 安装Python依赖
pip3 install -e . --user
pip3 install -r requirements.txt 

# 编译Deformable DETR
cd projects/DDETRS/ddetrs/models/deformable_detr/ops
bash make.sh

CUDA >= 11.3
PyTorch >= 1.10.0
Torchvision >= 0.11.1
其他所需包在requirements.txt中

快速开始

准备预训练模型

从这里下载我们的预训练模型到weights文件夹。对于训练，请按照tools/convert-pretrained-swin-model-to-d2.py中的说明准备Swin-Tiny和Swin-Large的骨干网络权重。目录结构将按以下方式排列：

weights
   |- vg_swinT.pth
   |- vg_swinL.pth
   |- vg_grit5m_swinT.pth
   |- vg_grit5m_swinL.pth
   |- swin_tiny_patch4_window7_224.pkl
   |- swin_large_patch4_window12_384_22k.pkl

数据集准备

VG数据集

从VG官方网站下载图像
下载我们预处理的标注： train_from_objects.json

LVIS数据集

从COCO官方网站下载验证图像
下载与GLIP相同的验证标注： lvis_v1_minival.json
下载LVIS类别文本嵌入用于映射

（可选）GrIT-20M数据集

从GrIT-20M官方网站下载图像
对GrIT图像运行评估以生成伪标签。

数据集结构应如下所示：

|-- datasets
`-- |-- vg
    |-- |-- images/
    |-- |-- train_from_objects.json
 `-- |-- lvis
    |-- |-- val2017/
    |-- |-- lvis_v1_minival.json
    |-- |-- lvis_v1_clip_a+cname_ViT-H.npy

训练

默认情况下，我们使用16个A100 GPU训练GenerateU。您也可以在单个节点上进行训练，但这可能会阻止您复现论文中呈现的结果。

单节点训练

在使用VG进行预训练时，单个节点就足够了。在具有8个GPU的单个节点上，运行

python3 launch.py --nn 1 --uni 1 \
--config-file projects/DDETRS/configs/vg_swinT.yaml OUTPUT_DIR outputs/${EXP_NAME}

多节点训练

# 在节点0上运行
python3 launch.py --nn 2 --port <PORT> --worker_rank 0 --master_address <MASTER_ADDRESS> \
--uni 1 --config-file /path/to/config/name.yaml  OUTPUT_DIR outputs/${EXP_NAME}
# 在节点1上运行
python3 launch.py --nn 2 --port <PORT> --worker_rank 1 --master_address <MASTER_ADDRESS> \
--uni 1 --config-file /path/to/config/name.yaml OUTPUT_DIR outputs/${EXP_NAME}

<MASTER_ADDRESS>应为节点0的IP地址。<PORT>在多个节点之间应相同。如果未指定<PORT>，程序将生成一个随机数作为<PORT>。

评估

要使用训练好的/预训练的模型评估模型，请运行

python3 launch.py --nn 1 --eval-only --uni 1 --config-file /path/to/config/name.yaml  \
OUTPUT_DIR outputs/${EXP_NAME}  MODEL.WEIGHTS /path/to/weight.pth

引用

如果您发现我们的仓库对您的研究有用，请考虑引用我们的论文：

@inproceedings{lin2024generateu,
   title={Generative Region-Language Pretraining for Open-Ended Object Detection},
   author={Chuang, Lin and Yi, Jiang and Lizhen, Qu and Zehuan, Yuan and Jianfei, Cai},
   booktitle={Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
   year={2024}
}