Grounding-DINO-1.5-API

<h1 align="center">Grounding DINO 1.5</h2> <div align=center>

IDEA Research最强大的开放世界目标检测模型系列。

该项目提供了使用这些模型的示例，这些模型托管在DeepDataSpace上。

</div> <div align=center>

</div>

✨ 首次应用：如果您对我们的项目感兴趣并希望尝试我们的算法，您需要通过我们的申请API令牌网站申请相应的API令牌进行首次尝试。

📌 申请额外令牌配额：如果您发现我们的项目有帮助并需要更多API令牌配额，可以通过填写此表单申请额外令牌。我们的团队将审核您的请求，并在一两天内为您分配更多令牌。您也可以通过发送电子邮件给我们申请更多令牌。

🔥 Grounding DINO 1.6发布：Grounding DINO 1.6 Pro在零样本迁移基准测试中创造了新的最佳结果：COCO上55.4 AP，LVIS-minival上57.7 AP，LVIS-val上51.1 AP。此外，与1.5 Pro模型相比，它在几个特定检测场景中表现出显著优越的性能，如动物检测、文本检测等。有关1.6版本的更多详细信息，请参阅我们的官方博客。

简介

我们介绍Grounding DINO 1.5，这是由IDEA Research开发的一套先进的开放集目标检测模型，旨在推进开放集目标检测的"边界"。该套件包含两个模型：

Grounding DINO 1.5 Pro：我们最强大的开放集目标检测模型，设计用于在广泛场景中具有更强的泛化能力。
Grounding DINO 1.5 Edge：我们最高效的边缘计算场景模型，针对许多需要边缘部署的应用中要求的更快速度进行了优化。

<p align="left"><em>注：我们使用"edge"有双重含义，既指<b>推进边界</b>，也指<b>在边缘设备上运行</b>。</em></p>

模型框架

Grounding DINO 1.5的整体框架如下图所示：

Grounding DINO 1.5 Pro保留了Grounding DINO的核心架构，采用深度早期融合架构。

性能

与Grounding DINO的并排性能对比

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/e88d3b3a-69b3-4db8-b032-6def30ba0ae0.png" width="100%"> </div> <details close> <summary> <b> Grounding DINO 1.5 Pro与Grounding DINO对比 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/02a689a2-4406-4552-9252-e14a96a5660e.png" width="80%"> </div> </details>

Grounding DINO 1.5和1.6 Pro的零样本迁移结果

<table align="center"> <thead> <tr> <th>模型</th> <th>COCO <br><sup><sup>(AP box)</sup></sup></th> <th>LVIS-minival <br><sup><sup>(AP all)</sup></sup></th> <th>LVIS-minival <br><sup><sup>(AP rare)</sup></sup></th> <th>LVIS-val <br><sup><sup>(AP all)</sup></sup></th> <th>LVIS-val <br><sup><sup>(AP rare)</sup></sup></th> <th>ODinW35 <br><sup><sup>(AP avg)</sup></sup></th> <th>ODinW13 <br><sup><sup>(AP avg)</sup></sup></th> </tr> </thead> <tbody align="center"> <tr> <td>其他最佳<br>开放集模型</td> <td>53.4<br><sup><sup>(OmDet-Turbo)</sup></sup></td> <td>47.6<br><sup><sup>(T-Rex2 visual)</sup></sup></td> <td>45.4<br><sup><sup>(T-Rex2 visual)</sup></sup></td> <td>45.3<br><sup><sup>(T-Rex2 visual)</sup></sup></td> <td>43.8<br><sup><sup>(T-Rex2 visual)</sup></sup></td> <td>30.1<br><sup><sup>(OmDet-Turbo)</sup></sup></td> <td><b>59.8</b><br><sup><sup>(APE-B)</sup></sup></td> </tr> <tr> <td>DetCLIPv3</td> <td> - </td> <td>48.8</td> <td>49.9</td> <td>41.4</td> <td>41.4</td> <td> - </td> <td> - </td> </tr> <tr> <td>Grounding DINO</td> <td>52.5</td> <td>27.4</td> <td>18.1</td> <td> - </td> <td> - </td> <td> 26.1 </td> <td> 56.9 </td> </tr> <tr> <td>T-Rex2 (text)</td> <td>52.2</td> <td>54.9</td> <td>49.2</td> <td> 45.8 </td> <td> 42.7 </td> <td> 22.0 </td> <td> - </td> </tr> <tr> <td>Grounding DINO 1.5 Pro</td> <td>54.3</td> <td>55.7</td> <td>56.1</td> <td>47.6</td> <td>44.6</td> <td><b>30.2</b></td> <td>58.7</td> </tr> <tr> <td><b>Grounding DINO 1.6 Pro</b></td> <td><b>55.4</b></td> <td><b>57.7</b></td> <td><b>57.5</b></td> <td><b>51.1</b></td> <td><b>51.5</b></td> <td>-</td> <td>-</td> </tr> </tbody> </table> - Grounding DINO 1.5 Pro在COCO、LVIS-minival、LVIS-val和ODinW35零样本迁移基准测试中达到了**最先进**的性能。 - Grounding DINO 1.6 Pro显著提升了模型在COCO、LVIS零样本迁移基准测试上的性能，尤其是在LVIS罕见类别方面。

Grounding DINO 1.5作为强大的小样本学习器

我们验证了Grounding DINO 1.5 Pro在ODinW小样本基准测试上的迁移能力，Grounding DINO 1.5 Pro在ODinW小样本设置下取得了新的最先进结果。

<table align="center"> <thead> <tr> <th>模型</th> <th>微调</sup></sup></th> <th>1-样本</th> <th>3-样本</th> <th>5-样本</th> <th>10-样本</th> <th>全部</th> </tr> </thead> <tbody align="center"> <tr> <td>DyHead (COCO)</td> <td> 全部 </td> <td>31.9 ± 1.3</td> <td>44.2 ± 0.3</td> <td>44.7 ± 1.7</td> <td>50.1 ± 1.6</td> <td> 63.2 </td> </tr> <tr> <td>DyHead (O365)</td> <td> 全部 </td> <td>33.8 ± 3.5</td> <td>43.6 ± 1.0</td> <td>46.4 ± 1.1</td> <td>50.8 ± 1.3</td> <td> 60.8 </td> </tr> <tr> <td>GLIP-L</td> <td> 全部 </td> <td>59.9 ± 1.4</td> <td>62.1 ± 0.7</td> <td>64.2 ± 0.3</td> <td>64.9 ± 0.7</td> <td> 68.9 </td> </tr> <tr> <td>GLIPv2-H</td> <td> 全部 </td> <td>61.7 ± 0.5</td> <td>64.1 ± 0.8</td> <td>64.4 ± 0.6</td> <td>65.9 ± 0.3</td> <td> 70.4 </td> </tr> <tr> <td>GLEE-Pro</td> <td> 全部 </td> <td>59.4 ± 1.5</td> <td>61.7 ± 0.5</td> <td>64.3 ± 1.3</td> <td>65.6 ± 0.4</td> <td> 69.0 </td> </tr> <tr> <td>MQ-GLIP-L</td> <td>全部</td> <td><b>62.4</b></td> <td>64.2</td> <td>65.4</td> <td>66.6</td> <td>71.3</td> </tr> <tr> <td>Grounding DINO 1.5 Pro</td> <td>全部</td> <td><b>62.4</b> ± 1.1</td> <td><b>66.3</b> ± 1.0</td> <td><b>66.9</b> ± 0.2</td> <td><b>67.9</b> ± 0.3</td> <td> <b>72.4</b> </td> </tr> </tbody> </table>

"全部"表示微调整个模型。
遵循GLIP，对于每个小样本设置，我们使用不同的随机种子进行训练/验证集分割，训练模型三次。

在下游数据集上的微调结果

<table align="center"> <thead> <tr> <th>模型</th> <th>LVIS-minival <br><sup><sup>(AP 全部)</sup></sup></th> <th>LVIS-minival <br><sup><sup>(AP 稀有)</sup></sup></th> <th>LVIS-val <br><sup><sup>(AP 全部)</sup></sup></th> <th>LVIS-val <br><sup><sup>(AP 稀有)</sup></sup></th> <th>ODinW35 <br><sup><sup>(AP 平均)</sup></sup></th> <th>ODinW13 <br><sup><sup>(AP 平均)</sup></sup></th> </tr> </thead> <tbody align="center"> <tr> <td>GLIP</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td> - </td> <td> 68.9 </td> </tr> <tr> <td>GLEE-Pro</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td> - </td> <td> 69.0 </td> </tr> <tr> <td>GLIPv2</td> <td>59.8</td> <td>-</td> <td>-</td> <td>-</td> <td> - </td> <td> 70.4 </td> </tr> <tr> <td>OWL-ST + FT †</td> <td>54.4</td> <td>46.1</td> <td>49.4</td> <td>44.6</td> <td> - </td> <td> - </td> </tr> <tr> <td>DetCLIPv2</td> <td>58.3</td> <td>60.1</td> <td>53.1</td> <td> 49.0 </td> <td> - </td> <td> 70.4 </td> </tr> <tr> <td>DetCLIPv3</td> <td> 60.5 </td> <td> 60.7 </td> <td> - </td> <td>-</td> <td>-</td> <td> 72.1 </td> </tr> <tr> <td>DetCLIPv3 †</td> <td>60.8</td> <td>56.7</td> <td>54.1</td> <td>45.8</td> <td> - </td> <td> - </td> </tr> <tr> <td>Grounding DINO 1.5 Pro (零样本)</td> <td>55.7</td> <td>56.1</td> <td>47.6</td> <td>44.6</td> <td>30.2</td> <td>58.7</td> </tr> <tr> <td><b>Grounding DINO 1.5 Pro</b></td> <td><b>68.1</b></td> <td><b>68.7</b></td> <td><b>63.5</b></td> <td><b>64.0</b></td> <td><b>70.6</b></td> <td><b>72.4</b></td> </tr> </tbody> </table>

†表示仅使用LVIS基础类别进行微调的结果。

API使用

1. 安装

pip install -v -e .

2. 从DeepDataSpace请求API

参考DeepDataSpace获取API密钥：https://deepdataspace.com/request_api

3. 运行演示代码

python demo/demo.py --token <API_TOKEN>

4. 在线Gradio演示

python gradio_app.py --token <API_TOKEN>

案例分析和定性可视化

<details close> <summary> <b> 常见物体检测 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/87190217-73e4-4c0d-8fd0-926936df8e51.png" width="100%"> </div> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/6cea8340-9bab-4662-ab1e-a24579319f27.png" width="100%"> </div> </details> <p></p> <details close> <summary> <b> 长尾物体检测 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/76a8a502-0822-4a51-8a06-2545a31a2893.png" width="100%"> </div> </details> <p></p> <details close> <summary> <b> 短描述定位 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/77d1d709-864b-4ccf-8bed-b40ac5fed6f5.png" width="100%"> </div> </details> <p></p> <details close> <summary> <b> 长描述定位 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/61d5a6c8-1c91-428b-9266-0daeb76afd08.png" width="100%"> </div> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/d7441b19-f880-459a-9afb-c37d69597da6.png" width="100%"> </div> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/d5d034ff-30a4-4686-917a-0ebb237f5e90.png" width="100%"> </div> </details> <p></p> <details close> <summary> <b> 密集目标检测 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/f273da7a-dba1-4ec4-bd6a-cf60394850f5.png" width="100%"> </div> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/23ae5e0d-6d93-4049-bf8e-9d0b707b871a.png" width="100%"> </div> </details> <p></p> <details close> <summary> <b> 视频目标检测 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/2e9a6004-f535-4984-bd6c-4469e79ab99a.png" width="100%"> </div> </details> <p></p> <details close> <summary> <b> 边缘设备上的高级目标检测 </b> </summary> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/250bd477-03bf-4e0f-8c25-fb13cf789cca.png" width="100%"> </div> </details>

许可证

<details close> <summary> <b> Grounding DINO 1.5 API 许可证 </b> </summary>

Grounding DINO 1.5 根据Apache 2.0许可证发布。请查看LICENSE文件了解更多信息。

根据Apache许可证2.0版（"许可证"）获得许可；除非遵守许可证，否则不得使用这些文件。您可以在http://www.apache.org/licenses/LICENSE-2.0 获取许可证副本。

除非适用法律要求或书面同意，根据许可证分发的软件是基于"按原样"分发的，不附带任何明示或暗示的保证或条件。请参阅许可证以了解许可证下的特定语言和限制。

</details>

BibTeX

如果您发现我们的工作对您的研究有帮助，请考虑引用以下BibTeX条目。

@misc{ren2024grounding,
      title={Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection}, 
      author={Tianhe Ren and Qing Jiang and Shilong Liu and Zhaoyang Zeng and Wenlong Liu and Han Gao and Hongjie Huang and Zhengyu Ma and Xiaoke Jiang and Yihao Chen and Yuda Xiong and Hao Zhang and Feng Li and Peijun Tang and Kent Yu and Lei Zhang},
      year={2024},
      eprint={2405.10300},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@misc{jiang2024trex2,
      title={T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy}, 
      author={Qing Jiang and Feng Li and Zhaoyang Zeng and Tianhe Ren and Shilong Liu and Lei Zhang},
      year={2024},
      eprint={2403.14610},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@article{liu2023grounding,
  title={Grounding dino: Marrying dino with grounded pre-training for open-set object detection},
  author={Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others},
  journal={arXiv preprint arXiv:2303.05499},
  year={2023}
}