Depth-Anything

<div align="center"> <h2>深度随心所欲：释放大规模未标注数据的力量</h2>

杨力和<sup>1</sup> · 康冰毅<sup>2†</sup> · 黄子龙<sup>2</sup> · 徐晓刚<sup>3,4</sup> · 冯佳时<sup>2</sup> · 赵恒双<sup>1*</sup>

<sup>1</sup>香港大学 <sup>2</sup>字节跳动 <sup>3</sup>香港中文大学 <sup>4</sup>浙江大学

†项目负责人 *通讯作者

CVPR 2024

</div>

本工作提出了深度随心所欲，一种通过在150万张有标签图像和6200多万张无标签图像上训练而得到的高度实用的单目深度估计鲁棒解决方案。

预览图

<div align="center"> <a href="https://github.com/DepthAnything/Depth-Anything-V2"><b>试用我们最新的深度随心所欲V2模型！</b></a><br> </div>

新闻

2024-06-14: 深度随心所欲V2发布。
2024-02-27: 深度随心所欲被CVPR 2024接收。
2024-02-05: 深度随心所欲画廊发布。感谢所有用户！
2024-02-02: 深度随心所欲成为InstantID和InvokeAI的默认深度处理器。
2024-01-25: 支持视频深度可视化。视频在线演示也已上线。
2024-01-23: 基于深度随心所欲的新ControlNet已集成到ControlNet WebUI和ComfyUI的ControlNet中。
2024-01-23: 深度随心所欲的ONNX和TensorRT版本已支持。
2024-01-22: 论文、项目主页、代码、模型和演示（HuggingFace、OpenXLab）已发布。

深度随心所欲的特性

如果您需要其他功能，请先查看现有社区支持。

相对深度估计:

我们在此处列出的基础模型可以为任何给定图像稳健地提供相对深度估计。详情请参考这里。
度量深度估计

我们使用NYUv2或KITTI的度量深度信息对我们的深度随心所欲模型进行微调。它提供了强大的域内和零样本度量深度估计能力。详情请参考这里。
更好的深度条件ControlNet

我们基于深度随心所欲重新训练了一个更好的深度条件ControlNet。它比之前基于MiDaS的ControlNet提供更精确的合成效果。详情请参考这里。您也可以在ControlNet WebUI或ComfyUI的ControlNet中使用我们基于深度随心所欲的新ControlNet。
下游高级场景理解

深度随心所欲编码器可以微调用于下游高级感知任务，例如，在Cityscapes上达到86.2 mIoU，在ADE20K上达到59.4 mIoU的语义分割性能。详情请参考这里。

性能

在此我们将我们的深度随心所欲与之前最好的MiDaS v3.1 BEiT<sub>L-512</sub>模型进行比较。

请注意，最新的MiDaS也在KITTI和NYUv2上进行了训练，而我们没有。

方法	参数	KITTI		NYUv2		Sintel		DDAD		ETH3D		DIODE
		AbsRel	$\delta_1$	AbsRel	$\delta_1$	AbsRel	$\delta_1$	AbsRel	$\delta_1$	AbsRel	$\delta_1$	AbsRel	$\delta_1$
MiDaS	345.0M	0.127	0.850	0.048	0.980	0.587	0.699	0.251	0.766	0.139	0.867	0.075	0.942
Ours-S	24.8M	0.080	0.936	0.053	0.972	0.464	0.739	0.247	0.768	0.127	0.885	0.076	0.939
Ours-B	97.5M	0.080	0.939	0.046	0.979	0.432	0.756	0.232	0.786	0.126	0.884	0.069	0.946
Ours-L	335.3M	0.076	0.947	0.043	0.981	0.458	0.760	0.230	0.789	0.127	0.882	0.066	0.952

我们用粗体和斜体分别突出显示最佳和次佳结果（更好的结果：AbsRel $\downarrow$ ，$\delta_1 \uparrow$）。

预训练模型

我们提供了三个不同规模的模型用于稳健的相对深度估计：

模型	参数	V100推理时间（毫秒）	A100	RTX4090 (TensorRT)
Depth-Anything-Small	24.8M	12	8	3
Depth-Anything-Base	97.5M	13	9	6
Depth-Anything-Large	335.3M	20	13	12

注意，V100和A100的推理时间（不使用TensorRT）是在不包括预处理和后处理阶段的情况下计算的，而最后一列RTX4090（使用TensorRT）的计算包括了这两个阶段（请参考Depth-Anything-TensorRT）。

你可以通过以下方式轻松加载我们的预训练模型：

from depth_anything.dpt import DepthAnything

encoder = 'vits' # 也可以是 'vitb' 或 'vitl'
depth_anything = DepthAnything.from_pretrained('LiheYoung/depth_anything_{:}14'.format(encoder))

Depth Anything 也在 transformers 中得到支持。你可以使用3行代码进行深度预测（感谢@niels）。

没有网络连接，无法加载这些模型？

<details> <summary>点击此处查看解决方案</summary>

首先，手动下载三个检查点：depth-anything-large，depth-anything-base和depth-anything-small。
其次，将包含检查点的文件夹上传到你的远程服务器。
最后，本地加载模型：

from depth_anything.dpt import DepthAnything

model_configs = {
    'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]},
    'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]},
    'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]}
}

encoder = 'vitl' # 或 'vitb'，'vits'
depth_anything = DepthAnything(model_configs[encoder])
depth_anything.load_state_dict(torch.load(f'./checkpoints/depth_anything_{encoder}14.pth'))

请注意，使用这种本地加载方式，你也不需要安装 huggingface_hub 包。这样的话，你可以随意删除这一行和这一行中的 PyTorchModelHubMixin。

</details>

使用方法

安装

git clone https://github.com/LiheYoung/Depth-Anything
cd Depth-Anything
pip install -r requirements.txt

运行

python run.py --encoder <vits | vitb | vitl> --img-path <img-directory | single-img | txt-file> --outdir <outdir> [--pred-only] [--grayscale]

参数：

--img-path：你可以1）指向存储所有感兴趣图像的图像目录，2）指向单个图像，或3）指向存储所有图像路径的文本文件。
--pred-only：设置此参数仅保存预测的深度图。不设置时，默认会并排可视化图像及其深度图。
--grayscale：设置此参数保存灰度深度图。不设置时，默认会对深度图应用颜色调色板。例如:

python run.py --encoder vitl --img-path assets/examples --outdir depth_vis

如果您想在视频上使用Depth Anything:

python run_video.py --encoder vitl --video-path assets/examples_video --outdir video_depth_vis

Gradio演示 <a href='https://github.com/gradio-app/gradio'><img src='https://img.shields.io/github/stars/gradio-app/gradio'></a>

要在本地使用我们的gradio演示:

python app.py

您也可以尝试我们的在线演示。

在您的项目中导入Depth Anything

如果您想在自己的项目中使用Depth Anything，您可以简单地参照run.py来加载我们的模型并定义数据预处理。

<details> <summary>代码片段(注意我们的数据预处理与MiDaS的区别)</summary>

from depth_anything.dpt import DepthAnything
from depth_anything.util.transform import Resize, NormalizeImage, PrepareForNet

import cv2
import torch
from torchvision.transforms import Compose

encoder = 'vits' # 也可以是 'vitb' 或 'vitl'
depth_anything = DepthAnything.from_pretrained('LiheYoung/depth_anything_{:}14'.format(encoder)).eval()

transform = Compose([
    Resize(
        width=518,
        height=518,
        resize_target=False,
        keep_aspect_ratio=True,
        ensure_multiple_of=14,
        resize_method='lower_bound',
        image_interpolation_method=cv2.INTER_CUBIC,
    ),
    NormalizeImage(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    PrepareForNet(),
])

image = cv2.cvtColor(cv2.imread('your image path'), cv2.COLOR_BGR2RGB) / 255.0
image = transform({'image': image})['image']
image = torch.from_numpy(image).unsqueeze(0)

# 深度图形状: 1xHxW
depth = depth_anything(image)

</details>

不想定义图像预处理或下载模型定义文件?

通过transformers仅用3行代码轻松使用Depth Anything! 请参考这些说明 (感谢@niels)。

注意: 如果遇到KeyError: 'depth_anything'，请从源代码安装最新的transformers:

pip install git+https://github.com/huggingface/transformers.git

<details> <summary>点击这里查看简短演示:</summary>

from transformers import pipeline
from PIL import Image

image = Image.open('Your-image-path')
pipe = pipeline(task="depth-estimation", model="LiheYoung/depth-anything-small-hf")
depth = pipe(image)["depth"]

</details>

社区支持

我们衷心感谢社区基于我们的Depth Anything构建的所有扩展。非常感谢你们！

以下是我们发现的扩展列表:

Depth Anything TensorRT:
Depth Anything ONNX: https://github.com/fabio-sim/Depth-Anything-ONNX
Transformers.js中的Depth Anything (3D可视化): https://huggingface.co/spaces/Xenova/depth-anything-web
用于视频的Depth Anything (在线演示): https://huggingface.co/spaces/JohanDL/Depth-Anything-Video
ControlNet WebUI中的Depth Anything: https://github.com/Mikubill/sd-webui-controlnet
ComfyUI的ControlNet中的Depth Anything: https://github.com/Fannovel16/comfyui_controlnet_aux
X-AnyLabeling中的Depth Anything: https://github.com/CVHub520/X-AnyLabeling
OpenXLab中的Depth Anything: https://openxlab.org.cn/apps/detail/yyfan/depth_anything
OpenVINO中的Depth Anything: https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/280-depth-anything
Depth Anything ROS:
- https://github.com/scepter914/DepthAnything-ROS
- https://github.com/polatztrk/depth_anything_ros
Depth Anything Android:
- https://github.com/FeiGeChuanShu/ncnn-android-depth_anything
- https://github.com/shubham0204/Depth-Anything-Android
TouchDesigner中的Depth Anything: https://github.com/olegchomp/TDDepthAnything
LearnOpenCV关于Depth Anything的研究文章: https://learnopencv.com/depth-anything
了解更多我们使用的DPT架构: https://github.com/heyoeyo/muggled_dpt
NVIDIA Jetson Orin中的Depth Anything: https://github.com/ZhuYaoHui1998/jetson-examples/blob/main/reComputer/scripts/depth-anything

如果您有支持或改进(例如，速度)Depth Anything的精彩项目，请随时提出issue。我们会将它们添加到这里。

致谢

我们要向AK(@_akhaliq)和优秀的HuggingFace团队(@niels、@hysts和@yuvraj)表示最深切的感谢，感谢他们帮助改进在线演示并构建HF模型。

此外，我们感谢MagicEdit团队提供一些视频深度估计的示例，以及Tiancheng Shen使用MagicEdit评估深度图。

引用

如果您觉得这个项目有用，请考虑引用:

@inproceedings{depthanything,
      title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data}, 
      author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},
      booktitle={CVPR},
      year={2024}
}