Depth-Anything

Depth-Anything

大规模无标注数据驱动的强大单目深度估计模型

Depth Anything是一款基于大规模数据训练的单目深度估计模型。它利用150万标注图像和6200万无标注图像进行训练,提供小型、中型和大型三种预训练模型。该模型不仅支持相对深度和度量深度估计,还可用于ControlNet深度控制、场景理解和视频深度可视化等任务。在多个基准数据集上,Depth Anything的性能超越了此前最佳的MiDaS模型,展现出优异的鲁棒性和准确性。

Depth Anything深度估计计算机视觉人工智能图像处理Github开源项目
<div align="center"> <h2>深度随心所欲:释放大规模未标注数据的力量</h2>

杨力和<sup>1</sup> · 康冰毅<sup>2†</sup> · 黄子龙<sup>2</sup> · 徐晓刚<sup>3,4</sup> · 冯佳时<sup>2</sup> · 赵恒双<sup>1*</sup>

<sup>1</sup>香港大学    <sup>2</sup>字节跳动    <sup>3</sup>香港中文大学    <sup>4</sup>浙江大学

†项目负责人 *通讯作者

CVPR 2024

<a href="https://arxiv.org/abs/2401.10891"><img src='https://img.shields.io/badge/arXiv-Depth Anything-red' alt='论文PDF'></a> <a href='https://depth-anything.github.io'><img src='https://img.shields.io/badge/项目主页-Depth Anything-green' alt='项目主页'></a> <a href='https://huggingface.co/spaces/LiheYoung/Depth-Anything'><img src='https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue'></a> <a href='https://huggingface.co/papers/2401.10891'><img src='https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-论文-yellow'></a>

</div>

本工作提出了深度随心所欲,一种通过在150万张有标签图像和6200多万张无标签图像上训练而得到的高度实用的单目深度估计鲁棒解决方案。

预览图

<div align="center"> <a href="https://github.com/DepthAnything/Depth-Anything-V2"><b>试用我们最新的深度随心所欲V2模型!</b></a><br> </div>

新闻

深度随心所欲的特性

如果您需要其他功能,请先查看现有社区支持

  • 相对深度估计:

    我们在此处列出的基础模型可以为任何给定图像稳健地提供相对深度估计。详情请参考这里

  • 度量深度估计

    我们使用NYUv2或KITTI的度量深度信息对我们的深度随心所欲模型进行微调。它提供了强大的域内和零样本度量深度估计能力。详情请参考这里

  • 更好的深度条件ControlNet

    我们基于深度随心所欲重新训练了一个更好的深度条件ControlNet。它比之前基于MiDaS的ControlNet提供更精确的合成效果。详情请参考这里。您也可以在ControlNet WebUIComfyUI的ControlNet中使用我们基于深度随心所欲的新ControlNet。

  • 下游高级场景理解

    深度随心所欲编码器可以微调用于下游高级感知任务,例如,在Cityscapes上达到86.2 mIoU,在ADE20K上达到59.4 mIoU的语义分割性能。详情请参考这里

性能

在此我们将我们的深度随心所欲与之前最好的MiDaS v3.1 BEiT<sub>L-512</sub>模型进行比较。

请注意,最新的MiDaS也在KITTI和NYUv2上进行了训练,而我们没有。

方法参数KITTINYUv2SintelDDADETH3DDIODE
AbsRel$\delta_1$AbsRel$\delta_1$AbsRel$\delta_1$AbsRel$\delta_1$AbsRel$\delta_1$AbsRel$\delta_1$
MiDaS345.0M0.1270.8500.0480.9800.5870.6990.2510.7660.1390.8670.0750.942
Ours-S24.8M0.0800.9360.0530.9720.4640.7390.2470.7680.1270.8850.0760.939
Ours-B97.5M0.0800.9390.0460.9790.4320.7560.2320.7860.1260.8840.0690.946
Ours-L335.3M0.0760.9470.0430.9810.4580.7600.2300.7890.1270.8820.0660.952

我们用粗体斜体分别突出显示最佳次佳结果(更好的结果:AbsRel $\downarrow$ ,$\delta_1 \uparrow$)。

预训练模型

我们提供了三个不同规模的模型用于稳健的相对深度估计:

模型参数V100推理时间(毫秒)A100RTX4090 (TensorRT)
Depth-Anything-Small24.8M1283
Depth-Anything-Base97.5M1396
Depth-Anything-Large335.3M201312

注意,V100和A100的推理时间(不使用TensorRT)是在不包括预处理和后处理阶段的情况下计算的,而最后一列RTX4090(使用TensorRT)的计算包括了这两个阶段(请参考Depth-Anything-TensorRT)。

你可以通过以下方式轻松加载我们的预训练模型:

from depth_anything.dpt import DepthAnything encoder = 'vits' # 也可以是 'vitb' 或 'vitl' depth_anything = DepthAnything.from_pretrained('LiheYoung/depth_anything_{:}14'.format(encoder))

Depth Anything 也在 transformers 中得到支持。你可以使用3行代码进行深度预测(感谢@niels)。

没有网络连接,无法加载这些模型?

<details> <summary>点击此处查看解决方案</summary>
from depth_anything.dpt import DepthAnything model_configs = { 'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]}, 'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]}, 'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]} } encoder = 'vitl' # 或 'vitb','vits' depth_anything = DepthAnything(model_configs[encoder]) depth_anything.load_state_dict(torch.load(f'./checkpoints/depth_anything_{encoder}14.pth'))

请注意,使用这种本地加载方式,你也不需要安装 huggingface_hub 包。这样的话,你可以随意删除这一行和这一行中的 PyTorchModelHubMixin

</details>

使用方法

安装

git clone https://github.com/LiheYoung/Depth-Anything cd Depth-Anything pip install -r requirements.txt

运行

python run.py --encoder <vits | vitb | vitl> --img-path <img-directory | single-img | txt-file> --outdir <outdir> [--pred-only] [--grayscale]

参数:

  • --img-path:你可以1)指向存储所有感兴趣图像的图像目录,2)指向单个图像,或3)指向存储所有图像路径的文本文件。
  • --pred-only:设置此参数仅保存预测的深度图。不设置时,默认会并排可视化图像及其深度图。
  • --grayscale:设置此参数保存灰度深度图。不设置时,默认会对深度图应用颜色调色板。 例如:
python run.py --encoder vitl --img-path assets/examples --outdir depth_vis

如果您想在视频上使用Depth Anything:

python run_video.py --encoder vitl --video-path assets/examples_video --outdir video_depth_vis

Gradio演示 <a href='https://github.com/gradio-app/gradio'><img src='https://img.shields.io/github/stars/gradio-app/gradio'></a>

要在本地使用我们的gradio演示:

python app.py

您也可以尝试我们的在线演示

在您的项目中导入Depth Anything

如果您想在自己的项目中使用Depth Anything,您可以简单地参照run.py来加载我们的模型并定义数据预处理。

<details> <summary>代码片段(注意我们的数据预处理与MiDaS的区别)</summary>
from depth_anything.dpt import DepthAnything from depth_anything.util.transform import Resize, NormalizeImage, PrepareForNet import cv2 import torch from torchvision.transforms import Compose encoder = 'vits' # 也可以是 'vitb' 或 'vitl' depth_anything = DepthAnything.from_pretrained('LiheYoung/depth_anything_{:}14'.format(encoder)).eval() transform = Compose([ Resize( width=518, height=518, resize_target=False, keep_aspect_ratio=True, ensure_multiple_of=14, resize_method='lower_bound', image_interpolation_method=cv2.INTER_CUBIC, ), NormalizeImage(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), PrepareForNet(), ]) image = cv2.cvtColor(cv2.imread('your image path'), cv2.COLOR_BGR2RGB) / 255.0 image = transform({'image': image})['image'] image = torch.from_numpy(image).unsqueeze(0) # 深度图形状: 1xHxW depth = depth_anything(image)
</details>

不想定义图像预处理或下载模型定义文件?

通过transformers仅用3行代码轻松使用Depth Anything! 请参考这些说明 (感谢@niels)。

注意: 如果遇到KeyError: 'depth_anything',请从源代码安装最新的transformers:

pip install git+https://github.com/huggingface/transformers.git
<details> <summary>点击这里查看简短演示:</summary>
from transformers import pipeline from PIL import Image image = Image.open('Your-image-path') pipe = pipeline(task="depth-estimation", model="LiheYoung/depth-anything-small-hf") depth = pipe(image)["depth"]
</details>

社区支持

我们衷心感谢社区基于我们的Depth Anything构建的所有扩展。非常感谢你们!

以下是我们发现的扩展列表:

如果您有支持或改进(例如,速度)Depth Anything的精彩项目,请随时提出issue。我们会将它们添加到这里。

致谢

我们要向AK(@_akhaliq)和优秀的HuggingFace团队(@niels@hysts@yuvraj)表示最深切的感谢,感谢他们帮助改进在线演示并构建HF模型。

此外,我们感谢MagicEdit团队提供一些视频深度估计的示例,以及Tiancheng Shen使用MagicEdit评估深度图。

引用

如果您觉得这个项目有用,请考虑引用:

@inproceedings{depthanything, title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data}, author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang}, booktitle={CVPR}, year={2024} }

编辑推荐精选

潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

下拉加载更多