Depth-Anything-V2-Large-hf

Depth-Anything-V2-Large-hf：突破性的单目深度估计模型

项目概述

Depth-Anything-V2-Large-hf是一个强大的单目深度估计（MDE）模型，由Lihe Yang等人开发。这个项目是Depth Anything系列的最新版本，在前代基础上实现了显著的性能提升。该模型通过59.5万张合成标记图像和超过6200万张真实未标记图像的训练，成为目前最先进的深度估计模型之一。

主要特点

细节表现更佳：相比Depth Anything V1，新版本能够捕捉更加精细的深度细节。
鲁棒性提升：在各种复杂场景下表现更加稳定，超越了基于稳定扩散（SD）的模型如Marigold和Geowizard。
高效轻量：处理速度是SD基础模型的10倍，同时模型体积更小。
预训练优势：基于预训练模型进行微调，可以获得令人印象深刻的性能。

技术细节

Depth-Anything-V2-Large-hf采用了DPT（Dense Prediction Transformer）架构，并使用DINOv2作为骨干网络。这种结构设计使得模型能够在相对深度和绝对深度估计任务上都取得了最先进的结果。

应用场景

该模型可以广泛应用于零样本深度估计任务。用户可以直接使用原始模型，或根据特定需求在Hugging Face模型库中寻找其他适合的版本。

使用方法

使用Depth-Anything-V2-Large-hf非常简单。以下是两种主要的使用方式：

使用pipeline：

from transformers import pipeline
from PIL import Image
import requests

pipe = pipeline(task="depth-estimation", model="depth-anything/Depth-Anything-V2-Large-hf")
image = Image.open(requests.get(url, stream=True).raw)
depth = pipe(image)["depth"]

使用模型和处理器类：

from transformers import AutoImageProcessor, AutoModelForDepthEstimation
import torch

image_processor = AutoImageProcessor.from_pretrained("depth-anything/Depth-Anything-V2-Large-hf")
model = AutoModelForDepthEstimation.from_pretrained("depth-anything/Depth-Anything-V2-Large-hf")

# 准备图像并进行深度估计
inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
predicted_depth = outputs.predicted_depth

许可和引用

Depth-Anything-V2-Large-hf采用CC-BY-NC-4.0许可证。如果在研究中使用了该模型，请引用相关论文：

@misc{yang2024depth,
      title={Depth Anything V2}, 
      author={Lihe Yang and Bingyi Kang and Zilong Huang and Zhen Zhao and Xiaogang Xu and Jiashi Feng and Hengshuang Zhao},
      year={2024},
      eprint={2406.09414},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}