ViT架构的多分辨率3D几何视觉模型用于深度估计
该模型使用ViT-Large编码器和ViT-Base解码器构建,采用DPT结构设计。支持处理512x384至512x160等多种分辨率图像,为3D几何视觉提供简化实现方案。开发者可通过PyTorch快速部署使用,模型由NAVER开源并遵循CC BY-NC-SA 4.0许可协议。
DUSt3R_ViTLarge_BaseDecoder_512_dpt是一个基于DUSt3R(Geometric 3D Vision Made Easy)框架的图像到3D转换模型。该项目由NAVER公司开发,旨在简化几何3D视觉的处理过程,使得从2D图像生成3D内容变得更加容易和高效。
这个模型具有以下主要特点:
DUSt3R_ViTLarge_BaseDecoder_512_dpt模型可以应用于多个领域,如:
要使用这个模型,用户需要先安装dust3r库。安装完成后,可以通过以下Python代码加载模型:
from dust3r.model import AsymmetricCroCo3DStereo import torch model = AsymmetricCroCo3DStereo.from_pretrained("naver/DUSt3R_ViTLarge_BaseDecoder_512_dpt") device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model.to(device)