论文的官方实现
重新思考表面法线估计的归纳偏置
CVPR 2024 [口头报告]
<a href="https://baegwangbin.com" target="_blank">Gwangbin Bae</a> 和 <a href="https://www.doc.ic.ac.uk/~ajd/" target="_blank">Andrew J. Davison</a>
<a href="https://github.com/baegwangbin/DSINE/raw/main/paper.pdf" target="_blank">[论文PDF]</a> <a href="https://arxiv.org/abs/2403.00712" target="_blank">[arXiv]</a> <a href="https://www.youtube.com/watch?v=2y9-35c719Y&t=5s" target="_blank">[YouTube]</a> <a href="https://baegwangbin.github.io/DSINE/" target="_blank">[项目页面]</a>
尽管对精确表面法线估计模型的需求日益增长,但现有方法仍使用通用的密集预测模型,采用与其他任务相同的归纳偏置。在本文中,我们讨论了表面法线估计所需的归纳偏置,并提出**(1)利用每个像素的射线方向和(2)通过学习相邻表面法线之间的相对旋转来编码它们之间的关系**。所提出的方法可以为具有任意分辨率和纵横比的具有挑战性的真实图像生成清晰但分段平滑的预测结果。与最近基于ViT的最先进模型相比,我们的方法表现出更强的泛化能力,尽管在规模小几个数量级的数据集上进行训练。
<p align="center"> <img width=100% src="https://yellow-cdn.veclightyear.com/835a84d5/cfc60728-95ac-46d6-9aee-798b73490641.png"> </p>我们提供四个步骤的说明(点击"▸"展开)。例如,如果你只想在一些图像上测试DSINE,可以在步骤1后停止。这将最大限度地减少安装/下载量。
<details> <summary><b>步骤1. 在一些图像上测试DSINE</b>(需要最少的依赖项)</summary>首先安装依赖项。
conda create --name DSINE python=3.10
conda activate DSINE
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
python -m pip install geffnet
然后,从<a href="https://drive.google.com/drive/folders/1t3LMJIIrSnCGwOEf53Cyg0lkSXd3M4Hm?usp=drive_link" target="_blank">此链接</a>下载模型权重,并将其保存在projects/dsine/checkpoints/
下。请注意,它应保持与Google Drive相同的文件夹结构。例如,checkpoints/exp001_cvpr2024/dsine.pt
(在Google Drive中)是我们的最佳模型。它应该被保存为projects/dsine/checkpoints/exp001_cvpr2024/dsine.pt
。相应的配置文件是projects/dsine/experiments/exp001_cvpr2024/dsine.txt
。
checkpoints/exp002_kappa/
(在Google Drive中)下的模型也可以估计不确定性。
然后,移动到projects/dsine/
文件夹,运行
python test_minimal.py ./experiments/exp001_cvpr2024/dsine.txt
这将为projects/dsine/samples/img/
下的图像生成预测。结果将保存在projects/dsine/samples/output/
下。
我们的模型假设已知相机内参,但提供近似内参仍然可以得到良好的结果。对于projects/dsine/samples/img/
中的一些图像,相应的相机内参(fx、fy、cx、cy - 假设透视相机无畸变)以.txt
文件提供。如果不存在这样的文件,内参将被近似,假设60°视场。
安装额外的依赖项。
python -m pip install tensorboard
python -m pip install opencv-python
python -m pip install matplotlib
python -m pip install pyrealsense2 # 仅用于使用realsense相机的演示
python -m pip install vidgear # 仅用于YouTube视频的演示
python -m pip install yt_dlp # 仅用于YouTube视频的演示
python -m pip install mss # 仅用于屏幕捕捉的演示
从<a href="https://drive.google.com/drive/folders/1t3LMJIIrSnCGwOEf53Cyg0lkSXd3M4Hm?usp=drive_link" target="_blank">此链接</a>下载评估数据集(dsine_eval.zip
)。
**注意:**下载数据集即表示您同意每个数据集各自的许可协议。每个数据集的链接可以在相应的readme.txt
中找到。
如果你查看projects/__init__.py
,有一个名为DATASET_DIR
和EXPERIMENT_DIR
的变量:
DATASET_DIR
是存储数据集的位置。例如,dsine_eval
数据集(从上面的链接下载)应该保存在DATASET_DIR/dsine_eval
下。更新这个变量。EXPERIMENT_DIR
是保存实验(例如模型权重、日志等)的位置。更新这个变量。然后,移动到projects/dsine/
文件夹,运行:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
你也可以运行实时演示:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
对于每个输入选项,都有一些额外的参数。有关更多信息,请参见projects/dsine/test.py
。
你也可以尝试构建自己的实时演示。更多信息请参见这个笔记本。
</details> <details> <summary><b>步骤3. 训练DSINE</b></summary>在projects/dsine/
中运行:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
然后执行tensorboard --logdir EXPERIMENT_DIR/dsine/exp000_test/test/log
来打开tensorboard。
这将在NYUv2数据集的训练集上训练模型,该数据集应位于DATASET_DIR/dsine_eval/nyuv2/train/
下。这里只有795张图像,性能不会很好。要获得更好的结果,你需要:
(1) 创建自定义数据加载器
我们正在检查是否可以发布整个训练数据集(约400GB)。在发布之前,你可以尝试构建自定义数据加载器。你需要定义一个
get_sample(args, sample_path, info)
函数,并在data/datasets
中提供数据分割。查看其他数据集是如何定义/提供的。你还需要更新projects/baseline_normal/dataloader.py
,以便可以使用新定义的get_sample
函数。
(2) 生成GT表面法线(可选)
如果你的数据集没有提供地面真实表面法线图,你可以尝试从地面真实深度图生成它们。更多信息请参见这个笔记本。
(3) 自定义数据增强
</details> <details> <summary><b>步骤4. 开始你自己的表面法线估计项目</b></summary>如果你使用合成图像,你需要正确的数据增强函数集来最小化合成到真实的域间差距。我们提供了广泛的增强函数,但超参数未经过微调,你可以通过微调它们来获得潜在的更好结果。更多信息请参见这个笔记本。
如果你想开始自己的表面法线估计项目,可以非常容易地做到。
首先,看看projects/baseline_normal
。这是一个你可以尝试不同CNN架构而不用担心相机内参和旋转估计的地方。你可以尝试流行的架构如U-Net,并尝试不同的骨干网络。在这个文件夹中,你可以运行:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
特定项目的config
在projects/baseline_normal/config.py
中定义。所有项目共享的默认配置在projects/__init__.py
中。
数据加载器在projects/baseline_normal/dataloader.py
中。我们在dsine
项目中使用相同的数据加载器,所以我们没有projects/dsine/dataloader.py
。
损失函数定义在 projects/baseline_normal/losses.py
中。这些是用于在您自己的项目中构建自定义损失函数的基础模块。例如,在 DSINE 项目中,我们生成了一系列预测结果,损失函数是对每个预测计算的损失的加权和。您可以在 projects/dsine/losses.py
中看到具体实现方式。
您可以通过复制 projects/dsine
文件夹来创建 projects/NEW_PROJECT_NAME
,从而开始一个新项目。然后,更新 config.py
和 losses.py
。
最后,您应该修改 train.py
和 test.py
。对于在不同项目中应该有所不同的部分,我们做了如下标记:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
搜索箭头(↓↓↓↓/↑↑↑↑)以查看在不同项目中需要修改的地方。
上述测试命令(例如获取基准性能和运行实时演示)应适用于所有项目。
如果您想为此仓库做出贡献,请提交拉取请求并按以下格式添加说明。
<details> <summary><b>使用 torch hub 预测法线</b>(由 <a href="https://github.com/hugoycj" target="_blank">hugoycj</a> 贡献)</summary>注意:以下代码已过时,应进行修改(因为文件夹结构已更改)。
import torch
import cv2
import numpy as np
# 从 torch hub 加载法线预测模型
normal_predictor = torch.hub.load("hugoycj/DSINE-hub", "DSINE", trust_repo=True)
# 使用 OpenCV 加载输入图像
image = cv2.imread(args.input, cv2.IMREAD_COLOR)
h, w = image.shape[:2]
# 使用模型从输入图像推断法线图
with torch.inference_mode():
normal = normal_predictor.infer_cv2(image)[0] # 输出形状:(H, W, 3)
normal = (normal + 1) / 2 # 将值转换到 [0, 1] 范围内
# 将法线图转换为可显示格式
normal = (normal * 255).cpu().numpy().astype(np.uint8).transpose(1, 2, 0)
normal = cv2.cvtColor(normal, cv2.COLOR_RGB2BGR)
# 将输出法线图保存到文件
cv2.imwrite(args.output, normal)
如果网络无法获取权重,您可以使用本地权重进行 torch hub 加载,如下所示:
normal_predictor = torch.hub.load("hugoycj/DSINE-hub", "DSINE", local_file_path='./checkpoints/dsine.pt', trust_repo=True)
</details>
<details>
<summary><b>生成地面真实表面法线</b></summary>
我们提供了用于从地面真实深度图生成地面真实表面法线的代码。有关更多信息,请参阅<a href="https://github.com/baegwangbin/DSINE/blob/main/notes/depth_to_normal.ipynb" target="_blank">此笔记本</a>。
</details>
<details>
<summary><b>关于坐标系</b></summary>
我们使用右手坐标系,其中 (X, Y, Z) = (右, 下, 前)。需要注意的一个重要点是,地面真实法线和我们的预测结果都是<b>外向法线</b>。例如,对于面向相机的正面平行墙,法线应为 (0, 0, 1),而不是 (0, 0, -1)。如果您需要使用<b>内向法线</b>,请执行 <code>normals = -normals</code>。
</details>
<details>
<summary><b>分享您的模型权重</b></summary>
如果您希望分享您的模型权重,请通过提供相应的配置文件和权重链接来提交拉取请求。
</details>
如果您在研究中发现我们的工作有用,请考虑引用我们的论文:
@inproceedings{bae2024dsine,
title = {Rethinking Inductive Biases for Surface Normal Estimation},
author = {Gwangbin Bae and Andrew J. Davison},
booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2024}
}
如果您使用的模型还估计不确定性,请同时引用以下论文,其中我们介绍了损失函数:
@InProceedings{bae2021eesnu,
title = {Estimating and Exploiting the Aleatoric Uncertainty in Surface Normal Estimation}
author = {Gwangbin Bae and Ignas Budvytis and Roberto Cipolla},
booktitle = {International Conference on Computer Vision (ICCV)},
year = {2021}
}
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号