FlowMap

https://github.com/dcharatan/flowmap/assets/13124225/9dc9cc9a-083e-4fd1-b833-09365385cf59

这是Cameron Smith*、David Charatan*、Ayush Tewari和Vincent Sitzmann的论文《FlowMap: 通过梯度下降实现高质量相机位姿、内参和深度》的官方实现。

在此查看项目网站。

安装

在Linux上开始，创建一个Python虚拟环境：

python3.11 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

对于预训练，确保GMFlow作为子模块安装：

git submodule update --init --recursive

如果上述要求不起作用，可以尝试使用requirements_exact.txt。

运行代码

主要入口点是flowmap/overfit.py。通过以下方式调用：

python3 -m flowmap.overfit dataset=images dataset.images.root=path/to/folder/with/images

确保先通过source venv/bin/activate激活虚拟环境。

预训练初始化

我们用于初始化FlowMap的检查点可以在这里找到。要训练自己的模型，下载Real Estate 10k和CO3Dv2数据集，并运行以下脚本：

python3 -m flowmap.pretrain

Real Estate 10k数据集中的一些视频不再公开可用。如果您想要我们下载的数据集版本，请通过电子邮件与我们联系。

评估数据集

我们使用Local Light Field Fusion (LLFF)、Mip-NeRF 360和Tanks & Temples数据集的视频子集评估了FlowMap。我们已经上传了这些数据集的汇编。

<details> <summary>数据集详情</summary>

NeRF Local Light Field Fusion (LLFF) 场景

这些是来自NeRF论文的LLFF场景，最初上传在这里。我们使用了所有8个场景（fern、flower、fortress、horns、leaves、orchids、room和trex）。

Mip-NeRF 360 场景

这些是来自Mip-NeRF 360论文的场景，最初上传在这里。我们使用了bonsai、counter和kitchen场景。原始的kitchen场景由几个连接的视频序列组成；对于FlowMap，我们使用第一个（65帧）。我们还包括了garden场景，它有点像视频，但包含大的跳跃，使光流估计变得困难。

Tanks & Temples 场景

我们使用了Tanks & Temples数据集的所有场景：auditorium、ballroom、barn、caterpillar、church、courthouse、family、francis、horse、ignatius、lighthouse、m60、meetingroom、museum、palace、panther、playground、temple、train和truck。我们使用flowmap/subsample.py中的脚本预处理了数据集中的原始视频。这个脚本根据平均光流从视频的第一分钟均匀采样150帧。

</details>

运行消融实验

论文中显示的每个消融实验都在config/experiment中有一个Hydra配置。例如，要运行禁用点跟踪的消融实验，在过拟合命令中添加+experiment=ablation_no_tracks。请注意，您可以堆叠大多数消融实验，例如+experiment=[ablation_no_tracks,ablation_random_initialization]。

生成新视角合成结果

我们使用了原始3D高斯溅射代码的修改版本，该版本反向传播到相机位置，以生成论文中显示的新视角合成结果。您可以在这里找到它。

图表和表格生成

用于生成论文中的表格和图表的部分代码可以在assets文件夹中找到。我们使用这些代码以及Figma和LaTeXiT来创建论文中的图表。您可以在这里找到我们的Figma文件。查看.vscode/launch.json以获取运行图表生成所需的命令。

BibTeX

@inproceedings{smith24flowmap,
      title={FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent},
      author={Cameron Smith and David Charatan and Ayush Tewari and Vincent Sitzmann},
      year={2024},
      booktitle={arXiv},
}

致谢

本工作得到了国家科学基金会Grant No. 2211259、新加坡国防科技局DST00OECI20300823（新视觉表示）、情报高级研究计划活动（IARPA）通过内政部/内政商务中心（DOI/IBC）140D0423C0075、亚马逊科学中心和IBM的支持。丰田研究所也部分支持了这项工作。本文所包含的观点和结论反映了其作者的意见和结论，而非其他任何实体。