使用COLMAP进行SfM消歧

关于

当场景中存在对称性和重复结构时,Structure-from-Motion通常会失败。在这个仓库中,我们实现了几种旨在解决这个问题的最先进算法,将它们集成到COLMAP中,并对它们的性能进行了广泛分析。我们希望这项工作能够促进这个问题的进一步研究。

我们专注于在SfM之前过滤掉图像之间的不正确匹配。过滤过程通过重新实现Yan等人(CVPR 2017)的《区分不可区分的:通过测地线上下文探索结构歧义》和Cui等人(ICCV 2015)的《通过相似性平均的全局Structure-from-Motion》中的思想来完成。我们还包括了基于他们的实现的Kataria等人(3DV 2020)的《通过可靠重定位改进Structure from Motion》的实验结果。我们分别将这三篇论文称为Yan的方法、Cui的方法和Kataria的方法。本仓库使用COLMAP和hloc进行特征提取和匹配,使用COLMAP进行几何验证和稀疏重建。

总结:没有一种方法能在所有数据集上使用单一的超参数集consistently表现良好。对于所有三种方法来说,为大型场景调整参数都是困难且耗时的。

如果你对这个问题感兴趣并想交流,请发邮件给Lixin Xue!

<img src="https://yellow-cdn.veclightyear.com/835a84d5/a5d2bb14-1b23-48b1-a605-b99bb79b6cf8.gif" alt="teaser"> 亚历山大·涅夫斯基大教堂数据集上的结果

结论

根据我们的实验,我们有以下观察:

图像中的重复结构往往会导致过多的图像匹配和不收敛的光束法平差。这将显著延长重建时间。移除错误匹配或正确初始化位姿可以显著加快重建过程。
即使有正确的初始图像对和完美的下一视图选择,colmap可能仍会输出一个包含许多错误注册图像的重建结果。即使是Kataria的方法基于可靠匹配来初始化位姿,对某些数据集的消歧仍然不足。因此,一个噪声更少的位姿图对于正确重建是必要的。
Yan的方法和Cui的方法都需要一些特定于场景的参数调整。Kataria的方法具有更好的泛化能力,尽管我们为它调整了参数,但在几个数据集上仍然失败。没有一种方法能在所有数据集上使用单一的参数集consistently表现良好。对于某些场景(特别是大规模场景)来说,为所有三种方法调整参数都是困难且耗时的。

安装

# 需要python 3.7,因为在笔记本中使用了`subprocess.run`的'capture_output'关键字
# 这个关键字只在python 3.7及以上版本中可用
conda create -n sfm python=3.7 -y

# 安装[colmap](https://colmap.github.io/install.html)
# 安装[hloc](https://github.com/cvg/Hierarchical-Localization#installation)

# 用于绘制匹配图的库
sudo apt-get install graphviz graphviz-dev
pip install pygraphviz
conda install -c anaconda networkx -y
# 用于在笔记本中交互式控制参数
conda install -c conda-forge jupyterlab ipywidgets -y
# 如果使用colmap可视化3D模型可以跳过这一步
conda install -c open3d-admin -c conda-forge open3d -y

# 以开发模式安装此库以便进一步修改
python -m pip install -e .

我们还通过谷歌云盘提供了我们使用的数据集。请下载并在datasets文件夹下解压,以获得以下布局:

|---datasets
    |---heinly2014
        |---...
    |---yan2017
        |---...

</details>

流程

我们提供了两个jupyter笔记本作为Yan方法和Cui方法完整流程的示例。这两种方法共享类似的流程,首先计算每对图像的分数,然后根据分数移除错误匹配。之后,将过滤后的匹配传递给增量重建阶段。在Yan的方法中,他们使用原始匹配来计算轨迹,并使用两幅图像之间共享的唯一轨迹的百分比作为图像对的分数。而在Cui的方法中,他们对每幅图像进行局部重建,并使用缺失对应的思想为每对图像创建一个分数。

<img src="https://yellow-cdn.veclightyear.com/835a84d5/f7a5f057-a708-40c3-a087-41434270f8b6.png" alt="pipeline yan"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/52cba4d1-adb2-41df-8124-6c9a8489e011.png" alt="pipeline cui"> Yan方法和Cui方法的类似流程

1. 对应关系

首先,我们可以使用colmap或hloc从图像中提取特征。我们提供以下特征,括号中为相应的关键字:

使用默认参数的colmap SIFT (sift_default)
将第一个八度设置为0的colmap稀疏SIFT特征 (sift_sparse)
SuperPoint (superpoint)
D2-Net (d2net)
R2D2 (r2d2)
DISK (disk, 仍是hloc中的一个拉取请求)

对于由colmap提取的SIFT特征,我们使用colmap提供的穷举最近邻匹配。

对于由hloc提取的学习特征,我们使用hloc提供的穷举最近邻匹配。特别是对于SuperPoint特征,我们还可以使用训练好的SuperGlue模型进行匹配。

然后,我们使用colmap matches_importer以不同的RANSAC参数执行几何验证(从匹配计算两视图几何)(查看options/matching_options.py中的colmap_matching_options)。

2. 消歧

接下来,我们可以使用Yan的方法或Cui的方法计算所有匹配的分数。之后,我们可以选择使用阈值过滤器、前k个过滤器或百分位数过滤器来移除可疑匹配。我们用过滤后的匹配创建一个新的数据库并重新计算两视图几何。

我们选择预先过滤匹配,而不是像Heinly等人的论文《在稀疏3D重建中纠正重复场景结构》中那样对重建后的模型进行后处理,这是基于结论部分所述的观察。

3. 重建

最后,我们使用colmap mapper以增量方式重建整个场景。根据数据集,你可以选择是否从EXIF固定内参(查看options/mapper_options.py)。

</details>

Yan方法概述

《区分不可区分的:通过测地线上下文探索结构歧义》。CVPR 2017。

作者:Qingan Yan, Long Yang, Ling Zhang, Chunxia Xiao。

基本步骤

关键思想是,捕捉重复结构同一实例的测地线邻居通常比不同实例的图像共享更多匹配。基于这一思想,他们:

从原始匹配生成轨迹；
选择具有代表性的图像集来概括整个场景，通过最大化一个目标函数来实现。该函数倾向于完整性（观察到的轨迹数量）并惩罚重复性（出现在多张图像中的轨迹数量）；
将代表性图像集覆盖的轨迹分为两部分：仅出现在代表性集合中一张图像的轨迹定义为唯一轨迹，而在代表性集合的多张图像中出现的其他轨迹定义为混淆轨迹。
定义匹配得分为match_ij: len(unique_ij) / max(len(unique_i), len(unique_j))，即两张图像共享的唯一轨迹的百分比。

原始实现与论文之间的差异

我们的实现遵循作者分享的原始实现。然而，作者的代码与论文之间存在一些差异：

在实际实现中，非代表性图像也被用作路径网络的骨架。因此，匹配图并不是"节点分别为代表性图像和非代表性图像的二分图"。构建代表性集合仅用于构建唯一轨迹和混淆轨迹。
在原始论文中，只要两张图像共享足够的唯一轨迹，就会保留匹配。然而，在实现中，唯一轨迹的百分比也被用来筛选匹配。
公式(3)中的$\alpha$在代码中被设置为0，而在论文中要求大于0。因此，构建代表性集合的停止标准不同：在论文中，一旦添加任何一张图像都不会增加目标函数(3)，代表性集合就会固定。相反，作者提供了一个coverage threshold，一旦目标大于这个阈值就停止扩展代表性集合。这个改变是必要的，因为当$\alpha = 0$时，目标函数会单调递增。

参数调优

原始实现有两个参数（coverage_thres和score_thres）需要调整。以下是作者的评论：

coverage控制将选择多少代表性图像。对于小规模室内场景，建议使用0.7到0.9之间的大值；对于大规模非结构化数据集，0.6左右的值就足够了。

参数score_thres定义图像对是否可接受。同样，对于小规模场景，建议使用较大的阈值（约0.3）；对于大规模户外场景，score_thres在0.04到0.1之间是个不错的选择。

例如，对于Alexander Nevsky Cathedral数据集，我们使用coverage = 0.6和score_thres = 0.1来获得良好注册的3D点云。

在我们的实现中，我们公开了另外4个参数进行调整：

track_degree：要考虑的轨迹的最小长度。增加它将丢弃更多短轨迹。
alpha：论文公式(3)中的$\alpha$。增加它将要求代表性集合中的图像更具有区别性。
minimal_views：匹配有效所需的最小共享轨迹数。增加它意味着更少的匹配将有效。
ds：用于存储匹配列表的数据结构。你可以保持不变（默认largearray），因为默认值是速度和内存之间的良好折衷。对于包含数千张图像的大型数据集，如berliner_dom（1618张图像），有必要使用smallarray数据结构或限制图像中的最大关键点数量。在这种情况下，由于图像数量众多和数据结构效率低下，处理速度会非常慢（berliner_dom需要超过8小时）。

麦片

杯子

书桌

（最左侧的图像在colmap中错误对齐，而在其他两种方法中得到了纠正）

燕麦

（两种方法都失败了，因为真实情况应该是一个序列，而不是两个并行的序列）

街道

天坛

亚历山大·涅夫斯基大教堂

相同参数

为了研究一组参数在多大程度上适用于所有数据集，我们将为亚历山大·涅夫斯基大教堂数据集调整的参数应用于其他互联网图像集合。

凯旋门

柏林大教堂

大本钟

勃兰登堡门

（通过适当选择阈值，我们可以将模型分解为几个部分。）

滴血救世主教堂

（通过适当选择阈值，我们可以将模型分解为几个部分。）

拉德克利夫图书馆

（由于缺少过渡性的相机视角，正确的重建被分成了两部分）

Kataria的方法

在这里，我们还想展示Rajbir Kataria、Joseph DeGol和Derek Hoiem的论文《利用可靠重定位改进运动结构》中的结果。更多详情，请参考作者提供的代码库。以下我们将这种方法称为Kataria方法。

基于长轨迹更可能包含错误匹配的观察，作者提出使用经过轨迹长度调整的匹配数量作为下一个视图选择的标准。更重要的是，待注册图像的初始姿态将仅依赖于可靠图像的3D点，而不是所有三角测量点。这一点很重要，因为我们的实验表明，正确的注册顺序并不一定导致正确的重建。这种方法只包含两个需要设置的参数：轨迹长度折扣因子λ和可靠图像阈值τ。更重要的是，同一组参数可以适用于许多不同的场景，极大地减少了为上述两种方法调整参数的负担。

为了公平比较，我们研究了原始代码库中更改的文件，并将它们与当前版本的colmap进行了小幅修改的集成。我们运行exhaustive_matcher而不是vocab_tree_matcher，这与之前的方法相同。由于作者提供的参数是为OpenSfm调整的，我们也尝试为colmap在杯子和燕麦数据集上调整参数（λ从0.5改为0.3，τ从2.0改为1.3）。结果如下所示：

杯子

<img src="https://yellow-cdn.veclightyear.com/835a84d5/0cc0a7b4-8205-4dac-965d-2db0a42aa543.png" width="49%"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/9a22be8a-7f9c-4691-9cda-8d1623fb6bee.png" width="49%"> （左侧的重建使用作者提供的参数，右侧的重建使用我们调整的参数）

燕麦

<img src="https://yellow-cdn.veclightyear.com/835a84d5/8c4cd76e-a375-452c-a542-2239745bee5d.png" width="49%"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/e75d8063-1c74-4b4d-a0b3-af079d953ef8.png" width="49%"> （左侧的重建使用作者提供的参数，右侧的重建使用我们调整的参数。请注意，我们没有找到一组适合Yan或Cui方法的参数来消除这个场景的歧义）

大规模数据集的结果

然而，当我们在Heinly等人提供的大规模互联网数据集上使用这两组参数时，两组参数给我们的重建结果相似，而且在某种程度上不如我们从Yan或Cui方法中得到的结果：

亚历山大·涅夫斯基大教堂

（在左侧重建中，一些错误注册的相机应该放置在蓝色圆圈内，以创建像右侧那样的正确重建）

大本钟

（注意左侧重建中蓝色圆圈内可疑的墙壁，它应该是一条空旷的街道，如右侧重建所示）

Radcliffe Camera

(Kataria方法的这组参数无法区分Radcliffe Camera的两侧，而Yan的方法和Cui的方法可以)

复现

为了复现上述Kataria方法的结果，我们将修改/新增的文件放在了reliable_resectioning文件夹中。您可以将此目录中的所有文件与colmap的源代码合并，然后进行编译。我们还提供了一个bash脚本示例，用于使用新编译的colmap生成稀疏重建。

-->

代码库结构

|---datasets
    |---heinly2014
        |---...
    |---yan2017
        |---...
|---disambiguation
    |---geodesic_consistency        # Yan方法的代码
    |---mmissing_correspondences    # Cui方法的代码
    |---options     # 特征/匹配/映射的参数
    |---utils       # 一些辅助函数
    |---calculate_geodesic_consistency_scores.py        # 基于Yan方法计算匹配分数的接口
    |---calculate_missing_correspondences_scores.py     # 基于Cui方法计算匹配分数的接口
    |---extract_match_features.py                       # 提取和匹配特征的接口
|---reliable_resectioning
    |---src         # Kataria方法的修改后的colmap源文件
|---results
    |---${dataset_name}
        |---${feature_type}_${matching_type}_${geometric_verification_type}
            |---plots_${parameters}             # Cui方法中缺失对应关系的图表
            |---sparse                          # 不使用消歧的colmap重建
            |---sparse_yan_${parameters}        # 使用Yan方法的重建
            |---sparse_cui_${parameters}        # 使用Cui方法的重建
            |---db_yan_${parameters}.db         # 存储使用Yan方法过滤后的匹配
            |---db_cui_${parameters}.db         # 存储使用Cui方法过滤后的匹配
            |---${dataset_name}.db              # 存储未过滤的匹配
            |---scores_yan_${parameters}.npy    # 使用Yan方法的匹配分数
            |---scores_cui_${parameters}.npy    # 使用Cui方法的匹配分数
            |---...
|---notebooks
    |---$steet_${method_name}.ipynb   # 在街道数据集上运行代码库和调整参数的示例
|---scripts
    |---disambiguate_yan.py     # 使用Yan方法计算分数的示例
    |---disambiguate_cui.py     # 使用Cui方法计算分数的示例
    |---filter_matches.py       # 基于分数过滤匹配的示例
    |---match_features.py       # 提取和匹配特征的示例

</details>

数据集

我们主要使用来自Yan的仓库和Heinly的网站的数据集，其中包含一些来自Roberts等人和Jiang等人的数据集。我们将这些数据集的整理版本（重命名图像并移除特征）打包成一个zip文件供下载。

要尝试其他数据集，您可以将新数据集放在yan2017或heinly2014下，结构如下：

|---datasets
    |---heinly2014
        |---${your_dataset_name}
            |---images
                |--- *.[jpg/png/...]

然后您可以使用${your_dataset_name}作为参数dataset_name来在新数据集上运行代码。

</details>

文献综述

以下是一些相关论文及其摘要：

姿态图：节点是图像，边是对极几何
- [Zach CVPR 2010, Shen ECCV 2016]：循环一致性
- [Jiang CVPR 2012]：特征一致性
- [Heinly ECCV 2014]：冲突的唯一点
- [Cui ICCV 2015]：局部星形图上的缺失对应关系
- [Wang BMVC 2018]：相机距离的局部重建分数
可见性图：节点是图像和轨迹（3D点），边是可见性
- [Wilson ICCV 2013]：移除不良轨迹的缺失对应关系
- [Yan CVPR 2017]：通过测地线一致性增强来分割不良轨迹
其他一些论文
- [Roberts CVPR 2011]：缺失对应关系 + 时间戳线索
- [Cohen CVPR 2012]：检测对称性并将其作为优化中的约束条件
- [Ceylan TOG 2013]：用户指定的模式来检测立面的重复模式
- [Heinly 3DV 2014]：与[Heinly ECCV 2014]相似的想法但更快
- [Kataria 3DV 2020]：使用轨迹长度调整下一个视图选择的匹配分数；仅使用可靠的3D点进行图像配准
常用技术：最小生成树
- [Zach CVPR 2010]：采样循环以测试一致性（自上而下）
- [Jiang CVPR 2012]：修改生成树以最小化特征度量损失
- [Heinly ECCV 2014]：生成子图切割的建议
- [Shen ECCV 2016]：从最小生成树开始形成完整的姿态图（自下而上）
- [Wang BMVC 2018]：将最小生成树切割成组进行聚类