ScanNet

ScanNet 是一个包含 250 万视图的 RGB-D 视频数据集，覆盖超过 1500 次扫描，并附有 3D 摄像机姿态、表面重建和实例级语义分割的标注。

ScanNet 数据

如果您想下载 ScanNet 数据，请使用您的机构电子邮件地址填写 ScanNet 使用条款协议，并将其发送至 scannet@googlegroups.com。

如果您在一周内没有收到回复，可能是您的电子邮件被退回 - 请在重复发送请求之前检查这一点。请不要回复 noreply 邮箱 - 您的邮件将无法被看到。

请查看更新日志获得数据发布的更新信息。

数据管理

ScanNet 中的数据按 RGB-D 序列组织。每个序列存储在名为 scene<spaceId>_<scanId> 或 scene%04d_%02d 的目录下，其中每个空间对应一个唯一的位置（从 0 开始编号）。扫描期间捕获的原始数据、摄像机姿态和表面网格重建以及注释元数据都存储在给定序列中。目录结构如下：

<scanId>
|-- <scanId>.sens
    含彩色帧、深度帧、摄像机姿态和其他数据的 RGB-D 传感器流
|-- <scanId>_vh_clean.ply
    高质量重建网格
|-- <scanId>_vh_clean_2.ply
    用于语义标注的净化和简化网格
|-- <scanId>_vh_clean_2.0.010000.segs.json
    注释网格的过度分割
|-- <scanId>.aggregation.json, <scanId>_vh_clean.aggregation.json
    低分辨率和高分辨率网格上的汇总实例级语义注释
|-- <scanId>_vh_clean_2.0.010000.segs.json, <scanId>_vh_clean.segs.json
    分别是低分辨率和高分辨率网格的过度分割（由汇总语义注释引用）
|-- <scanId>_vh_clean_2.labels.ply
    汇总语义分割的可视化；通过 nyu40 标签上色（请参见 img/legend；ply 属性 'label' 表示 nyu40 标签 ID）
|-- <scanId>_2d-label.zip
    汇总注释标签的 16 位 png 格式原始 2D 投影，使用 ScanNet 标签 ID
|-- <scanId>_2d-instance.zip
    汇总代注释实例的 8 位 png 格式原始 2D 投影
|-- <scanId>_2d-label-filt.zip
    汇总代注释标签的 16 位 png 格式过滤 2D 投影，使用 ScanNet 标签 ID
|-- <scanId>_2d-instance-filt.zip
    汇总代注释实例的 8 位 png 格式过滤 2D 投影

数据格式

以下是 ScanNet 使用的数据格式概述：

重建表面网格文件 (*.ply)：带 +Z 轴向上方向的二进制 PLY 格式网格。

RGB-D 传感器流 (*.sens)：带每帧颜色、深度、摄像机姿态和其他数据的压缩二进制格式。请参见 ScanNet C++ 工具包获取更多信息和解析代码。请参见 SensReader/python 获取非常基本的 python 数据导出器。

表面网格分割文件 (*.segs.json)：

{
  "params": {  // 分割参数
   "kThresh": "0.0001",
   "segMinVerts": "20",
   "minPoints": "750",
   "maxPoints": "30000",
   "thinThresh": "0.05",
   "flatThresh": "0.001",
   "minLength": "0.02",
   "maxLength": "1"
  },
  "sceneId": "...",  // 分割场景的 ID
  "segIndices": [1,1,1,1,3,3,15,15,15,15],  // 每个顶点的网格分段索引
}

汇总语义注释文件 (*.aggregation.json)：

{
  "sceneId": "...",  // 注释场景的 ID
  "appId": "...", // 用于创建注释的工具 ID + 版本
  "segGroups": [
    {
      "id": 0,
      "objectId": 0,
      "segments": [1,4,3],
      "label": "couch"
    },
  ],
  "segmentsFile": "..." // 引用的 *.segs.json 分割文件的 ID
}

BenchmarkScripts/util_3d.py 提供了解析 *.segs.json, *.aggregation.json 和 *_vh_clean_2.ply 网格文件中的语义实例信息的示例，以及在 BenchmarkScripts/3d_helpers/visualize_labels_on_mesh.py 中的语义分割可视化示例。

2D 注释投影 (*_2d-label.zip, *_2d-instance.zip, *_2d-label-filt.zip, *_2d-instance-filt.zip)：根据计算的摄像机轨迹，将扫描的 3D 汇总注释投影到其 RGB-D 帧中。

ScanNet C++ 工具包

用于处理 ScanNet 数据的工具。SensReader 加载 ScanNet .sens 数据，包括压缩的 RGB-D 帧、摄像机内参和外参以及 IMU 数据。

摄像机参数估计代码

用于估计摄像机参数和深度去畸变的代码。需要计算传感器校准文件，这些文件由管道服务器用于去畸深度。详情请参见 CameraParameterEstimation。

网格分割代码

我们用于预处理网格并为语义注释做准备的网格超分割计算代码。请参见 Segmentator 目录中的构建和使用代码。

BundleFusion 重建代码

ScanNet 使用 BundleFusion 代码进行重建。请参阅 https://github.com/niessner/BundleFusion 中的 BundleFusion 仓库。如果您使用 BundleFusion，请引用原文：

@article{dai2017bundlefusion,
  title={BundleFusion: Real-time Globally Consistent 3D Reconstruction using On-the-fly Surface Re-integration},
  author={Dai, Angela and Nie{\ss}ner, Matthias and Zoll{\"o}fer, Michael and Izadi, Shahram and Theobalt, Christian},
  journal={ACM Transactions on Graphics 2017 (TOG)},
  year={2017}
}

ScanNet Scanner iPad 应用

ScannerApp 设计用于使用附加 Structure.io 传感器的 iPad 轻松捕获 RGB-D 序列。

ScanNet Scanner 数据服务器

Server 包含从运行 Scanner 应用的 iPad 接收 RGB-D 序列的服务器代码。

ScanNet 数据管理 UI

WebUI 包含基于 Web 的数据管理 UI，用于提供可用扫描数据的概览并控制处理和注释管道。

ScanNet 语义注释工具

ScanNet 提供基于 Web 的界面，代码和文档属于 SSTK 库的一部分。请参见 https://github.com/smartscenes/sstk/wiki/Scan-Annotation-Pipeline 获取概览。

基准任务

我们为 ScanNet 提供了几个场景理解基准任务的代码：

3D 物体分类
3D 物体检索
语义体素标注

训练/测试拆分在 Tasks/Benchmark 中给出。标签映射和训练好的模型可以随 ScanNet 数据发布一起下载。

详情请参见 Tasks。

ScanNet 任务数据发布中的标签映射文件 (scannet-labels.combined.tsv) 包含 ScanNet 注释中提供的标签 (id) 与 NYUv2、ModelNet、ShapeNet 和 WordNet 词汇集合中的对象类别集的映射。可以随任务数据一起下载 (--task_data) 或单独下载 (--label_map)。

引用

如果您使用 ScanNet 数据或代码，请引用：

@inproceedings{dai2017scannet,
    title={ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes},
    author={Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Nie{\ss}ner, Matthias},
    booktitle = {Proc. Computer Vision and Pattern Recognition (CVPR), IEEE},
    year = {2017}
}