ScanNet 是一个包含 250 万视图的 RGB-D 视频数据集,覆盖超过 1500 次扫描,并附有 3D 摄像机姿态、表面重建和实例级语义分割的标注。
如果您想下载 ScanNet 数据,请使用您的机构电子邮件地址填写 ScanNet 使用条款 协议,并将其发送至 scannet@googlegroups.com。
如果您在一周内没有收到回复,可能是您的电子邮件被退回 - 请在重复发送请求之前检查这一点。请不要回复 noreply 邮箱 - 您的邮件将无法被看到。
请查看 更新日志 获得数据发布的更新信息。
ScanNet 中的数据按 RGB-D 序列组织。每个序列存储在名为 scene<spaceId>_<scanId>
或 scene%04d_%02d
的目录下,其中每个空间对应一个唯一的位置(从 0 开始编号)。扫描期间捕获的原始数据、摄像机姿态和表面网格重建以及注释元数据都存储在给定序列中。目录结构如下:
<scanId> |-- <scanId>.sens 含彩色帧、深度帧、摄像机姿态和其他数据的 RGB-D 传感器流 |-- <scanId>_vh_clean.ply 高质量重建网格 |-- <scanId>_vh_clean_2.ply 用于语义标注的净化和简化网格 |-- <scanId>_vh_clean_2.0.010000.segs.json 注释网格的过度分割 |-- <scanId>.aggregation.json, <scanId>_vh_clean.aggregation.json 低分辨率和高分辨率网格 上的汇总实例级语义注释 |-- <scanId>_vh_clean_2.0.010000.segs.json, <scanId>_vh_clean.segs.json 分别是低分辨率和高分辨率网格的过度分割(由汇总语义注释引用) |-- <scanId>_vh_clean_2.labels.ply 汇总语义分割的可视化;通过 nyu40 标签上色(请参见 img/legend;ply 属性 'label' 表示 nyu40 标签 ID) |-- <scanId>_2d-label.zip 汇总注释标签的 16 位 png 格式原始 2D 投影,使用 ScanNet 标签 ID |-- <scanId>_2d-instance.zip 汇总代注释实例的 8 位 png 格式原始 2D 投影 |-- <scanId>_2d-label-filt.zip 汇总代注释标签的 16 位 png 格式过滤 2D 投影,使用 ScanNet 标签 ID |-- <scanId>_2d-instance-filt.zip 汇总代注释实例的 8 位 png 格式过滤 2D 投影
以下是 ScanNet 使用的数据格式概述:
重建表面网格文件 (*.ply
):
带 +Z 轴向上方向的二进制 PLY 格式网格。
RGB-D 传感器流 (*.sens
):
带每帧颜色、深度、摄像机姿态和其他数据的压缩二进制格式。请参见 ScanNet C++ 工具包 获取更多信息和解析代码。请参见 SensReader/python 获取非常基本的 python 数据导出器。
表面网格分割文件 (*.segs.json
):
{ "params": { // 分割参数 "kThresh": "0.0001", "segMinVerts": "20", "minPoints": "750", "maxPoints": "30000", "thinThresh": "0.05", "flatThresh": "0.001", "minLength": "0.02", "maxLength": "1" }, "sceneId": "...", // 分割场景的 ID "segIndices": [1,1,1,1,3,3,15,15,15,15], // 每个顶点的网格分段索引 }
汇总语义注释文件 (*.aggregation.json
):
{ "sceneId": "...", // 注释场景的 ID "appId": "...", // 用于创建注释的工具 ID + 版本 "segGroups": [ { "id": 0, "objectId": 0, "segments": [1,4,3], "label": "couch" }, ], "segmentsFile": "..." // 引用的 *.segs.json 分割文件的 ID }
BenchmarkScripts/util_3d.py 提供了解析 *.segs.json
, *.aggregation.json
和 *_vh_clean_2.ply
网格文件中的语义实例信息的示例,以及在 BenchmarkScripts/3d_helpers/visualize_labels_on_mesh.py 中的语义分割可视化示例。
2D 注释投影 (*_2d-label.zip
, *_2d-instance.zip
, *_2d-label-filt.zip
, *_2d-instance-filt.zip
):
根据计算的摄像机轨迹,将扫描的 3D 汇总注释投影到其 RGB-D 帧中。
用于处理 ScanNet 数据的工具。SensReader 加载 ScanNet .sens
数据,包括压缩的 RGB-D 帧、摄像机内参和外参以及 IMU 数据。
用于估计摄像机参数和深度去畸变的代码。需要计算传感器校准文件,这些文件由管道服务器用于去畸深度。详情请参见 CameraParameterEstimation。
我们用于预处理网格并为语义注释做准备的网格超分割计算代码。请参见 Segmentator 目录中的构建和使用代码。
ScanNet 使用 BundleFusion 代码进行重建。请参阅 https://github.com/niessner/BundleFusion 中的 BundleFusion 仓库。如果您使用 BundleFusion,请引用原文:
@article{dai2017bundlefusion,
title={BundleFusion: Real-time Globally Consistent 3D Reconstruction using On-the-fly Surface Re-integration},
author={Dai, Angela and Nie{\ss}ner, Matthias and Zoll{\"o}fer, Michael and Izadi, Shahram and Theobalt, Christian},
journal={ACM Transactions on Graphics 2017 (TOG)},
year={2017}
}
ScannerApp 设计用于使用附加 Structure.io 传感器的 iPad 轻松捕获 RGB-D 序列。
Server 包含从运行 Scanner 应用的 iPad 接收 RGB-D 序列的服务器代码。
WebUI 包含基于 Web 的数据管理 UI,用于提供可用扫描数据的概览并控制处理和注释管道。
ScanNet 提供基于 Web 的界面,代码和文档属于 SSTK 库的一部分。请参见 https://github.com/smartscenes/sstk/wiki/Scan-Annotation-Pipeline 获取概览。
我们为 ScanNet 提供了几个场景理解基准任务的代码:
训练/测试拆分在 Tasks/Benchmark 中给出。 标签映射和训练好的模型可以随 ScanNet 数据发布一起下载。
详情请参见 Tasks。
ScanNet 任务数据发布中的标签映射文件 (scannet-labels.combined.tsv
) 包含 ScanNet 注释中提供的标签 (id
) 与 NYUv2、ModelNet、ShapeNet 和 WordNet 词汇集合 中的对象类别集的映射。可以随任务数据一起下载 (--task_data
) 或单独下载 (--label_map
)。
如果您使用 ScanNet 数据或代码,请引用:
@inproceedings{dai2017scannet,
title={ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes},
author={Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Nie{\ss}ner, Matthias},
booktitle = {Proc. Computer Vision and Pattern Recognition (CVPR), IEEE},
year = {2017}
}
如果您有任何问题,请联系 scannet@googlegroups.com。
数据根据 ScanNet 使用条款 发布,代码根据 MIT 许可发布。
版权所有 (c) 2017
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号