这是一篇关于使用分层三维高斯表示进行大型数据集实时渲染的论文。主要包括以下内容:
Bernhard Kerbl, Andreas Meuleman, Georgios Kopanas, Michael Wimmer, Alexandre Lanvin, George Drettakis (* 表示共同贡献)
该仓库包含了论文"用于大型数据集实时渲染的分层三维高斯表示"的官方作者实现。我们解释了运行算法所需的不同步骤。我们使用了一个包含1500张图像的"玩具示例"数据集来说明该方法的每个步骤,以促进复制。本文中介绍的完整数据集将在数据保护过程完成后发布(敬请关注)。
<a href="https://www.inria.fr/"><img height="100" src="https://yellow-cdn.veclightyear.com/ab5030c0/5343bc17-ec16-4672-b67b-d2cf583445f2.png"> </a> <a href="https://univ-cotedazur.eu/"><img height="100" src="https://yellow-cdn.veclightyear.com/ab5030c0/ed464845-7af3-4d47-8a37-cbc29f29fa6b.png"> </a> <a href="https://www.cg.tuwien.ac.at/"> <img width="100;" src="https://yellow-cdn.veclightyear.com/ab5030c0/3f9fb452-41eb-44db-851f-b296e8be63b4.svg"></a> <a href="https://team.inria.fr/graphdeco/"> <img width="700;" src="https://yellow-cdn.veclightyear.com/ab5030c0/912cc09f-74b3-4f4a-94b5-fff907cb2d46.png"></a>
参考文献:
@Article{hierarchicalgaussians24,
author = {Kerbl, Bernhard and Meuleman, Andreas and Kopanas, Georgios and Wimmer, Michael and Lanvin, Alexandre and Drettakis, George},
title = {A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets},
journal = {ACM Transactions on Graphics},
number = {4},
volume = {43},
month = {July},
year = {2024},
url = {https://repo-sam.inria.fr/fungraph/hierarchical-3d-gaussians/}
}
请注意,代码发布目前处于Alpha阶段。我们打算为用户遇到的由于设置和/或环境问题而导致的问题提供修复。以下步骤已在Windows和Ubuntu 22上成功测试。我们感谢用户记录问题,并将尽力解决它们。此外,在未来几周内,我们还将集成几个要点:
确保使用--recursive
克隆存储库:
git clone https://github.com/graphdeco-inria/hierarchical-3d-gaussians.git --recursive
cd hierarchical-3d-gaussians
重要提示:在Ubuntu上似乎存在未指定的PyTorch/CUB兼容性问题,我们正在调查。同时,如果可以,在Ubuntu上将为CUDA 12.1构建的PyTorch与CUDA Toolkit 12.5安装(是的,这应该没问题,允许版本小误差)的组合看起来是一个不错的选择,根据我们的Docker实验。这个帖子提供了一个看似稳定的Ubuntu Docker文件的初步示例。
我们在Ubuntu 22.04 和 Windows 11 上进行了测试,使用了以下软件:
conda create -n hierarchical_3d_gaussians python=3.12 -y
conda activate hierarchical_3d_gaussians
# 如果使用CUDA 11.x,请将 cu121 替换为 cu118
pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
要启用深度损失,请下载以下方法之一的模型权重:
submodules/Depth-Anything-V2/checkpoints/
下。submodules/DPT/weights/
下。cd submodules/gaussianhierarchy
cmake . -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j --config Release
cd ../..
对于Ubuntu 22.04,安装依赖项:
sudo apt install -y cmake libglew-dev libassimp-dev libboost-all-dev libgtk-3-dev libopencv-dev libglfw3-dev libavdevice-dev libavcodec-dev libeigen3-dev libxxf86vm-dev libembree-dev
克隆层次查看器并构建:
cd SIBR_viewers
git clone https://github.com/graphdeco-inria/hierarchy-viewer.git src/projects/hierarchyviewer
cmake . -B build -DCMAKE_BUILD_TYPE=Release -DBUILD_IBR_HIERARCHYVIEWER=ON -DBUILD_IBR_ULR=OFF -DBUILD_IBR_DATASET_TOOLS=OFF -DBUILD_IBR_GAUSSIANVIEWER=OFF
cmake --build build -j --target install --config Release
我们的方法有两个主要阶段:重建,它以(通常很大的)一组图像为输入,并输出一个"合并层次",以及运行时,它实时显示完整的层次。
重建有两个主要步骤:1)预处理输入图像和2)优化。我们接下来详细介绍这些。对于每个步骤,我们都有自动化的脚本来执行所有必需的步骤,我们还提供了各个组件的详细信息。
要开始,准备一个数据集或下载并提取玩具示例。
数据集应该在 ${DATASET_DIR}/inputs/images/
中按相机文件夹排序的图像,以及可选的掩码(带有.png
扩展名)在 ${DATASET_DIR}/inputs/masks/
中。掩码将乘以输入图像和渲染,然后计算损失。
您也可以使用我们的完整场景。由于我们提供了校准和细分的数据,您可以跳到生成单目深度图。数据集:
在下面,用您的数据集路径替换 ${DATASET_DIR}
,或设置 DATASET_DIR:
# Bash:
DATASET_DIR=<Path to your dataset>
# PowerShell:
${DATASET_DIR} = "<Path to your dataset>"
这是一个从英文到中文的翻译,请提供以下源文本的中文翻译。
注意:翻译需要符合中文语序、流程、通顺。
跳过重建并仅显示场景,下载预训练的等级和脚手架,将它们放在
${DATASET_DIR}/output/
下,并遵循 查看器说明。预训练等级:
如同 3dgs 中所述,我们需要经过校准的相机和点云来训练等级。
第一步是生成一个"全局 colmap"。以下命令使用 COLMAP 的分层映射器、校正图像和掩码,并对稀疏重建进行对齐和缩放,以便细分。
python preprocess/generate_colmap.py --project_dir ${DATASET_DIR}
<details>
<summary><span style="font-weight: bold;">使用校准的图像</span></summary>
如果您的数据集已经有 COLMAP (带有 2D 和 3D SfM 点)和校正后的图像,它们应该放在 ${DATASET_DIR}/camera_calibration/rectified
下。由于它们仍需要对齐,请运行:
python preprocess/auto_reorient.py --input_path ${DATASET_DIR}/camera_calibration/rectified/sparse --output_path ${DATASET_DIR}/camera_calibration/aligned/sparse/0
</details>
<br>
在我们的示例数据集上,使用 RTX A6000 时,这一步大约需要 47 分钟,有关脚本每个步骤的更多详细信息,请参阅 这里。
一旦生成了"全局 colmap",它应该被分割成块。我们还对每个块运行一次捆绑调整,因为 COLMAP 的分层映射器更快但不太准确(如果您的全局 colmap 足够准确,您可以使用 --skip_bundle_adjustment
跳过这个耗时的步骤)。
python preprocess/generate_chunks.py --project_dir ${DATASET_DIR}
在我们的示例数据集上,使用 RTX A6000 时,这一步大约需要 95 分钟,有关脚本每个步骤的更多详细信息,请参阅 这里。
请注意,通过使用
--use_slurm
,您可以并行细化块,请记得在preprocess/prepare_chunks.slurm
中设置您的 slurm 参数(gpu、帐户等)。
为了在训练每个块时使用深度正则化,必须为每个校正后的图像生成深度图。然后还需要计算深度缩放参数,这两个步骤可以使用以下命令完成:
python preprocess/generate_depth.py --project_dir ${DATASET_DIR}
现在你应该有以下文件结构,这是训练部分所需要的:
project
└── camera_calibration
├── aligned
│ └── sparse/0
│ ├── images.bin
│ ├── cameras.bin
│ └── points3D.bin
├── chunks
│ ├── 0_0
│ └── 0_1
│ .
│ .
│ .
│ └── m_n
│ ├── center.txt
│ ├── extent.txt
│ └── sparse/0
│ ├── cameras.bin
│ ├── images.bin
│ ├── points3d.bin
│ └── depth_params.json
└── rectified
├── images
├── depths
└── masks
场景训练过程分为五个步骤:1) 我们首先训练一个全局的、粗糙的 3D 高斯溅射场景("脚手架"),然后 2) 独立并行地训练每个块, 3) 构建等级,4) 优化每个块中的等级,最后 5) 整合块以创建最终的等级。
确保您正确设置了环境并编译了等级合并器/创建器
full_train.py
脚本执行所有这些步骤来从预处理的场景训练一个等级。在训练过程中,可以使用原始的 3DGS 远程查看器可视化进度(构建说明)。
python scripts/full_train.py --project_dir ${DATASET_DIR}
<details>
<summary><span style="font-weight: bold;">命令行参数</span></summary>
输入已校准的 colmap。
校正图像的路径。
校正深度的路径。
校正掩码的路径。
输入块文件夹的路径。
您创建的 conda 环境的名称。
输出目录的路径。
启用使用 slurm 进行并行训练的标志(False
by default).
请注意,通过使用
--use_slurm
,块将被并行训练,以利用例如多 GPU 设置。要控制该过程,请记得在coarse_train.slurm
、consolidate.slurm
和train_chunk.slurm
中设置您的 slurm 参数(gpu、帐户等)
在我们的示例数据集上,使用 RTX A6000 时,这一步大约需要 171 分钟,有关脚本每个步骤的更多详细信息,请参阅 这里。
实时查看器基于 SIBR,类似于原始的 3DGS。有关设置,请参见 这里
基于等级的实时查看器用于可视化我们训练的等级。它有一个"顶视图",显示结构从运动点云以及绿色的输入校准相机。等级块也以线框模式显示。
在安装查看器后,您可以在 <SIBR install dir>/bin/
中运行编译的 SIBR_gaussianHierarchyViewer_app。控制说明在这里。
如果显存不多,请添加 --budget <Budget for the parameters in MB>
(默认设置为 16000,假设至少有 16 GB 的显存)。请注意,这只定义了场景表示的预算。渲染将需要一些额外的显存(最多 1.5 GB)用于帧缓冲结构。另请注意,实时渲染器假设您的系统上可用 CUDA/OpenGL 互操作(详见原始 3DGS 文档)。
该界面包括一个用于 tau (size limit)
的字段,它定义了所需的粒度设置。请注意, tau = 0
将尝试渲染整个数据集(所有叶节点)。如果粒度设置超出可用的显存预算,而不是耗尽内存,查看器将自动调节并提高粒度,直到场景可以装入定义的显存预算中。
SIBR_viewers/install/bin/SIBR_gaussianHierarchyViewer_app --path ${DATASET_DIR}/camera_calibration/aligned --scaffold ${DATASET_DIR}/output/scaffold/point_cloud/iteration_30000 --model-path ${DATASET_DIR}/output/merged.hier --images-path ${DATASET_DIR}/camera_calibration/rectified/images
<details>
<summary><span style="font-weight: bold;">实时查看器的命令行参数</span></summary>
训练等级的路径。
如果有多个可用,指定加载哪个状态。默认为最新可用的迭代。
参数来覆盖模型的源数据集路径。
接受两个空格分隔的数字来定义实时渲染的分辨率,默认为 1200
宽。 注意,如果要强制执行与输入图像不同的宽高比,你需要 --force-aspect-ratio
。
可在顶视图中查看的校正输入图像的路径。
如果有多个可用,用于光栅化的 CUDA 设备的索引, 0
默认。
可用于层次 3DGS 场景表示的显存量。
</details> <br>请注意,在我们的实验中,我们使用了 colmap 3.9.1 with cuda support<br> 每个 colmap 命令的参数以及我们的脚本是我们在示例数据集中使用的。<br> 可以在这里找到这些参数的更多详细信息
创建一个 project
文件夹,并创建以下所需的文件夹:
project
├── camera_calibration
│ ├── aligned
│ ├── rectified
│ └── unrectified
└── output
在 unrectified
子文件夹中生成一个 database.db
,通过从图像中提取特征:
输入图像文件夹应该按照每个相机一个子文件夹的方式组织。
cd project/unrectified
colmap feature_extractor --database_path database.db --image_path <path to images> --ImageReader.single_camera_per_folder 1 --ImageReader.default_focal_length_factor 0.5 --ImageReader.camera_model OPENCV
这是一个从英语翻译到中文的文本:
使用以下方法创建一个自定义的 matching.txt
文件:
cd hierarchical_3d_gaussians
python preprocess/make_colmap_custom_matcher.py --image_path <图像路径> --output_path <matching.txt 文件路径>
<matching.txt 文件路径>
将包含使用图像顺序和 GPS 数据(如果可用)进行接近的相机索引对。
之前创建的 matching.txt
文件将用于特征匹配:
cd ${DATASET_DIR}/unrectified
colmap matches_importer --database_path <database.db> --match_list_path <matching.txt 文件路径>
启动 hierarchical mapper
创建 colmap 场景:
colmap hierarchical_mapper --database_path <database.db> --image_path <图像路径> --output_path <稀疏> --Mapper.ba_global_function_tolerance=0.000001
移除没有 sfm 点的浮动相机和特征点,使 colmap 更轻:
cd hierarchical_3d_gaussians
python preprocess/simplify_images.py --base_dir ${DATASET_DIR}/unrectified/sparse/0
对校准的相机去畸变,得到用于训练的图像:
cd ${DATASET_DIR}
colmap image_undistorter --image_path <图像路径> --input_path <unrectified/sparse/0> --output_path <rectified> --output_type COLMAP --max_image_size 2048
对校准的 colmap 进行对齐和缩放:
cd hierarchical_3d_gaussians
python preprocess/auto_reorient.py --input_path <project_dir/rectified/sparse> --output_path <project_dir/aligned>
最后一步是将 colmap 划分为块,每个块都有自己的 colmap,将通过两轮束调整和三角化来细化:
将 project/camera_calibration/aligned
下的校准切割成块,每个块都有自己的 colmap:
python preprocess/make_chunk.py --base_dir <project/aligned/sparse/0> --images_dir <project/rectified/images> --output_path <project/raw_chunks>
对每个块应用两轮 三角化
和 束调整
进行细化:
python preprocess/prepare_chunk.py --raw_chunk <原始块路径> --out_chunk <输出块路径> --images_dir <project/rectified/images> --depths_dir <project/rectified/depths> --preprocess_dir <hierarchical_gaussians/preprocess_dir 路径>
生成深度图:
cd submodules/Depth-Anything-V2
python run.py --encoder vitl --pred-only --grayscale --img-path [输入图像目录路径] --outdir [输出深度目录路径]
cd submodules/DPT
python run_monodepth.py -t dpt_large -i [输入图像目录路径] -o [输出深度目录路径]
生成 depth_params.json
文件:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
粗化优化
python train_coarse.py -s <project/aligned 路径> -i <../rectified/images> --skybox_num 100000 --position_lr_init 0.00016 --position_lr_final 0.0000016 --model_path <输出脚手架路径>
单块训练
python -u train_single.py -s [project/chunks/chunk_name] --model_path [output/chunks/chunk_name] -i [project/rectified/images] -d [project/rectified/depths] --alpha_masks [project/rectified/masks] --scaffold_file [output/scaffold/point_cloud/iteration_30000] --skybox_locked --bounds_file [project/chunks/chunk_name]
每个块的层次结构构建
# Linux:
submodules/gaussianhierarchy/build/GaussianHierarchyCreator [输出块 point_cloud.ply 路径] [块 colmap 路径] [输出块路径] [脚手架路径]
# Windows:
submodules/gaussianhierarchy/build/Release/GaussianHierarchyCreator.exe [输出块 point_cloud.ply 路径] [块 colmap 路径] [输出块路径] [脚手架路径]
单块优化后处理
python -u train_post.py -s [project/chunks/chunk_name] --model_path [output/chunks/chunk_name] --hierarchy [output/chunks/chunk_name/hierarchy_name.hier] --iterations 15000 --feature_lr 0.0005 --opacity_lr 0.01 --scaling_lr 0.001 --save_iterations -1 -i [project/rectified/images] --alpha_masks [project/rectified/masks] --scaffold_file [output/scaffold/point_cloud/iteration_30000] --skybox_locked --bounds_file [project/chunks/chunk_name]
# Linux:
submodules/gaussianhierarchy/build/GaussianHierarchyMerger [path to output/trained_chunks] "0" [path to chunk colmap] [list of all the chunk names]
# Windows:
submodules/gaussianhierarchy/build/Release/GaussianHierarchyMerger.exe [path to output/trained_chunks] "0" [path to chunk colmap] [list of all the chunk names]
每个.slurm
脚本的开头必须有以下参数:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
请注意, slurm 脚本尚未经过全面测试。
我们使用一个 test.txt 文件, 该文件由数据加载器读取并在传递 --eval
到训练脚本时分为训练/测试集。此文件应位于每个块的 sprase/0/
目录以及对齐的"全局 colmap"(如果适用)中。
我们用于评估的单个块:
要对一个块进行评估:
python train_single.py -s ${CHUNK_DIR} --model_path ${OUTPUT_DIR} -d depths --exposure_lr_init 0.0 --eval --skip_scale_big_gauss
# Windows: build/Release/GaussianHierarchyCreator
submodules/gaussianhierarchy/build/GaussianHierarchyCreator ${OUTPUT_DIR}/point_cloud/iteration_30000/point_cloud.ply ${CHUNK_DIR} ${OUTPUT_DIR}
python train_post.py -s ${CHUNK_DIR} --model_path ${OUTPUT_DIR} --hierarchy ${OUTPUT_DIR}/hierarchy.hier --iterations 15000 --feature_lr 0.0005 --opacity_lr 0.01 --scaling_lr 0.001 --eval
python render_hierarchy.py -s ${CHUNK_DIR} --model_path ${OUTPUT_DIR} --hierarchy ${OUTPUT_DIR}/hierarchy.hier_opt --out_dir ${OUTPUT_DIR} --eval
确保 test.txt 文件存在于所有 sparse/0/
文件夹中。preprocess/copy_file_to_chunks.py
可以帮助将其复制到每个块。
然后, 可以使用 eval
优化整个场景:
python scripts/full_train.py --project_dir ${DATASET_DIR} --extra_training_args '--exposure_lr_init 0.0 --eval'
以下命令会从优化的层次结构中渲染测试集。请注意, 当前实现会将整个层次结构加载到 GPU 内存中。
python render_hierarchy.py -s ${DATASET_DIR} --model_path ${DATASET_DIR}/output --hierarchy ${DATASET_DIR}/output/merged.hier --out_dir ${DATASET_DIR}/output/renders --eval --scaffold_file ${DATASET_DIR}/output/scaffold/point_cloud/iteration_30000
我们通常在评估中禁用曝光优化。如果您想使用它, 可以在测试图像的左半部分优化曝光, 并在右半部分进行评估。要实现这一点, 请从上述命令中删除 --exposure_lr_init 0.0
, 并在所有训练脚本中添加 --train_test_exp
。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号