3DMPPE_ROOTNET_RELEASE 是一个以 PyTorch 为基础的开源项目,旨在通过单个 RGB 图像进行 3D 多人姿态估计。该项目特别关注相机距离感知的自顶向下方法,致力于在人群中准确估计每个人的 3D 姿态。此项目通过提供 RootNet 部分的实现来支持这一研究成果,最初发表于 2019 年的国际计算机视觉大会(ICCV)。
该项目提供以下主要功能:
项目在 Ubuntu 16.04 操作系统下,使用 CUDA 9.0 和 cuDNN 7.1,以及两个 NVIDIA 1080Ti GPU 进行测试。开发使用 Python 3.6.5 和 Anaconda 3。项目需要以下软件依赖:
用户可以在 demo 文件夹中尝试运行一个简单的演示:
input.jpg 和快照。python demo.py --gpu 0 --test_epoch 18,在 GPU 0 上进行演示。演示完成后,用户可以看到生成的 output_root_2d.jpg 和相关的 3D 根关节深度信息。
项目的基本目录结构如下:
建议用户将数据下载并整理到 data 目录内。可通过相应的链接获取解析后的数据集,并确保数据格式符合 MS COCO 标准格式。
output 文件夹应按如下结构进行管理:
用户可以在 main/config.py 中配置模型设置,包括要使用的数据集、网络骨架和输入尺寸等。其中一个重要的参数是 bbox_real,它决定了数据集中边界框的单位。
在 main 文件夹中运行:
python train.py --gpu 0-1
在 GPU 0 和 1 上进行网络训练。
将训练好的模型放在 output/model_dump/ 文件夹内。在 main 文件夹中运行:
python test.py --gpu 0-1 --test_epoch 20
在 GPU 0 和 1 上用第 20 轮训练模型进行测试。
项目提供了一些预训练模型及相关的测试数据,可以用于验证和评估。对于 Human3.6M 数据集,RootNet 的 MRPE(平均根关节位置误差)为 120.0 毫米;在 MuPoTS-3D 数据集上,AP_25 指标为 31.0%;在 3DPW 数据集上,MRPE 为 0.386 米。
RootNet 的研究工作详见以下引文:
@InProceedings{Moon_2019_ICCV_3DMPPE,
author = {Moon, Gyeongsik and Chang, Juyong and Lee, Kyoung Mu},
title = {Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image},
booktitle = {The IEEE Conference on International Conference on Computer Vision (ICCV)},
year = {2019}
}