WHAM：利用准确的3D运动重建世界坐标系下的人体

https://github.com/yohanshin/WHAM/assets/46889727/da4602b4-0597-4e64-8da4-ab06931b23ee

简介

这个仓库是WHAM: 利用准确的3D运动重建世界坐标系下的人体的官方Pytorch实现。欲了解更多信息，请访问我们的项目页面。

安装

详细信息请参见安装。

快速演示

<img src="https://i.imgur.com/QCojoJk.png" width="30"> WHAM演示的Google Colab现已可用

注册

要下载SMPL身体模型（中性、女性和男性），您需要注册SMPL和SMPLify。在获取演示数据时，将使用这两个主页的用户名和密码。

接下来，运行以下脚本以获取演示数据。该脚本将下载所有必需的依赖项，包括训练好的模型和演示视频。

bash fetch_demo_data.sh

您可以尝试一个示例视频：

python demo.py --video examples/IMG_9732.mov --visualize

我们假设相机焦距遵循CLIFF。您可以为SLAM指定已知的相机内参[fx fy cx cy]，如下面的演示示例：

python demo.py --video examples/drone_video.mp4 --calib examples/drone_calib.txt --visualize

如果您只想获取相机坐标系下的运动，可以跳过SLAM。您可以这样运行：

python demo.py --video examples/IMG_9732.mov --visualize --estimate_local_only

您可以使用Temporal SMPLify作为后处理步骤来进一步优化WHAM的结果。这将允许更好的2D对齐以及3D精度。您只需在运行演示时添加--run_smplify标志即可。

Docker

详细信息请参考Docker。

Python API

详细信息请参考API。

数据集

详细信息请参见数据集。

评估

# 在3DPW数据集上评估
python -m lib.eval.evaluate_3dpw --cfg configs/yamls/demo.yaml TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar

# 在RICH数据集上评估
python -m lib.eval.evaluate_rich --cfg configs/yamls/demo.yaml TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar

# 在EMDB数据集上评估（同时计算W-MPJPE和WA-MPJPE）
python -m lib.eval.evaluate_emdb --cfg configs/yamls/demo.yaml --eval-split 1 TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar   # EMDB 1

python -m lib.eval.evaluate_emdb --cfg configs/yamls/demo.yaml --eval-split 2 TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar   # EMDB 2

训练

WHAM训练包括两个不同的阶段：(1)通过AMASS数据集进行2D到SMPL的提升，以及(2)使用视频数据集进行特征集成的微调。请参见数据集以预处理训练数据集。

第1阶段

python train.py --cfg configs/yamls/stage1.yaml

第2阶段

训练第2阶段需要第1阶段的预训练结果。您可以使用您的预训练结果，或从Google Drive下载权重并保存为checkpoints/wham_stage1.tar.pth。

python train.py --cfg configs/yamls/stage2.yaml TRAIN.CHECKPOINT <PATH-TO-STAGE1-RESULTS>

使用BEDLAM进行训练

待定

致谢

我们衷心感谢Hongwei Yi和Silvia Zuffi的讨论和校对。本工作的部分内容是在Soyong Shin在马克斯·普朗克智能系统研究所实习期间完成的。

基本实现大量借鉴了VIBE和TCMR。我们使用ViTPose进行2D关键点检测，使用DPVO和DROID-SLAM提取相机运动。请访问他们的官方网站了解更多详情。

待办事项

数据预处理
训练实现
Colab演示发布
自定义视频演示

引用

@InProceedings{shin2023wham,  
title={WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion},
author={Shin, Soyong and Kim, Juyong and Halilaj, Eni and Black, Michael J.},  
booktitle={Computer Vision and Pattern Recognition (CVPR)},  
year={2024}  
}