TRAM: 从真实场景视频中捕捉3D人体全局轨迹与运动

TRAM:从真实场景视频中捕捉3D人体全局轨迹与运动

在计算机视觉和人机交互领域,准确捕捉和重建真实场景中的人体运动一直是一个具有挑战性的问题。近日,来自宾夕法尼亚大学的研究团队提出了一种名为TRAM(Trajectory and Motion of 3D Humans)的新方法,可以从普通视频中重建3D人体的全局轨迹和运动,为这一问题提供了一个有效的解决方案。

TRAM的工作原理

TRAM是一个集成了多项先进技术的完整系统,主要包括以下几个核心步骤:

运行改进的DROID-SLAM算法,同时检测和跟踪视频中的人体。
使用VIMO(Video Motion Capture)算法进行4D人体捕捉。
将上述步骤的结果整合,并渲染输出最终的视频。

通过这些步骤,TRAM能够准确地捕捉视频中人体的3D姿态和运动轨迹,并将其映射到全局坐标系中。

TRAM示例图

TRAM的主要特点

全局一致性: TRAM不仅能捕捉单帧的人体姿态,还能保持整个视频序列中人体运动的全局一致性。
适应复杂场景: 该方法可以处理各种复杂的真实场景,包括动态背景、多人交互等情况。
高精度重建: 通过集成多种先进算法,TRAM能够实现高精度的3D人体重建。
易于使用: 研究团队提供了详细的使用说明和示例代码,使得其他研究人员和开发者可以方便地使用和扩展TRAM。

TRAM的应用前景

TRAM的出现为多个领域带来了新的可能性:

电影和游戏制作: 可以用于捕捉演员的真实动作,提高CG角色的真实感。
运动分析: 在体育训练和医疗康复中,可以用于精确分析运动员或患者的动作。
增强现实: 为AR应用提供更准确的人体姿态估计,提升交互体验。
安防监控: 帮助识别和分析复杂场景中的人体行为。
人机交互: 为新一代的人机交互界面提供更精确的人体动作输入。

安装和使用TRAM

研究团队在GitHub上开源了TRAM的代码,并提供了详细的安装和使用说明。以下是安装TRAM的基本步骤:

# 克隆仓库
git clone --recursive https://github.com/yufu-wang/tram

# 创建并激活conda环境
conda create -n tram python=3.10 -y
conda activate tram
bash install.sh

# 编译DROID-SLAM
cd thirdparty/DROID-SLAM
python setup.py install
cd ../..

安装完成后,用户可以按照以下步骤处理视频:

# 1. 运行Masked Droid SLAM
python scripts/estimate_camera.py --video "./example_video.mov" 

# 2. 运行4D人体捕捉
python scripts/estimate_humans.py --video "./example_video.mov"

# 3. 整合结果并渲染输出视频
python scripts/visualize_tram.py --video "./example_video.mov"

TRAM的技术细节

TRAM的成功离不开多项关键技术的集成:

改进的DROID-SLAM: 在原有SLAM算法的基础上,研究团队增加了对人体区域的遮罩处理,提高了在动态场景中的稳定性。
VIMO算法: 这是一个专门用于视频中人体运动捕捉的算法,能够准确地估计3D人体姿态。
ZoeDepth: 用于预测视频中的深度信息,帮助提高3D重建的精度。
Segment-Anything和DEVA-Track-Anything: 这些最新的分割和跟踪算法帮助TRAM更好地处理复杂场景中的人体检测和跟踪问题。