3DMPPE_ROOTNET_RELEASE

3DMPPE_ROOTNET_RELEASE

单张RGB图像的相机距离感知的3D多人人体姿态估计实现

此项目基于PyTorch实现了3D多人人体姿态估计,兼容多种公开的2D和3D数据集,如Human3.6M、MPII、MS COCO、MuCo-3DHP、MuPoTS-3D和3DPW。其特点包括代码简洁灵活、直观的人体姿态可视化,并支持不同单位系统的适配。项目还提供详细的训练和测试指南,旨在帮助用户在GPU环境下高效运行姿态估计算法。

PyTorch3D姿态估计RootNet多人体姿态估计RGB图像Github开源项目

3DMPPE_ROOTNET_RELEASE 项目介绍

项目背景

3DMPPE_ROOTNET_RELEASE 是一个以 PyTorch 为基础的开源项目,旨在通过单个 RGB 图像进行 3D 多人姿态估计。该项目特别关注相机距离感知的自顶向下方法,致力于在人群中准确估计每个人的 3D 姿态。此项目通过提供 RootNet 部分的实现来支持这一研究成果,最初发表于 2019 年的国际计算机视觉大会(ICCV)。

项目功能

该项目提供以下主要功能:

  1. 实现代码: 提供 PyTorch 语言的实现代码,便于模型的训练和测试。
  2. 数据集兼容性: 支持广泛使用的 2D 和 3D 姿态数据集,如 Human3.6M、MPII、MS COCO 2017、MuCo-3DHP、MuPoTS-3D 以及 3DPW。
  3. 姿态可视化: 提供用于可视化人类姿态的代码,帮助用户理解和分析估计结果。

依赖环境

项目在 Ubuntu 16.04 操作系统下,使用 CUDA 9.0 和 cuDNN 7.1,以及两个 NVIDIA 1080Ti GPU 进行测试。开发使用 Python 3.6.5 和 Anaconda 3。项目需要以下软件依赖:

  • PyTorch
  • CUDA
  • cuDNN
  • Anaconda
  • COCO API

快速演示

用户可以在 demo 文件夹中尝试运行一个简单的演示:

  • 下载预训练的 RootNet 模型。
  • 准备用于测试的图像 input.jpg 和快照。
  • 运行 python demo.py --gpu 0 --test_epoch 18,在 GPU 0 上进行演示。

演示完成后,用户可以看到生成的 output_root_2d.jpg 和相关的 3D 根关节深度信息。

目录结构

项目的基本目录结构如下:

  • data: 包含数据加载代码及与图像和标注目录的软链接。
  • demo: 包含演示代码。
  • common: 包含 3D 多人姿态估计系统的核心代码。
  • main: 包含用于训练或测试网络的高级代码。
  • output: 存储日志、训练模型、可视化输出及测试结果。

数据管理

建议用户将数据下载并整理到 data 目录内。可通过相应的链接获取解析后的数据集,并确保数据格式符合 MS COCO 标准格式。

输出管理

output 文件夹应按如下结构进行管理:

  • log: 存储训练日志文件。
  • model_dump: 保存每个 epoch 的模型检查点。
  • result: 存储测试阶段生成的最终估计文件。
  • vis: 存储可视化结果。

运行步骤

开始

用户可以在 main/config.py 中配置模型设置,包括要使用的数据集、网络骨架和输入尺寸等。其中一个重要的参数是 bbox_real,它决定了数据集中边界框的单位。

训练

main 文件夹中运行:

python train.py --gpu 0-1

在 GPU 0 和 1 上进行网络训练。

测试

将训练好的模型放在 output/model_dump/ 文件夹内。在 main 文件夹中运行:

python test.py --gpu 0-1 --test_epoch 20

在 GPU 0 和 1 上用第 20 轮训练模型进行测试。

结果展示

项目提供了一些预训练模型及相关的测试数据,可以用于验证和评估。对于 Human3.6M 数据集,RootNet 的 MRPE(平均根关节位置误差)为 120.0 毫米;在 MuPoTS-3D 数据集上,AP_25 指标为 31.0%;在 3DPW 数据集上,MRPE 为 0.386 米。

参考文献

RootNet 的研究工作详见以下引文:

@InProceedings{Moon_2019_ICCV_3DMPPE,
  author = {Moon, Gyeongsik and Chang, Juyong and Lee, Kyoung Mu},
  title = {Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image},
  booktitle = {The IEEE Conference on International Conference on Computer Vision (ICCV)},
  year = {2019}
}

编辑推荐精选

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

下拉加载更多