Human-Art

本代码库包含以下论文的实现:

Human-Art: 一个连接自然和人工场景的多功能以人为中心的数据集 [项目主页] [论文] [代码] [数据] [视频] 鞠璇∗12, 曾爱玲∗1, 王佳楠1, 徐强2, 张磊1 ∗ 同等贡献 1国际数字经济研究院 2香港中文大学

Human-Art

概述

本文提出了一个大规模数据集Human-Art,旨在解决多场景以人为中心的任务,以弥合自然场景和人工场景之间的差距。它包括20个高质量的人体场景,包括2D表示(黄色虚线框)和3D表示(蓝色实线框)中的自然人和人工人物。

Human-Art 包含:

在 20 种场景中包含人物形象的 50,000 张图像(5种自然场景、3种2D人工场景和12种2D人工场景)
以人为中心的标注包括人体边界框、21个2D人体关键点、人体自接触关键点和描述文本
在 MSCOCO 和 Human-Art 联合训练的基线人体检测器和人体姿态估计器

Human-Art 针对的任务:

多场景人体检测、2D人体姿态估计和3D人体网格重建
- 值得注意的是,使用ED-Pose训练后,在MSCOCO上的结果提高了0.8,表明多场景图像可能有利于真实场景的特征提取和人体理解。
多场景人体图像生成(特别是可控的人体图像生成,例如带有姿态和文本等条件)
跨域人体检测和人体姿态估计

数据集下载

Human-Art 在 CC 许可下可供下载。请填写此表格申请授权用于非商业用途。提交表格后,包含数据集的邮件将立即发送给您。请勿私下分享或传播数据。

为便于使用,Human-Art 采用与 MSCOCO 相同的格式处理。下载后请按以下文件结构保存数据集(我们还包括了 COCO 的文件结构,因为我们将其用于 COCO 和 Human-Art 的联合训练):

|-- data
    |-- HumanArt
        |-- annotations 
            |-- training_coco.json
            |-- training_humanart.json
            |-- training_humanart_coco.json
            |-- training_humanart_cartoon.json
            |-- ...
            |-- validation_coco.json
            |-- validation_humanart.json
            |-- validation_humanart_coco.json
            |-- validation_humanart_cartoon.json
            |-- ...
        |-- images
            |-- 2D_virtual_human
                |-- ...
            |-- 3D_virtual_human
                |-- ...
            |-- real_human
                |-- ...
    |-- coco
        |-- annotations 
        |-- train2017 
        |-- val2017

注意我们有几种不同的 json 设置:

以 _coco 结尾的(如 training_coco.json)是重新处理的 coco 标注 json 文件(如 person_keypoints_train2017.json),可以与 Human-Art 采用相同格式使用
以 _humanart 结尾的(如 training_humanart.json)是 Human-Art 的标注 json 文件
以 _humanart_coco 结尾的(如 training_humanart_coco.json)是 COCO 和 Human-Art 组合的标注 json 文件
以 _humanart_[scenario] 结尾的(如 training_humanart_cartoon.json)是 Human-Art 特定场景的标注 json 文件
HumanArt_validation_detections_AP_H_56_person.json 是用于评估自顶向下姿态估计模型的AP为56的检测结果(类似于MSCOCO中的COCO_val2017_detections_AP_H_56_person.json)

Human-Art 的标注 json 文件描述如下:

{
    "info":{xxx}, # Human-Art 的一些基本信息
    "images":[
        {
            "file_name": "xxx" # 图像路径(与 COCO 定义相同)
            "height": xxx, # 图像高度(与 COCO 定义相同)
            "width": xxx, # 图像宽度(与 COCO 定义相同)
            "id": xxx, # 图像 id(与 COCO 定义相同)
            "page_url": "xxx", # 包含该图像的网页链接
            "image_url": "xxx", # 图像的网页链接
            "picture_name": "xxx", # 图像名称
            "author": "xxx", # 图像作者
            "description": "xxx", # 图像的文本描述
            "category": "xxx"  # 图像的场景(如卡通)
        },
        ...
    ],
    "annotations":[
        {
            "keypoints":[xxx], # 17个COCO关键点位置(与COCO定义相同)
            "keypoints_21":[xxx], # 21个Human-Art关键点位置 
            "self_contact": [xxx], # 自接触关键点,x1,y1,x2,y2...
            "num_keypoints": xxx, # 17个COCO格式关键点中标注的关键点(非不可见)数量(与COCO定义相同)
            "num_keypoints_21": xxx, # 21个Human-Art格式关键点中标注的关键点(非不可见)数量
            "iscrowd": xxx, # 是否标注(与COCO定义相同)
            "image_id": xxx, # 图像id(与COCO定义相同)
            "area": xxx, # 人体区域(与COCO定义相同)
            "bbox": [xxx], # 人体边界框(与COCO定义相同)
            "category_id": 1, # 类别id=1表示是人类别(与COCO定义相同)
            "id": xxx, # 标注id(与COCO定义相同)
            "annotator": xxx # 标注者id
        }
    ],
    "categories":[] # 类别信息(与COCO定义相同)
}

人体姿态估计

在 Human-Art 上训练的人体姿态估计器现已在 MMPose 的 PR 中得到支持。详细用法和模型库可以在 MMPose 的文档中找到:(1) ViTPose, (2) HRNet, 和 (3) RTMPose。

要训练和评估人体姿态估计器,请参考 MMPose。由于 MMPose 频繁更新,我们不在本仓库中维护代码库。由于 Human-Art 与 MSCOCO 兼容,您可以使用其数据加载器训练和评估 MMPose 中的任何模型。

支持的模型包括(xx-coco 表示仅在 MSCOCO 上训练,xx-humanart-coco 表示在 Human-Art 和 MSCOCO 上训练):

ViTPose 在 Human-Art 验证数据集上使用真实边界框的结果

使用经典解码器 | 架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 | | :-------------------------------------------- | :--------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | ViTPose-S-coco | 256x192 | 0.507 | 0.758 | 0.531 | 0.551 | 0.780 | 检查点 | 日志 | | ViTPose-S-humanart-coco | 256x192 | 0.738 | 0.905 | 0.802 | 0.768 | 0.911 | 检查点 | 日志 | | ViTPose-B-coco | 256x192 | 0.555 | 0.782 | 0.590 | 0.599 | 0.809 | 检查点 | 日志 | | ViTPose-B-humanart-coco | 256x192 | 0.759 | 0.905 | 0.823 | 0.790 | 0.917 | 检查点 | 日志 | | ViTPose-L-coco | 256x192 | 0.637 | 0.838 | 0.689 | 0.677 | 0.859 | 检查点 | 日志 | | ViTPose-L-humanart-coco | 256x192 | 0.789 | 0.916 | 0.845 | 0.819 | 0.929 | 检查点 | 日志 | | ViTPose-H-coco | 256x192 | 0.665 | 0.860 | 0.715 | 0.701 | 0.871 | 检查点 | 日志 | | ViTPose-H-humanart-coco | 256x192 | 0.800 | 0.926 | 0.855 | 0.828 | 0.933 | 检查点 | 日志 |

HRNet在Human-Art验证数据集上使用真实边界框的结果

使用经典解码器 | 架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 | | :-------------------------------------------- | :------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | pose_hrnet_w32-coco | 256x192 | 0.533 | 0.771 | 0.562 | 0.574 | 0.792 | 检查点 | 日志 | | pose_hrnet_w32-humanart-coco | 256x192 | 0.754 | 0.906 | 0.812 | 0.783 | 0.916 | 检查点 | 日志 | | pose_hrnet_w48-coco | 256x192 | 0.557 | 0.782 | 0.593 | 0.595 | 0.804 | 检查点 | 日志 | | pose_hrnet_w48-humanart-coco | 256x192 | 0.769 | 0.906 | 0.825 | 0.796 | 0.919 | 检查点 | 日志 |

RTM-Pose在Human-Art验证数据集上使用真实边界框的结果

架构	输入尺寸	AP	AP<sup>50</sup>	AP<sup>75</sup>	AR	AR<sup>50</sup>	检查点	日志
rtmpose-t-coco	256x192	0.444	0.725	0.453	0.488	0.750	检查点	日志
rtmpose-t-humanart-coco	256x192	0.655	0.872	0.720	0.693	0.890	检查点	日志
rtmpose-s-coco	256x192	0.480	0.739	0.498	0.521	0.763	检查点	日志
rtmpose-s-humanart-coco	256x192	0.698	0.893	0.768	0.732	0.903	检查点	日志
rtmpose-m-coco	256x192	0.532	0.765	0.563	0.571	0.789	检查点	日志
rtmpose-m-humanart-coco	256x192	0.728	0.895	0.791	0.759	0.906	检查点	日志
rtmpose-l-coco	256x192	0.564	0.789	0.602	0.599	0.808	检查点	日志
rtmpose-l-humanart-coco	256x192	0.753	0.905	0.812	0.783	0.915	检查点	日志

人体检测

在Human-Art上训练的人体检测器现已在MMPose中得到支持，详见此PR。详细用法和模型库可在此处找到。

要训练和评估人体检测器，请参考MMDetection，这是一个基于PyTorch的开源目标检测工具箱，支持多种检测框架，具有更高的效率和准确性。由于MMDetection经常更新，我们不在此仓库中维护代码库。由于Human-Art与MSCOCO兼容，您可以使用其数据加载器来训练和评估MMDetection中的任何模型。

支持的模型包括：

检测配置	模型AP<sup><br>	下载
RTMDet-tiny	46.6	检测模型
RTMDet-s	50.6	检测模型
YOLOX-nano	38.9	检测模型
YOLOX-tiny	47.7	检测模型
YOLOX-s	54.6	检测模型
YOLOX-m	59.1	检测模型
YOLOX-l	60.2	检测模型
YOLOX-x	61.3	检测模型

引用Human-Art

如果您发现这个仓库对您的工作有用，请考虑按以下方式引用：

@inproceedings{ju2023human,
    title={Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes},
    author={Ju, Xuan and Zeng, Ailing and Wang, Jianan and Xu, Qiang and Zhang, Lei},
    booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
    year={2023},
}