HumanArt

HumanArt

多场景人体数据集助力计算机视觉研究

Human-Art数据集包含50,000张来自20个场景的图像,涵盖自然和人工环境中的2D和3D人体表现。该数据集提供人体边界框、21个2D关键点、自接触关键点和描述文本等标注,旨在推进多场景人体检测、姿态估计和3D重建等任务。Human-Art的多样性有助于提高模型在实际应用中的特征提取和人体理解能力,同时支持跨域应用和可控人体图像生成。

Human-Art人体姿态估计数据集人工智能计算机视觉Github开源项目

Human-Art

本代码库包含以下论文的实现:

Human-Art: 一个连接自然和人工场景的多功能以人为中心的数据集 [项目主页] [论文] [代码] [数据] [视频] <br> 鞠璇<sup>∗12</sup>, 曾爱玲<sup>∗1</sup>, 王佳楠<sup>1</sup>, 徐强<sup>2</sup>, 张磊<sup>1</sup><br> <sup></sup> 同等贡献 <sup>1</sup>国际数字经济研究院 <sup>2</sup>香港中文大学

目录

概述

本文提出了一个大规模数据集Human-Art,旨在解决多场景以人为中心的任务,以弥合自然场景和人工场景之间的差距。它包括20个高质量的人体场景,包括2D表示(黄色虚线框)和3D表示(蓝色实线框)中的自然人和人工人物。

Human-Art 包含:

  • 20 种场景中包含人物形象的 50,000 张图像(5种自然场景、3种2D人工场景和12种2D人工场景)
  • 以人为中心的标注包括人体边界框21个2D人体关键点人体自接触关键点描述文本
  • MSCOCO 和 Human-Art 联合训练的基线人体检测器和人体姿态估计器

Human-Art 针对的任务:

  • 多场景人体检测2D人体姿态估计3D人体网格重建
    • 值得注意的是,使用ED-Pose训练后,在MSCOCO上的结果提高了0.8,表明多场景图像可能有利于真实场景的特征提取和人体理解。
  • 多场景人体图像生成(特别是可控的人体图像生成,例如带有姿态和文本等条件)
  • 跨域人体检测和人体姿态估计

数据集下载

Human-Art 在 CC 许可下可供下载。请填写此表格申请授权用于非商业用途。提交表格后,包含数据集的邮件将立即发送给您。请勿私下分享或传播数据。

为便于使用,Human-Art 采用与 MSCOCO 相同的格式处理。下载后请按以下文件结构保存数据集(我们还包括了 COCO 的文件结构,因为我们将其用于 COCO 和 Human-Art 的联合训练):

|-- data
    |-- HumanArt
        |-- annotations 
            |-- training_coco.json
            |-- training_humanart.json
            |-- training_humanart_coco.json
            |-- training_humanart_cartoon.json
            |-- ...
            |-- validation_coco.json
            |-- validation_humanart.json
            |-- validation_humanart_coco.json
            |-- validation_humanart_cartoon.json
            |-- ...
        |-- images
            |-- 2D_virtual_human
                |-- ...
            |-- 3D_virtual_human
                |-- ...
            |-- real_human
                |-- ...
    |-- coco
        |-- annotations 
        |-- train2017 
        |-- val2017 

注意我们有几种不同的 json 设置:

  • 以 _coco 结尾的(如 training_coco.json)是重新处理的 coco 标注 json 文件(如 person_keypoints_train2017.json),可以与 Human-Art 采用相同格式使用

  • 以 _humanart 结尾的(如 training_humanart.json)是 Human-Art 的标注 json 文件

  • 以 _humanart_coco 结尾的(如 training_humanart_coco.json)是 COCO 和 Human-Art 组合的标注 json 文件

  • 以 _humanart_[scenario] 结尾的(如 training_humanart_cartoon.json)是 Human-Art 特定场景的标注 json 文件

  • HumanArt_validation_detections_AP_H_56_person.json 是用于评估自顶向下姿态估计模型的AP为56的检测结果(类似于MSCOCO中的COCO_val2017_detections_AP_H_56_person.json)

Human-Art 的标注 json 文件描述如下:

{ "info":{xxx}, # Human-Art 的一些基本信息 "images":[ { "file_name": "xxx" # 图像路径(与 COCO 定义相同) "height": xxx, # 图像高度(与 COCO 定义相同) "width": xxx, # 图像宽度(与 COCO 定义相同) "id": xxx, # 图像 id(与 COCO 定义相同) "page_url": "xxx", # 包含该图像的网页链接 "image_url": "xxx", # 图像的网页链接 "picture_name": "xxx", # 图像名称 "author": "xxx", # 图像作者 "description": "xxx", # 图像的文本描述 "category": "xxx" # 图像的场景(如卡通) }, ... ], "annotations":[ { "keypoints":[xxx], # 17个COCO关键点位置(与COCO定义相同) "keypoints_21":[xxx], # 21个Human-Art关键点位置 "self_contact": [xxx], # 自接触关键点,x1,y1,x2,y2... "num_keypoints": xxx, # 17个COCO格式关键点中标注的关键点(非不可见)数量(与COCO定义相同) "num_keypoints_21": xxx, # 21个Human-Art格式关键点中标注的关键点(非不可见)数量 "iscrowd": xxx, # 是否标注(与COCO定义相同) "image_id": xxx, # 图像id(与COCO定义相同) "area": xxx, # 人体区域(与COCO定义相同) "bbox": [xxx], # 人体边界框(与COCO定义相同) "category_id": 1, # 类别id=1表示是人类别(与COCO定义相同) "id": xxx, # 标注id(与COCO定义相同) "annotator": xxx # 标注者id } ], "categories":[] # 类别信息(与COCO定义相同) }

人体姿态估计

在 Human-Art 上训练的人体姿态估计器现已在 MMPosePR 中得到支持。详细用法和模型库可以在 MMPose 的文档中找到:(1) ViTPose, (2) HRNet, 和 (3) RTMPose

要训练和评估人体姿态估计器,请参考 MMPose。由于 MMPose 频繁更新,我们不在本仓库中维护代码库。由于 Human-Art 与 MSCOCO 兼容,您可以使用其数据加载器训练和评估 MMPose 中的任何模型。

支持的模型包括(xx-coco 表示仅在 MSCOCO 上训练,xx-humanart-coco 表示在 Human-Art 和 MSCOCO 上训练):

ViTPose 在 Human-Art 验证数据集上使用真实边界框的结果

使用经典解码器 | 架构 | 输入尺寸 | AP | AP<sup>50</sup> | AP<sup>75</sup> | AR | AR<sup>50</sup> | 检查点 | 日志 | | :-------------------------------------------- | :--------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | ViTPose-S-coco | 256x192 | 0.507 | 0.758 | 0.531 | 0.551 | 0.780 | 检查点 | 日志 | | ViTPose-S-humanart-coco | 256x192 | 0.738 | 0.905 | 0.802 | 0.768 | 0.911 | 检查点 | 日志 | | ViTPose-B-coco | 256x192 | 0.555 | 0.782 | 0.590 | 0.599 | 0.809 | 检查点 | 日志 | | ViTPose-B-humanart-coco | 256x192 | 0.759 | 0.905 | 0.823 | 0.790 | 0.917 | 检查点 | 日志 | | ViTPose-L-coco | 256x192 | 0.637 | 0.838 | 0.689 | 0.677 | 0.859 | 检查点 | 日志 | | ViTPose-L-humanart-coco | 256x192 | 0.789 | 0.916 | 0.845 | 0.819 | 0.929 | 检查点 | 日志 | | ViTPose-H-coco | 256x192 | 0.665 | 0.860 | 0.715 | 0.701 | 0.871 | 检查点 | 日志 | | ViTPose-H-humanart-coco | 256x192 | 0.800 | 0.926 | 0.855 | 0.828 | 0.933 | 检查点 | 日志 |

HRNet在Human-Art验证数据集上使用真实边界框的结果

使用经典解码器 | 架构 | 输入尺寸 | AP | AP<sup>50</sup> | AP<sup>75</sup> | AR | AR<sup>50</sup> | 检查点 | 日志 | | :-------------------------------------------- | :------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | pose_hrnet_w32-coco | 256x192 | 0.533 | 0.771 | 0.562 | 0.574 | 0.792 | 检查点 | 日志 | | pose_hrnet_w32-humanart-coco | 256x192 | 0.754 | 0.906 | 0.812 | 0.783 | 0.916 | 检查点 | 日志 | | pose_hrnet_w48-coco | 256x192 | 0.557 | 0.782 | 0.593 | 0.595 | 0.804 | 检查点 | 日志 | | pose_hrnet_w48-humanart-coco | 256x192 | 0.769 | 0.906 | 0.825 | 0.796 | 0.919 | 检查点 | 日志 |

RTM-Pose在Human-Art验证数据集上使用真实边界框的结果

架构输入尺寸APAP<sup>50</sup>AP<sup>75</sup>ARAR<sup>50</sup>检查点日志
rtmpose-t-coco256x1920.4440.7250.4530.4880.750检查点日志
rtmpose-t-humanart-coco256x1920.6550.8720.7200.6930.890检查点日志
rtmpose-s-coco256x1920.4800.7390.4980.5210.763检查点日志
rtmpose-s-humanart-coco256x1920.6980.8930.7680.7320.903检查点日志
rtmpose-m-coco256x1920.5320.7650.5630.5710.789检查点日志
rtmpose-m-humanart-coco256x1920.7280.8950.7910.7590.906检查点日志
rtmpose-l-coco256x1920.5640.7890.6020.5990.808检查点日志
rtmpose-l-humanart-coco256x1920.7530.9050.8120.7830.915检查点日志

人体检测

在Human-Art上训练的人体检测器现已在MMPose中得到支持,详见此PR。详细用法和模型库可在此处找到。

要训练和评估人体检测器,请参考MMDetection,这是一个基于PyTorch的开源目标检测工具箱,支持多种检测框架,具有更高的效率和准确性。由于MMDetection经常更新,我们不在此仓库中维护代码库。由于Human-Art与MSCOCO兼容,您可以使用其数据加载器来训练和评估MMDetection中的任何模型。

支持的模型包括:

检测配置模型AP<sup><br>下载
RTMDet-tiny46.6检测模型
RTMDet-s50.6检测模型
YOLOX-nano38.9检测模型
YOLOX-tiny47.7检测模型
YOLOX-s54.6检测模型
YOLOX-m59.1检测模型
YOLOX-l60.2检测模型
YOLOX-x61.3检测模型

引用Human-Art

如果您发现这个仓库对您的工作有用,请考虑按以下方式引用:

@inproceedings{ju2023human, title={Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes}, author={Ju, Xuan and Zeng, Ailing and Wang, Jianan and Xu, Qiang and Zhang, Lei}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2023}, }

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多