本代码库包含以下论文的实现:
Human-Art: 一个连接自然和人工场景的多功能以人为中心的数据集 [项目主页] [论文] [代码] [数据] [视频] <br> 鞠璇<sup>∗12</sup>, 曾爱玲<sup>∗1</sup>, 王佳楠<sup>1</sup>, 徐强<sup>2</sup>, 张磊<sup>1</sup><br> <sup>∗</sup> 同等贡献 <sup>1</sup>国际数字经济研究院 <sup>2</sup>香港中文大学
目录
本文提出了一个大规模数据集Human-Art,旨在解决多场景以人为中心的任务,以弥合自然场景和人工场景之间的差距。它包括20个高质量的人体场景,包括2D表示(黄色虚线框)和3D表示(蓝色实线框)中的自然 人和人工人物。
Human-Art 包含:
20 种场景
中包含人物形象的 50,000
张图像(5种自然场景、3种2D人工场景和12种2D人工场景)人体边界框
、21个2D人体关键点
、人体自接触关键点
和描述文本
Human-Art 针对的任务:
人体检测
、2D人体姿态估计
和3D人体网格重建
人体图像生成
(特别是可控
的人体图像生成,例如带有姿态和文本等条件)跨域
人体检测和人体姿态估计Human-Art 在 CC 许可下可供下载。请填写此表格申请授权用于非商业用途。提交表格后,包含数据集的邮件将立即发送给您。请勿私下分享或传播数据。
为便于使用,Human-Art 采用与 MSCOCO 相同的格式处理。下载后请按以下文件结构保存数据集(我们还包括了 COCO 的文件结构,因为我们将其用于 COCO 和 Human-Art 的联合训练):
|-- data
|-- HumanArt
|-- annotations
|-- training_coco.json
|-- training_humanart.json
|-- training_humanart_coco.json
|-- training_humanart_cartoon.json
|-- ...
|-- validation_coco.json
|-- validation_humanart.json
|-- validation_humanart_coco.json
|-- validation_humanart_cartoon.json
|-- ...
|-- images
|-- 2D_virtual_human
|-- ...
|-- 3D_virtual_human
|-- ...
|-- real_human
|-- ...
|-- coco
|-- annotations
|-- train2017
|-- val2017
注意我们有几种不同的 json 设置:
以 _coco 结尾的(如 training_coco.json)是重新处理的 coco 标注 json 文件(如 person_keypoints_train2017.json),可以与 Human-Art 采用相同格式使用
以 _humanart 结尾的(如 training_humanart.json)是 Human-Art 的标注 json 文件
以 _humanart_coco 结尾的(如 training_humanart_coco.json)是 COCO 和 Human-Art 组合的标注 json 文件
以 _humanart_[scenario] 结尾的(如 training_humanart_cartoon.json)是 Human-Art 特定场景的标注 json 文件
HumanArt_validation_detections_AP_H_56_person.json 是用于评估自顶向下姿态估计模型的AP为56的检测结果(类似于MSCOCO中的COCO_val2017_detections_AP_H_56_person.json)
Human-Art 的标注 json 文件描述如下:
{ "info":{xxx}, # Human-Art 的一些基本信息 "images":[ { "file_name": "xxx" # 图像路径(与 COCO 定义相同) "height": xxx, # 图像高度(与 COCO 定义相同) "width": xxx, # 图像宽度(与 COCO 定义相同) "id": xxx, # 图像 id(与 COCO 定义相同) "page_url": "xxx", # 包含该图像的网页链接 "image_url": "xxx", # 图像的网页链接 "picture_name": "xxx", # 图像名称 "author": "xxx", # 图像作者 "description": "xxx", # 图像的文本描述 "category": "xxx" # 图像的场景(如卡通) }, ... ], "annotations":[ { "keypoints":[xxx], # 17个COCO关键点位置(与COCO定义相同) "keypoints_21":[xxx], # 21个Human-Art关键点位置 "self_contact": [xxx], # 自接触关键点,x1,y1,x2,y2... "num_keypoints": xxx, # 17个COCO格式关键点中标注的关键点(非不可见)数量(与COCO定义相同) "num_keypoints_21": xxx, # 21个Human-Art格式关键点中标注的关键点(非不可见)数量 "iscrowd": xxx, # 是否标注(与COCO定义相同) "image_id": xxx, # 图像id(与COCO定义相同) "area": xxx, # 人体区域(与COCO定义相同) "bbox": [xxx], # 人体边界框(与COCO定义相同) "category_id": 1, # 类别id=1表示是人类别(与COCO定义相同) "id": xxx, # 标注id(与COCO定义相同) "annotator": xxx # 标注者id } ], "categories":[] # 类别信息(与COCO定义相同) }
在 Human-Art 上训练的人体姿态估计器现已在 MMPose 的 PR 中得到支持。详细用法和模型库可以在 MMPose 的文档中找到:(1) ViTPose, (2) HRNet, 和 (3) RTMPose。
要训练和评估人体姿态估计器,请参考 MMPose。由于 MMPose 频繁更新,我们不在本仓库中维护代码库。由于 Human-Art 与 MSCOCO 兼容,您可以使用其数据加载器训练和评估 MMPose 中的任何模型。
支持的模型包括(xx-coco 表示仅在 MSCOCO 上训练,xx-humanart-coco 表示在 Human-Art 和 MSCOCO 上训练):
ViTPose 在 Human-Art 验证数据集上使用真实边界框的结果
使用经典解码器 | 架构 | 输入尺寸 | AP | AP<sup>50</sup> | AP<sup>75</sup> | AR | AR<sup>50</sup> | 检查点 | 日志 | | :-------------------------------------------- | :--------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | ViTPose-S-coco | 256x192 | 0.507 | 0.758 | 0.531 | 0.551 | 0.780 | 检查点 | 日志 | | ViTPose-S-humanart-coco | 256x192 | 0.738 | 0.905 | 0.802 | 0.768 | 0.911 | 检查点 | 日志 | | ViTPose-B-coco | 256x192 | 0.555 | 0.782 | 0.590 | 0.599 | 0.809 | 检查点 | 日志 | | ViTPose-B-humanart-coco | 256x192 | 0.759 | 0.905 | 0.823 | 0.790 | 0.917 | 检查点 | 日志 | | ViTPose-L-coco | 256x192 | 0.637 | 0.838 | 0.689 | 0.677 | 0.859 | 检查点 | 日志 | | ViTPose-L-humanart-coco | 256x192 | 0.789 | 0.916 | 0.845 | 0.819 | 0.929 | 检查点 | 日志 | | ViTPose-H-coco | 256x192 | 0.665 | 0.860 | 0.715 | 0.701 | 0.871 | 检查点 | 日志 | | ViTPose-H-humanart-coco | 256x192 | 0.800 | 0.926 | 0.855 | 0.828 | 0.933 | 检查点 | 日志 |
HRNet在Human-Art验证数据集上使用真实边界框的结果
使用经典解码器 | 架构 | 输入尺寸 | AP | AP<sup>50</sup> | AP<sup>75</sup> | AR | AR<sup>50</sup> | 检查点 | 日志 | | :-------------------------------------------- | :------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | pose_hrnet_w32-coco | 256x192 | 0.533 | 0.771 | 0.562 | 0.574 | 0.792 | 检查点 | 日志 | | pose_hrnet_w32-humanart-coco | 256x192 | 0.754 | 0.906 | 0.812 | 0.783 | 0.916 | 检查点 | 日志 | | pose_hrnet_w48-coco | 256x192 | 0.557 | 0.782 | 0.593 | 0.595 | 0.804 | 检查点 | 日志 | | pose_hrnet_w48-humanart-coco | 256x192 | 0.769 | 0.906 | 0.825 | 0.796 | 0.919 | 检查点 | 日志 |
RTM-Pose在Human-Art验证数据集上使用真实边界框的结果
架构 | 输入尺寸 | AP | AP<sup>50</sup> | AP<sup>75</sup> | AR | AR<sup>50</sup> | 检查点 | 日志 |
---|---|---|---|---|---|---|---|---|
rtmpose-t-coco | 256x192 | 0.444 | 0.725 | 0.453 | 0.488 | 0.750 | 检查点 | 日志 |
rtmpose-t-humanart-coco | 256x192 | 0.655 | 0.872 | 0.720 | 0.693 | 0.890 | 检查点 | 日志 |
rtmpose-s-coco | 256x192 | 0.480 | 0.739 | 0.498 | 0.521 | 0.763 | 检查点 | 日志 |
rtmpose-s-humanart-coco | 256x192 | 0.698 | 0.893 | 0.768 | 0.732 | 0.903 | 检查点 | 日志 |
rtmpose-m-coco | 256x192 | 0.532 | 0.765 | 0.563 | 0.571 | 0.789 | 检查点 | 日志 |
rtmpose-m-humanart-coco | 256x192 | 0.728 | 0.895 | 0.791 | 0.759 | 0.906 | 检查点 | 日志 |
rtmpose-l-coco | 256x192 | 0.564 | 0.789 | 0.602 | 0.599 | 0.808 | 检查点 | 日志 |
rtmpose-l-humanart-coco | 256x192 | 0.753 | 0.905 | 0.812 | 0.783 | 0.915 | 检查点 | 日志 |
在Human-Art上训练的人体检测器现已在MMPose中得到支持,详见此PR。详细用法和模型库可在此处找到。
要训练和评估人体检测器,请参考MMDetection,这是一个基于PyTorch的开源目标检测工具箱,支持多种检测框架,具有更高的效率和准确性。由于MMDetection经常更新,我们不在此仓库中维护代码库。由于Human-Art与MSCOCO兼容,您可以使用其数据加载器来训练和评估MMDetection中的任何模型。
支持的模型包括:
检测配置 | 模型AP<sup><br> | 下载 |
---|---|---|
RTMDet-tiny | 46.6 | 检测模型 |
RTMDet-s | 50.6 | 检测模型 |
YOLOX-nano | 38.9 | 检测模型 |
YOLOX-tiny | 47.7 | 检测模型 |
YOLOX-s | 54.6 | 检测模型 |
YOLOX-m | 59.1 | 检测模型 |
YOLOX-l | 60.2 | 检测模型 |
YOLOX-x | 61.3 | 检测模型 |
如果您发现这个仓库对您的工作有用,请考虑按以下方式引用:
@inproceedings{ju2023human, title={Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes}, author={Ju, Xuan and Zeng, Ailing and Wang, Jianan and Xu, Qiang and Zhang, Lei}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2023}, }
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个 基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制 作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件 系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号