AbHuman

Name: AbHuman
Creator: 中山大学、穆罕默德·本·扎耶德人工智能大学、华为诺亚方舟实验室、西安交通大学、阿拉伯联合酋长国大学
Published: 2024-07-09 23:14:41
License: 暂无描述

arXiv2024-07-09 更新2024-07-12 收录

下载链接：

https://github.com/Enderfga/HumanRefiner

下载链接

链接失效反馈

官方服务：

资源简介：

AbHuman数据集由中山大学等机构创建，专注于合成人类图像中的解剖异常，包含56,000张图像，每张图像详细标注了147,000个人类异常实例，分为18个细分类别。该数据集通过精心设计的收集和标注流程创建，旨在提高生成模型对人类异常的识别和处理能力。AbHuman数据集主要应用于改善文本到图像生成模型中的人类图像质量，特别是在处理肢体异常和提高图像真实性方面。

AbHuman dataset was developed by Sun Yat-sen University and other institutions, focusing on anatomical abnormalities in synthetic human images. It includes 56,000 images, each annotated with 147,000 detailed human abnormality instances that are classified into 18 fine-grained categories. The dataset was constructed via a meticulously designed collection and annotation pipeline, with the objective of enhancing generative models' ability to recognize and handle human anatomical abnormalities. The AbHuman dataset is primarily utilized to improve the quality of human images in text-to-image generative models, particularly in addressing limb abnormalities and boosting the authenticity of generated images.

提供机构：

中山大学、穆罕默德·本·扎耶德人工智能大学、华为诺亚方舟实验室、西安交通大学、阿拉伯联合酋长国大学

创建时间：

2024-07-09

原始信息汇总

HumanRefiner 数据集概述

简介

HumanRefiner 项目引入了 AbHuman，这是首个专注于解剖异常的大规模基准数据集。该数据集包含 56K 张合成的人类图像，每张图像标注了 147K 个人类异常，分为 18 个不同类别。基于此，我们开发了 HumanRefiner，一种新颖的即插即用方法，用于从粗到细的异常人类精炼。

数据

数据集可在 Hugging Face 上获取：HumanRefiner 数据集。

下载数据集的命令如下： bash git lfs install git clone https://huggingface.co/datasets/Enderfga/HumanRefiner

下载后，解压训练和验证数据集： bash tar -xzf train.zip tar -xzf val.zip

标注示例

以下是 AbHuman 数据集中类别定义的详细说明，并附有可视化示例：

引用

如果您在研究中使用了我们的工作，请引用我们的论文： bibtex @misc{fang2024humanrefinerbenchmarkingabnormalhuman, title={HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance}, author={Guian Fang and Wenbiao Yan and Yuanfan Guo and Jianhua Han and Zutao Jiang and Hang Xu and Shengcai Liao and Xiaodan Liang}, year={2024}, eprint={2407.06937}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.06937}, }

搜集汇总

数据集介绍

构建方式

AbHuman数据集的构建方式是通过收集大量基于文本描述生成的人体图像，然后对这些图像进行异常标注。首先，从Laion-5B数据集和Human-Art数据集中提取了与人体相关的文本描述，并使用ChatGPT 3.5生成了额外的文本描述。接着，使用SDXL模型根据这些文本描述生成人体图像。最后，通过ResNet50模型过滤掉非人体图像，并由人工标注者对剩余的56,000张图像进行详细标注，包括18个不同类别的人体异常，共计147,000个异常实例。

特点

AbHuman数据集的特点在于它是一个专注于人体解剖异常的大规模合成数据集。它包含56,000张合成的人体图像，每张图像都标注有详细的边界框级别的标签，标记了147,000个不同类别的人体异常。这个数据集不仅涵盖了正常人体图像，还包括了各种异常情况，如头部、颈部、身体、手臂、手部、腿部和足部的异常。这使得AbHuman数据集成为研究人体图像生成和异常识别的理想工具。

使用方法

AbHuman数据集的使用方法包括直接用于提供关于人体异常的知识，通过异常描述将知识整合到扩散模型中。此外，还可以开发一个异常评分器，对生成的图像进行反馈，区分正常和异常图像，从而提供对异常的定量评估。对于文本到图像的生成模型，可以使用AbHuman数据集进行训练，以便模型能够生成更准确和真实的人体图像。

背景与挑战

背景概述

在近年来，文本到图像的扩散模型在条件图像生成方面取得了显著的进展。然而，这些模型在渲染包含人类的图像时通常难以准确呈现，导致肢体扭曲和其他异常。这一问题主要源于扩散模型中对肢体质量的不足识别和评估。为了解决这个问题，我们引入了AbHuman，这是第一个专注于解剖异常的大型合成人类基准。该基准包括56K合成的人类图像，每个图像都带有详细的边界框级别标签，标记了147K个人类异常，分布在18个不同的类别中。基于此，可以建立对人类异常的识别，从而通过传统技术（如负面提示和指导）增强图像生成。为了进一步提高改进，我们提出了HumanRefiner，这是一种新的即插即用方法，用于通过粗到细的姿态可逆指导对文本到图像生成中的人类异常进行细化。在AbHuman基准上的实验结果表明，HumanRefiner显著减少了生成差异，与最先进的开源生成器SDXL相比，肢体质量提高了2.9倍，与DALL-E 3相比，人类评估提高了1.4倍。我们的数据和代码可在https://github.com/Enderfga/HumanRefiner上获得。

当前挑战

文本到图像扩散模型在生成包含人类的图像时，通常会面临肢体扭曲和其他异常的问题。这些挑战主要源于扩散模型中对肢体质量的不足识别和评估。为了解决这些问题，我们引入了AbHuman，这是第一个专注于解剖异常的大型合成人类基准。该基准包括56K合成的人类图像，每个图像都带有详细的边界框级别标签，标记了147K个人类异常，分布在18个不同的类别中。基于此，可以建立对人类异常的识别，从而通过传统技术（如负面提示和指导）增强图像生成。为了进一步提高改进，我们提出了HumanRefiner，这是一种新的即插即用方法，用于通过粗到细的姿态可逆指导对文本到图像生成中的人类异常进行细化。在AbHuman基准上的实验结果表明，HumanRefiner显著减少了生成差异，与最先进的开源生成器SDXL相比，肢体质量提高了2.9倍，与DALL-E 3相比，人类评估提高了1.4倍。

常用场景

经典使用场景

AbHuman数据集最经典的使用场景是作为基准数据集，用于评估和提升文本到图像生成模型中人类图像生成的质量。通过提供详细的人体异常标注，AbHuman允许研究者测试和优化模型在处理复杂人体结构和异常特征方面的能力。此外，该数据集还用于训练和评估异常检测器，这些检测器能够识别和量化生成图像中的异常肢体，从而指导文本到图像生成过程。

衍生相关工作

AbHuman数据集衍生了HumanRefiner，这是一种新颖的插件式方法，用于通过姿势可逆引导进行人体异常的粗细粒度细化。HumanRefiner利用自诊断过程来检测和纠正与粗粒度异常人体姿势和细粒度异常级别相关的问题，从而促进姿势可逆扩散生成。实验结果表明，与最先进的开源生成器SDXL相比，HumanRefiner显著降低了生成差异，肢体质量提高了2.9倍，与DALL-E 3相比，人体评估提高了1.4倍。

数据集最近研究