huanngzh/DeepFashion-MultiModal-Parts2Whole

Name: huanngzh/DeepFashion-MultiModal-Parts2Whole
Creator: huanngzh
Published: 2024-05-26 15:45:43
License: 暂无描述

Hugging Face2024-05-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/huanngzh/DeepFashion-MultiModal-Parts2Whole

下载链接

链接失效反馈

官方服务：

资源简介：

该人类图像数据集包含约41,500对参考-目标图像对。每对图像包括多个参考图像，涵盖人体姿态图像（如OpenPose、Human Parsing、DensePose）、人体外观的不同方面（如头发、面部、衣服、鞋子）及其短文本标签，以及一个目标图像，展示同一人穿着相同服装但不同姿态的图像，并附有文本描述。

提供机构：

huanngzh

原始信息汇总

数据集概述

数据集名称

DeepFashion MultiModal Parts2Whole

许可协议

Apache-2.0

任务类别

文本到图像
图像到图像

数据集描述

该数据集包含约41,500对参考-目标图像对。每对数据包括多个参考图像，这些图像涵盖了人体姿态图像（如OpenPose、Human Parsing、DensePose）、人体外观的各个方面（如头发、面部、衣物、鞋子）及其简短文本标签，以及一个目标图像，展示同一人物（ID）穿着相同服装但姿态不同，并附有文本描述。

数据集来源

仓库: https://github.com/huanngzh/Parts2Whole
论文: https://arxiv.org/pdf/2404.15267

数据集结构

数据集提供训练和测试的jsonl文件，用于索引参考和目标图像。每个jsonl文件中的样本包含以下字段：

target_id: 目标人物在原始DeepFashion-MultiModal数据集中的ID
reference_id: 参考人物在原始DeepFashion-MultiModal数据集中的ID
target: 目标人物图像的相对路径
caption: 目标人物图像的文本描述
appearance: 人体外观各部分的图像路径
mask: 人体外观各部分的掩码图像路径
structure: 人体结构图像路径

数据集创建

源数据

数据集基于DeepFashion MultiModal数据集构建，该数据集是一个大规模高质量的人体数据集，具有丰富的多模态注释。

数据收集和处理

数据集从DeepFashion-MultiModal数据集中构建了约41,500对参考-目标图像对。处理过程中，通过提取面部ID特征并使用余弦相似度评估图像ID特征对的相似性，清洗了ID数据。使用DWPose生成姿态图像，并根据人体解析文件将人体图像裁剪成各个部分。应用Real-ESRGAN增强图像分辨率，以获得更清晰的参考图像。文本描述用作图像的标题。

引用信息

@article{huang2024parts2whole, title={From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation}, author={Huang, Zehuan and Fan, Hongxing and Wang, Lipeng and Sheng, Lu}, journal={arXiv preprint arXiv:2404.15267}, year={2024} }

@article{jiang2022text2human, title={Text2Human: Text-Driven Controllable Human Image Generation}, author={Jiang, Yuming and Yang, Shuai and Qiu, Haonan and Wu, Wayne and Loy, Chen Change and Liu, Ziwei}, journal={ACM Transactions on Graphics (TOG)}, volume={41}, number={4}, articleno={162}, pages={1--11}, year={2022}, publisher={ACM New York, NY, USA}, doi={10.1145/3528223.3530104}, }

搜集汇总

数据集介绍

构建方式

在时尚图像生成领域，构建高质量的多模态数据集对于推动可控人像生成研究至关重要。DeepFashion-MultiModal-Parts2Whole数据集源于开源的DeepFashion-MultiModal数据集，通过精心设计的流程构建了约41,500个参考-目标对。其构建过程首先利用InsightFace提取面部特征并计算余弦相似度，以清洗原始数据中存在的身份标签噪声，确保同一身份标签下的图像确实对应相同个体。随后，借助DWPose生成每张图像的姿态图，并依据人体解析文件将人体图像裁剪为不同部位。针对裁剪后部分图像分辨率较低的问题，采用Real-ESRGAN进行超分辨率增强，从而获得清晰的参考图像。最终，选取穿着相同服装、具有相同清洗后身份但姿态不同的图像，组合成以多部位图像为参考、另一姿态完整图像为目标的配对数据，形成了包含约40,000个训练对和1,500个测试对的结构化集合。

特点

该数据集的核心特征在于其精细的多模态分解与对齐结构，为可控人像生成提供了丰富的控制维度。每个数据样本不仅包含目标人物的完整图像及其对应的文本描述，还系统性地整合了多组参考信息：在结构层面，提供了DensePose和OpenPose两种人体姿态表征；在外观层面，则分解为上身衣物、下身衣物、全身衣物、头发或头饰、面部及鞋子等多个部位的独立图像及其对应的掩码图。这种“部分到整体”的架构使得研究者能够从局部外观细节和全局身体结构两个维度对生成过程进行细粒度控制。数据集中的所有参考与目标图像均源于同一个体且服装一致，仅姿态存在差异，这确保了跨模态信息在身份与服饰属性上的一致性，为学习外观与结构的解耦表征奠定了可靠基础。

使用方法

在计算机视觉与生成模型的研究中，该数据集主要用于训练和评估可控人像生成模型。使用者可通过项目提供的训练与测试JSONL文件索引数据，每个JSON条目详细定义了目标图像路径、文本描述以及包含外观部件、结构姿态和掩码图的参考信息字典。研究人员可以灵活利用这些多模态参考信号，驱动模型根据指定的身体姿态、特定部位的服装外观或文本描述，生成相应目标姿态下的逼真人像。典型应用流程包括加载JSONL文件解析样本，分别读取目标图像与各类参考图像，并将文本描述、姿态关键点、局部外观图像及其掩码作为条件输入到生成模型中。该数据集的设计尤其适用于探究如何融合文本、姿态与局部视觉线索，以实现高保真、高可控性的人体图像合成任务。

背景与挑战

背景概述

在可控人类图像生成领域，如何实现从局部到整体的精细化编辑一直是核心研究问题。DeepFashion-MultiModal-Parts2Whole数据集由研究人员Huang Zehuan等人于2024年构建，其核心目标在于解决多模态参考条件下的人类图像生成难题。该数据集源于DeepFashion-MultiModal这一大规模、高质量的人类图像数据集，通过精心构建约41,500个参考-目标对，为研究者提供了涵盖人体姿态、外观部件及文本描述的统一参考框架。它的出现显著推动了文本驱动与结构引导的人类图像生成技术的发展，为虚拟试衣、数字人创建等应用奠定了坚实的数据基础。

当前挑战

该数据集旨在应对可控人类图像生成中，如何整合多源、异构的参考信息（如姿态、解析部件、文本）以生成姿态、外观一致的目标图像这一核心挑战。具体而言，挑战体现在两个方面：其一，在领域问题层面，模型需同时理解并融合姿态结构、细粒度外观部件及其文本标签，确保生成图像在全局一致性与局部细节真实性上达到平衡；其二，在构建过程中，研究团队面临原始数据ID标注噪声的干扰，需通过人脸特征提取与相似度计算进行数据清洗。此外，从原始图像中裁剪出的部件分辨率较低，需借助超分辨率技术进行增强，以确保参考图像的清晰度与可用性。

常用场景

经典使用场景

在时尚图像生成领域，DeepFashion-MultiModal-Parts2Whole数据集为可控人像生成提供了关键支持。其经典使用场景聚焦于多模态参考驱动的图像合成任务，模型能够依据参考图像中的人体姿态、外观部件（如服装、发型）及文本描述，生成目标姿态下保持身份与服饰一致的高质量人像。这一过程有效模拟了虚拟试衣、姿态转换等实际需求，为计算机视觉与图形学的前沿研究奠定了数据基础。

实际应用

在实际应用层面，该数据集为虚拟时尚产业和数字内容创作提供了技术支撑。基于其构建的生成模型可应用于虚拟试衣系统，允许用户通过调整姿态或局部外观快速预览服装效果；在娱乐与社交媒体领域，它支持个性化虚拟形象生成与动态内容制作；此外，在电子商务中，该技术能够辅助商品展示，通过生成多角度模特图像提升用户体验，从而降低拍摄成本并增强交互性。

衍生相关工作

围绕该数据集衍生的经典工作主要包括多模态可控生成框架的探索。例如，原论文提出的Parts2Whole框架实现了从局部到整体的统一参考生成；同时，该数据集也启发了后续研究，如结合扩散模型进行细粒度外观编辑、开发跨身份的姿态迁移方法，以及改进文本-图像-姿态的多模态对齐机制。这些工作进一步拓展了可控人像生成的技术边界，并在虚拟人、数字时尚等领域产生了持续影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集