ComposeHuman
收藏arXiv2025-01-21 更新2025-01-23 收录
下载链接:
https://github.com/Zhangshy1019/ComposeAnyone
下载链接
链接失效反馈官方服务:
资源简介:
ComposeHuman数据集由中山大学、新加坡国立大学、Pixocial Technology和鹏城实验室联合创建,旨在支持多模态人类图像生成任务。该数据集包含人类图像、手绘布局、细粒度文本描述和人类组件集合,通过解耦的文本和参考图像注释,提供了更灵活的空间布局控制。数据集的应用领域主要集中在时尚设计、虚拟角色创建和社交媒体内容生成,旨在解决现有方法在复杂场景下多模态信息融合不足的问题。
The ComposeHuman Dataset was jointly developed by Sun Yat-sen University, National University of Singapore, Pixocial Technology and Peng Cheng Laboratory, with the goal of supporting multimodal human image generation tasks. This dataset encompasses human images, hand-drawn layouts, fine-grained text descriptions and human component collections, and delivers more flexible spatial layout control via decoupled text and reference image annotations. Its primary application domains include fashion design, virtual character creation and social media content generation, and it is designed to resolve the issue of insufficient multimodal information fusion in existing methods when handling complex scenarios.
提供机构:
中山大学, 新加坡国立大学, Pixocial Technology, 鹏城实验室
创建时间:
2025-01-21
搜集汇总
数据集介绍

构建方式
ComposeHuman数据集的构建基于多模态输入的解耦控制,结合了手绘布局、文本描述和参考图像。首先,通过手绘布局定义人体各部分的几何形状,如椭圆和矩形,确保空间布局的精确性。其次,利用CogVLM2模型对每张人体图像进行细粒度的文本描述标注,涵盖面部、上衣、下装和鞋子等部分。参考图像则通过SAM和SCHP模型进行人体组件分割,确保图像特征的独立性。最后,通过随机选择文本或图像输入,构建了一个多模态解耦的数据集,支持文本、图像或混合模态的生成任务。
特点
ComposeHuman数据集的特点在于其多模态解耦的灵活性。数据集不仅提供了手绘布局作为空间控制的基础,还通过细粒度的文本描述和参考图像实现了对人体各部分的精确控制。手绘布局的引入使得用户可以通过简单的几何形状定义复杂的空间布局,而文本和图像的解耦则允许用户根据需要选择单一或混合模态输入。此外,数据集的构建过程通过半监督学习和数据增强技术,确保了数据的多样性和高质量,适用于复杂的人体图像生成任务。
使用方法
ComposeHuman数据集的使用方法主要围绕多模态输入的生成任务展开。用户可以通过手绘布局定义人体的空间结构,并结合文本描述或参考图像生成符合特定条件的人体图像。数据集支持文本、图像或混合模态的输入,用户可以根据任务需求选择不同的输入组合。在生成过程中,模型通过空间和通道维度的特征拼接,确保生成图像与输入条件的高度一致性。此外,数据集还可用于评估生成模型在布局引导和主题驱动任务中的性能,帮助研究人员验证模型的多任务能力和可控性。
背景与挑战
背景概述
ComposeHuman数据集由中山大学、新加坡国立大学、Pixocial Technology和鹏城实验室的研究团队于2025年创建,旨在解决多模态条件下可控的人类图像生成问题。该数据集基于扩散模型的成功,提出了ComposeAnyone方法,通过解耦的多模态条件(如文本、参考图像和手绘布局)生成高质量的人类图像。ComposeHuman数据集为每张人类图像的不同组件提供了详细的文本和参考图像注释,推动了时尚设计、虚拟角色创建等领域的创新。该数据集的构建标志着人类图像生成技术从单一模态向多模态融合的转变,显著提升了生成图像的灵活性和精确度。
当前挑战
ComposeHuman数据集在构建和应用中面临多重挑战。首先,在领域问题方面,现有的人类图像生成方法大多依赖单一模态输入(如文本或图像),难以满足复杂场景下多模态信息融合的需求。ComposeHuman通过解耦多模态条件解决了这一问题,但如何确保生成图像在空间布局、文本描述和参考图像之间的一致性仍是一个技术难点。其次,在数据集构建过程中,研究人员需要从语义分割模型和视觉语言模型中提取数据,这些模型可能引入不准确性,影响数据质量。此外,预训练模型中的偏差也可能影响生成结果的多样性和适应性,限制了数据集在广泛用户需求中的适用性。
常用场景
经典使用场景
ComposeHuman数据集在生成高质量人类图像任务中展现了其独特的优势。通过结合手绘布局、文本描述和参考图像,该数据集能够生成与输入条件高度一致的人类图像。其经典使用场景包括时尚设计、虚拟角色创建以及社交媒体内容生成。在这些场景中,用户可以通过简单的几何形状手绘布局,灵活定义人类图像的空间结构,并结合文本或图像参考,生成符合特定需求的高质量图像。
解决学术问题
ComposeHuman数据集解决了多模态输入条件下人类图像生成的灵活性和精确性问题。传统方法通常依赖于单一模态输入,如文本或图像参考,难以满足复杂场景下的多模态协作需求。该数据集通过解耦多模态条件,允许用户独立控制手绘布局、文本描述和参考图像,实现了更高效的数据融合。这一创新不仅提升了生成图像的空间布局准确性,还增强了文本描述与图像内容的一致性,推动了多模态人类图像生成技术的发展。
衍生相关工作
ComposeHuman数据集的推出催生了一系列相关研究工作,尤其是在多模态人类图像生成领域。基于该数据集的研究工作进一步探索了手绘布局与文本、图像参考的结合方式,提出了多种改进模型,如LayoutDiffusion和InstanceDiffusion。这些工作通过引入更复杂的空间控制机制和注意力调制技术,进一步提升了生成图像的质量和可控性。此外,ComposeHuman还为时尚设计领域的虚拟试穿系统提供了数据支持,推动了虚拟试穿技术的发展。
以上内容由遇见数据集搜集并总结生成



