five

SubjectSpatial200K|图像生成数据集|主体定位数据集

收藏
arXiv2025-03-12 更新2025-03-14 收录
图像生成
主体定位
下载链接:
https://github.com/Xuan-World/UniCombine
下载链接
链接失效反馈
资源简介:
SubjectSpatial200K数据集是由腾讯优图实验室和复旦大学联合构建的,旨在为多条件生成任务提供涵盖主体驱动和空间对齐条件的第一份数据集。该数据集为多条件生成模型的训练和测试提供了基准,包含了Subject200K数据集中所有样本的主体定位注释和空间地图注释。
提供机构:
复旦大学, 腾讯优图实验室, 上海交通大学, 上海海洋大学
创建时间:
2025-03-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
SubjectSpatial200K数据集的构建基于Subjects200K数据集,通过对所有数据样本进行主体定位标注和空间地图标注,从而形成了包含主体驱动和空间对齐条件的多条件生成任务数据集。主体定位标注通过Mamba-YOLO-World模型检测所有主体的边界框,并生成相应的掩码区域。空间地图标注则通过DepthAnything模型和OpenCV库生成深度和Canny图。
特点
SubjectSpatial200K数据集的特点在于它是一个统一的、高质量的、为多条件生成任务设计的训练和测试数据集。它涵盖了主体驱动和空间对齐条件,使得模型能够在训练和测试过程中利用这些条件进行生成。此外,SubjectSpatial200K数据集的构建流程详细,标注信息全面,有助于模型更好地理解和处理各种条件,从而生成更符合预期的图像。
使用方法
SubjectSpatial200K数据集的使用方法是将主体定位标注和空间地图标注作为条件输入,与文本提示一起输入到UniCombine框架中。UniCombine框架通过其多条件分支和条件MMDiT注意力机制,有效地处理这些条件输入,并在训练和测试过程中生成符合所有输入约束的图像。此外,UniCombine框架还提供了训练自由和基于训练的策略,可以进一步提高模型的性能。
背景与挑战
背景概述
SubjectSpatial200K数据集是为了解决多条件可控生成任务中的数据集缺失问题而构建的。该数据集由Fudan University和Tencent Youtu Lab的研究人员创建,旨在为多条件生成任务提供高质量的训练和测试数据。SubjectSpatial200K数据集涵盖了主题驱动和空间对齐条件,是首个专门为多条件生成任务设计的公共数据集。该数据集的创建不仅为研究多条件可控生成任务提供了宝贵的数据资源,也对相关领域的研究产生了重要影响。
当前挑战
SubjectSpatial200K数据集面临的挑战主要包括两个方面:1)解决多条件生成任务中的领域问题,例如如何在保持所有输入条件一致性的同时,有效地组合多个条件输入;2)在构建过程中遇到的挑战,例如如何生成高质量的训练和测试数据,以及如何确保数据集的多样性和平衡性。此外,SubjectSpatial200K数据集还需要解决如何在多条件生成任务中保持主体一致性、空间结构对齐、背景一致性和风格统一性的问题。
常用场景
经典使用场景
SubjectSpatial200K数据集,作为首个为多条件可控生成任务设计的公开数据集,涵盖了主体驱动和空间对齐条件。该数据集为多条件生成任务提供了训练和测试的基础,支持文本提示、空间地图和主体图像等多种条件输入。UniCombine框架利用SubjectSpatial200K数据集,在主体插入、主体空间和多空间条件生成等任务中取得了卓越的性能,展示了其强大的通用性和能力。
实际应用
SubjectSpatial200K数据集和UniCombine框架在实际应用中具有广泛的前景。例如,在虚拟试穿、对象插入、风格迁移、空间对齐定制等任务中,UniCombine框架可以生成高质量的图像,满足用户对图像布局、风格、特征等方面的控制需求。此外,SubjectSpatial200K数据集的构建也为其他多条件可控生成任务提供了数据基础,推动了相关领域的发展。
衍生相关工作
SubjectSpatial200K数据集和UniCombine框架的提出,为多条件可控生成任务的研究提供了新的思路和方法。未来,可以基于SubjectSpatial200K数据集和UniCombine框架,进一步研究多条件可控生成任务的性能提升、模型优化等问题,推动该领域的发展。此外,还可以探索将UniCombine框架应用于其他领域的可能性,如视频生成、音频生成等,以拓展其应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

ELSA

ELSA(English Longitudinal Study of Ageing)是一个纵向研究项目,旨在调查英国50岁及以上人群的健康、经济状况和社会关系。数据集包括参与者的健康状况、生活方式、经济状况、社会网络等多方面的信息。

www.elsa-project.ac.uk 收录

1931 2◦ CIE Standard Colorimetric Observer Data

The 1931 2◦ CIE Standard Colorimetric Observer Data (CMFs) that span 360 nm to 830 nm in 1 nm intervals.

DataCite Commons 收录

维基百科中文语料

该数据集包含从维基百科下载的中文词条文件,经过解析、清洗和处理后生成的语料文件。每个语料数据包含词条ID、词条标题和词条内容。

github 收录