SPRIGHT-T2I/18_obj_444
收藏Hugging Face2024-07-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SPRIGHT-T2I/18_obj_444
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含444张用于训练模型SPRIGHT-T2I/spright-t2i-sd2的图像。这些图像是SPRIGHT数据集的子集,其中训练集和验证集分别包含444张和50张图像,这些图像是从LAION-Aesthetics和Segment Anything中随机抽取的,比例为50:50。每张图像都配有一个通用描述和一个空间描述(来自SPRIGHT)。在微调过程中,每张图像的描述类型以50:50的比例随机选择。为了构建这个数据集,我们专注于对象数量超过18的图像,利用开放世界的图像标记模型Recognize Anything来实现这一限制。
该数据集包含444张用于训练模型SPRIGHT-T2I/spright-t2i-sd2的图像。这些图像是SPRIGHT数据集的子集,其中训练集和验证集分别包含444张和50张图像,这些图像是从LAION-Aesthetics和Segment Anything中随机抽取的,比例为50:50。每张图像都配有一个通用描述和一个空间描述(来自SPRIGHT)。在微调过程中,每张图像的描述类型以50:50的比例随机选择。为了构建这个数据集,我们专注于对象数量超过18的图像,利用开放世界的图像标记模型Recognize Anything来实现这一限制。
提供机构:
SPRIGHT-T2I
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 大小: 小于1K
- 许可证: Apache-2.0
数据集内容
- 图像数量: 包含444张训练图像和50张验证图像。
- 数据来源: 来自SPRIGHT数据集的子集,随机抽样自LAION-Aesthetics和Segment Anything,比例为50:50。
- 图像特征: 每张图像均配有通用和空间两种类型的标题。在微调过程中,随机选择一种标题类型,比例为50:50。
- 数据选择标准: 专注于包含超过18个对象的图像,使用Recognize Anything模型进行筛选。
引用信息
bibtex @misc{chatterjee2024getting, title={Getting it Right: Improving Spatial Consistency in Text-to-Image Models}, author={Agneet Chatterjee and Gabriela Ben Melech Stan and Estelle Aflalo and Sayak Paul and Dhruba Ghosh and Tejas Gokhale and Ludwig Schmidt and Hannaneh Hajishirzi and Vasudev Lal and Chitta Baral and Yezhou Yang}, year={2024}, eprint={2404.01197}, archivePrefix={arXiv}, primaryClass={cs.CV} }



