SPRIGHT-T2I/spright_coco
收藏数据集概述
数据集名称
SPRIGHT (SPatially RIGHT)
数据集描述
SPRIGHT是首个专注于空间关系的大规模视觉-语言数据集。它通过对约600万张来自以下四个广泛使用的数据集的图像进行重新标注构建而成:
本仓库包含从COCO验证集中重新标注的数据,而CC12M和Segment Anything的数据则存放在此处。LAION的图像未被释放,因为其父图像目前为私有。
数据集来源
COCO
从COCO验证集中重新标注的图像,总计约40,000张。
数据集结构
样本
每个tar文件包含约4,000个样本。每个样本包括:
- 图像:"{idx}.jpg"
- 相关标注(通用标注和空间标注):"{idx}.json"
- 元数据(原始数据集来源及其原始ID):"{idx}.metadata.json"
数据生成
利用LLaVA-1.5-13B生成合成空间标注,并使用特定提示创建SPRIGHT数据集:
"使用2个句子描述图像中观察到的空间关系。可以使用左/右、上/下、前/后、远/近/邻近、内/外等词汇。同时描述图像中物体的相对大小。"
数据集验证
- 使用FAITHScore:通过大型语言模型将生成标注分解为原子(简单)声明,这些声明可以在VQA格式中独立验证。标注的平均正确率为88.9%。
- 使用GPT4(V):对100张图像进行小规模研究,评估标注的准确性。GPT-4(V)对每个标注进行1至10分的评分,特别关注空间关系的正确性。平均和中间评分为6.41和7.0。
- 人工标注:通过众包进行的人类研究,共标注了3000张图像,每位参与者最多标注30对图像-文本。SPRIGHT中的大多数标注包含多于1个句子。随机选择一个句子进行精细评估,准确率为66.57%。
引用信息
bibtex @misc{chatterjee2024getting, title={Getting it Right: Improving Spatial Consistency in Text-to-Image Models}, author={Agneet Chatterjee and Gabriela Ben Melech Stan and Estelle Aflalo and Sayak Paul and Dhruba Ghosh and Tejas Gokhale and Ludwig Schmidt and Hannaneh Hajishirzi and Vasudev Lal and Chitta Baral and Yezhou Yang}, year={2024}, eprint={2404.01197}, archivePrefix={arXiv}, primaryClass={cs.CV} }




