lodestones/spright
收藏SPRIGHT 数据集概述
数据集描述
SPRIGHT (SPatially RIGHT) 是一个专注于空间关系的大型视觉-语言数据集。它通过对以下四个广泛使用的数据集中的约600万张图像进行重新标注构建而成:
- CC12M
- Segment Anything
- COCO Validation
- LAION Aesthetics
本仓库包含从CC12M和Segment Anything数据集中重新标注的数据,COCO数据集的数据可在此处获取。LAION数据集的图像由于其父图像目前为私有状态,因此未发布。
数据集来源
CC-12M
从CC-12M数据集中重新标注了230万张图像,过滤掉分辨率小于768的图像。
Segment Anything
重新标注了350万张图像。由于Segment Anything数据集中所有的人脸都被模糊处理,因此过滤掉包含模糊处理的图像,即过滤掉检测到人类的图像。由于Segment Anything没有地面真值标注,因此使用CoCa标注模型生成其通用标注。
数据集结构
样本
每个tar文件包含10,000个样本。每个样本由以下部分组成:
- 图像:"{idx}.jpg"
- 相关标注(通用标注和空间标注):"{idx}.json"
- 元数据(图像宽度、高度、原始数据集及其原始ID):"{idx}.metadata.json"
使用方法
可以使用load_data.py脚本加载数据。metadata.json文件包含每个tar文件的大小和分割信息。还提供了一个用于高效上传数据到Hugging Face Hub的脚本robust_upload.py。
数据集创建
数据生成
利用LLaVA-1.5-13B生成合成空间标注,并使用以下提示创建SPRIGHT数据集:
"Using 2 sentences, describe the spatial relationships seen in the image. You can use words like left/right, above/below, front/behind, far/near/adjacent, inside/outside. Also describe relative sizes of objects seen in the image."
数据集验证
- 使用FAITHScore:利用大型语言模型将生成的标注分解为原子(简单)声明,这些声明可以在VQA格式中单独和独立验证。标注的正确率为88.9%。
- 使用GPT4(V):对100张图像进行小规模研究,使用GPT-4(V)评估标注,特别是空间关系的正确性。平均评分为6.41,中位数评分为7.0。
- 人工标注:通过众包人工研究标注了3000张图像,每个参与者最多标注30个图像-文本对。大多数SPRIGHT标注包含多句话,因此随机选择一句话进行细粒度评估。在149个响应中,准确率为66.57%。
引用
bibtex @misc{chatterjee2024getting, title={Getting it Right: Improving Spatial Consistency in Text-to-Image Models}, author={Agneet Chatterjee and Gabriela Ben Melech Stan and Estelle Aflalo and Sayak Paul and Dhruba Ghosh and Tejas Gokhale and Ludwig Schmidt and Hannaneh Hajishirzi and Vasudev Lal and Chitta Baral and Yezhou Yang}, year={2024}, eprint={2404.01197}, archivePrefix={arXiv}, primaryClass={cs.CV} }
许可证
SPRIGHT-T2I/spright 数据集根据Intel研究使用许可证进行授权。



