five

lodestones/spright

收藏
Hugging Face2024-06-29 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/lodestones/spright
下载链接
链接失效反馈
官方服务:
资源简介:
SPRIGHT(空间正确)是第一个专注于空间关系的大规模视觉-语言数据集。它通过重新标注来自四个广泛使用的数据集(CC12M、Segment Anything、COCO Validation和LAION Aesthetics)的约600万张图像构建而成。数据集包含重新标注的CC12M和Segment Anything数据,而COCO数据则存储在另一个链接中。数据集的结构包括每个tar文件中的10k样本,每个样本包含图像、相关标题和元数据。数据集的创建过程涉及使用LLaVA-1.5-13B模型生成合成空间标题,并通过FAITHScore、GPT4(V)和人类注释进行验证。数据集的使用可以通过提供的脚本进行加载和上传。

SPRIGHT (SPatially RIGHT) is the first spatially focused, large-scale vision-language dataset. It was built by re-captioning approximately 6 million images from four widely-used datasets: CC12M, Segment Anything, COCO Validation, and LAION Aesthetics. The dataset includes each samples image, related captions (general and spatial), and metadata (image width, height, original dataset, and original ID). The creation process involved using the LLaVA-1.5-13B model to generate synthetic spatial captions and validated through FAITHScore, GPT4(V), and human annotation.
提供机构:
lodestones
原始信息汇总

SPRIGHT 数据集概述

数据集描述

SPRIGHT (SPatially RIGHT) 是一个专注于空间关系的大型视觉-语言数据集。它通过对以下四个广泛使用的数据集中的约600万张图像进行重新标注构建而成:

  • CC12M
  • Segment Anything
  • COCO Validation
  • LAION Aesthetics

本仓库包含从CC12M和Segment Anything数据集中重新标注的数据,COCO数据集的数据可在此处获取。LAION数据集的图像由于其父图像目前为私有状态,因此未发布。

数据集来源

CC-12M

从CC-12M数据集中重新标注了230万张图像,过滤掉分辨率小于768的图像。

Segment Anything

重新标注了350万张图像。由于Segment Anything数据集中所有的人脸都被模糊处理,因此过滤掉包含模糊处理的图像,即过滤掉检测到人类的图像。由于Segment Anything没有地面真值标注,因此使用CoCa标注模型生成其通用标注。

数据集结构

样本

每个tar文件包含10,000个样本。每个样本由以下部分组成:

  • 图像:"{idx}.jpg"
  • 相关标注(通用标注和空间标注):"{idx}.json"
  • 元数据(图像宽度、高度、原始数据集及其原始ID):"{idx}.metadata.json"

使用方法

可以使用load_data.py脚本加载数据。metadata.json文件包含每个tar文件的大小和分割信息。还提供了一个用于高效上传数据到Hugging Face Hub的脚本robust_upload.py

数据集创建

数据生成

利用LLaVA-1.5-13B生成合成空间标注,并使用以下提示创建SPRIGHT数据集:

"Using 2 sentences, describe the spatial relationships seen in the image. You can use words like left/right, above/below, front/behind, far/near/adjacent, inside/outside. Also describe relative sizes of objects seen in the image."

数据集验证

  • 使用FAITHScore:利用大型语言模型将生成的标注分解为原子(简单)声明,这些声明可以在VQA格式中单独和独立验证。标注的正确率为88.9%。
  • 使用GPT4(V):对100张图像进行小规模研究,使用GPT-4(V)评估标注,特别是空间关系的正确性。平均评分为6.41,中位数评分为7.0。
  • 人工标注:通过众包人工研究标注了3000张图像,每个参与者最多标注30个图像-文本对。大多数SPRIGHT标注包含多句话,因此随机选择一句话进行细粒度评估。在149个响应中,准确率为66.57%。

引用

bibtex @misc{chatterjee2024getting, title={Getting it Right: Improving Spatial Consistency in Text-to-Image Models}, author={Agneet Chatterjee and Gabriela Ben Melech Stan and Estelle Aflalo and Sayak Paul and Dhruba Ghosh and Tejas Gokhale and Ludwig Schmidt and Hannaneh Hajishirzi and Vasudev Lal and Chitta Baral and Yezhou Yang}, year={2024}, eprint={2404.01197}, archivePrefix={arXiv}, primaryClass={cs.CV} }

许可证

SPRIGHT-T2I/spright 数据集根据Intel研究使用许可证进行授权。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作