five

SPRIGHT-T2I/spright_coco

收藏
Hugging Face2024-07-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SPRIGHT-T2I/spright_coco
下载链接
链接失效反馈
官方服务:
资源简介:
SPRIGHT(SPatially RIGHT)是第一个空间聚焦的大规模视觉-语言数据集。它通过重新标注来自四个广泛使用的数据集(CC12M、Segment Anything、COCO Validation、LAION Aesthetics)的约600万张图像构建而成。该数据集中的每个样本包含图像、相关描述(通用描述和空间描述)以及元数据。数据生成使用了LLaVA-1.5-13B模型来生成合成的空间描述,并通过FAITHScore、GPT4(V)和人工注释进行了验证。

SPRIGHT (SPatially RIGHT) is the first spatially focused, large scale vision-language dataset. It was built by re-captioning ∼6 million images from 4 widely-used datasets: CC12M, Segment Anything, COCO Validation, and LAION Aesthetics. Each sample in the dataset contains an image, related captions (general caption and spatial caption), and metadata. The data generation leverages the LLaVA-1.5-13B model to produce synthetic spatial captions, and the dataset is validated using FAITHScore, GPT4(V), and human annotation.
提供机构:
SPRIGHT-T2I
原始信息汇总

数据集概述

数据集名称

SPRIGHT (SPatially RIGHT)

数据集描述

SPRIGHT是首个专注于空间关系的大规模视觉-语言数据集。它通过对约600万张来自以下四个广泛使用的数据集的图像进行重新标注构建而成:

本仓库包含从COCO验证集中重新标注的数据,而CC12M和Segment Anything的数据则存放在此处。LAION的图像未被释放,因为其父图像目前为私有。

数据集来源

COCO

从COCO验证集中重新标注的图像,总计约40,000张。

数据集结构

样本

每个tar文件包含约4,000个样本。每个样本包括:

  • 图像:"{idx}.jpg"
  • 相关标注(通用标注和空间标注):"{idx}.json"
  • 元数据(原始数据集来源及其原始ID):"{idx}.metadata.json"

数据生成

利用LLaVA-1.5-13B生成合成空间标注,并使用特定提示创建SPRIGHT数据集:

"使用2个句子描述图像中观察到的空间关系。可以使用左/右、上/下、前/后、远/近/邻近、内/外等词汇。同时描述图像中物体的相对大小。"

数据集验证

  • 使用FAITHScore:通过大型语言模型将生成标注分解为原子(简单)声明,这些声明可以在VQA格式中独立验证。标注的平均正确率为88.9%。
  • 使用GPT4(V):对100张图像进行小规模研究,评估标注的准确性。GPT-4(V)对每个标注进行1至10分的评分,特别关注空间关系的正确性。平均和中间评分为6.41和7.0。
  • 人工标注:通过众包进行的人类研究,共标注了3000张图像,每位参与者最多标注30对图像-文本。SPRIGHT中的大多数标注包含多于1个句子。随机选择一个句子进行精细评估,准确率为66.57%。

引用信息

bibtex @misc{chatterjee2024getting, title={Getting it Right: Improving Spatial Consistency in Text-to-Image Models}, author={Agneet Chatterjee and Gabriela Ben Melech Stan and Estelle Aflalo and Sayak Paul and Dhruba Ghosh and Tejas Gokhale and Ludwig Schmidt and Hannaneh Hajishirzi and Vasudev Lal and Chitta Baral and Yezhou Yang}, year={2024}, eprint={2404.01197}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总
数据集介绍
main_image_url
构建方式
SPRIGHT数据集是首个关注空间信息的大规模视觉语言数据集。该数据集的构建是通过重新为四个广泛使用的数据集中的约600万张图像配以新的描述实现的,这四个数据集分别是CC12M、Segment Anything、COCO验证集和LAION Aesthetics。具体而言,该数据集包含了来自COCO验证集的约40,000张图像,这些图像经过LLaVA-1.5-13B模型生成合成空间描述,并按照特定的提示描述图像中的空间关系。
特点
SPRIGHT数据集的特点在于其空间信息的专注于和大规模的样本量。每个样本都包含一张图像及其相关的通用描述和空间描述,同时还包括图像来源的元数据信息。该数据集的描述在平均正确率上达到了88.9%,并且通过GPT-4(V)和众包人类研究两种方式进行了评估,确保了描述的准确性和空间关系的正确性。
使用方法
使用SPRIGHT数据集时,用户可以获取到每个图像的JPEG文件、相关的JSON格式描述文件和元数据JSON文件。这些文件提供了图像的详细描述和空间信息,适用于视觉问答、图像描述生成等任务。用户在使用前需遵循Intel Research Use License,并确保其应用不违反人权原则。
背景与挑战
背景概述
SPRIGHT-T2I/spright_coco数据集,作为首个专注于空间信息的大规模视觉语言数据集,其构建旨在提升文本到图像模型中的空间一致性。该数据集由Agneet Chatterjee等研究人员于2024年创建,依托于CC12M、Segment Anything、COCO Validation及LAION Aesthetics等四个广泛使用的数据集,通过重新标注约600万张图像而形成。数据集的核心研究问题聚焦于如何在视觉语言模型中更好地捕捉和表述空间关系,其对计算机视觉与自然语言处理领域产生了显著影响。
当前挑战
在构建过程中,数据集面临的挑战主要包括如何生成准确的空间描述以及如何验证这些描述的正确性。具体挑战体现在:一是确保合成空间描述的准确性,二是采用LLaVA-1.5-13B模型生成描述并对其进行验证,三是通过FAITHScore、GPT4(V)以及众包人类标注等方式对生成的描述进行评估,这些过程均需克服技术及评估标准的一致性问题。此外,数据集在构建过程中还需处理图像版权及隐私问题,尤其是LAION Aesthetics图像的隐私保护。
常用场景
经典使用场景
在视觉与语言处理领域,SPRIGHT-T2I/spright_coco数据集的经典使用场景主要在于图像描述与视觉问答。该数据集通过重新标注COCO验证集的图像,提供了丰富的空间关系描述,使研究者能够训练模型以更准确地理解和生成图像中的空间关系描述。
解决学术问题
该数据集解决了图像描述中空间关系一致性不足的学术问题,有助于提升文本到图像模型的空间一致性。通过精确的空间描述,SPRIGHT-T2I/spright_coco促进了视觉语言模型在理解图像细节方面的性能,对于图像识别、场景理解和视觉问答等任务具有显著意义。
衍生相关工作
基于SPRIGHT-T2I/spright_coco数据集,研究者已经开展了一系列相关工作,包括但不限于对现有图像描述模型的改进、空间关系检测算法的研究以及新型视觉问答系统的开发,这些工作进一步推动了视觉语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作