five

imirandam/BiVLC

收藏
Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/imirandam/BiVLC
下载链接
链接失效反馈
官方服务:
资源简介:
BiVLC是一个用于双向视觉-语言组合性评估的基准数据集。每个实例包含两个图像和两个描述文本。模型需要基于每个图像和描述文本选择正确的图像-文本对,以评估模型在图像到文本和文本到图像检索中的表现。数据集来源于COCO 2017验证集,并通过SugarCrepe生成负样本描述,BiVLC生成负样本图像。数据集包含2933个测试实例,每个实例由2个图像和2个描述文本组成,共11732个检索实例。

BiVLC is a benchmark for Bidirectional Vision-Language Compositionality evaluation. Each instance consists of two images and two captions. Using each of the images and captions as a base, a model is asked to select the pair that correctly represents the base versus the hard negative distractor with minor compositional changes. Thus, we can measure image-to-text and text-to-image retrieval with hard negative pairs. The dataset is derived from the COCO 2017 validation split, with negative captions generated by SugarCrepe and negative images generated by BiVLC. The dataset contains 2,933 test instances, each consisting of 2 images and 2 captions, totaling 11,732 retrieval instances.
提供机构:
imirandam
原始信息汇总

数据集概述

数据集名称: BiVLC

数据集描述: BiVLC是一个用于双向视觉-语言组合性评估的基准数据集。每个实例包含两张图像和两个标题,用于评估模型在图像到文本和文本到图像检索中的表现,特别是在处理具有轻微组合变化的硬负样本对时的能力。

数据集特征:

  • image: 图像数据,来自COCO 2017验证集。
  • caption: 字符串,描述对应图像的文本。
  • negative_caption: 字符串,由SUGARCREPE生成的负面描述。
  • negative_image: 图像数据,由BiVLC根据负面描述生成。
  • type: 字符串,负面实例的类别(Replace, Swap, Add)。
  • subtype: 字符串,负面实例的子类别(Object, Attribute, Relation)。

数据集分割:

  • test: 包含2933个实例,总数据大小为567921772.034字节。

数据集大小:

  • 下载大小: 536810279字节
  • 数据集大小: 567921772.034字节

语言:

  • en

数据集类别大小:

  • 1K<n<10K

数据集实例结构

每个实例包含以下字段:

  • image: COCO 2017验证集图像。
  • caption: 描述图像的文本。
  • negative_caption: 由SUGARCREPE生成的负面文本描述。
  • negative_image: 根据负面描述生成的图像。
  • type: 负面实例的类别。
  • subtype: 负面实例的子类别。

数据集使用示例

python

data = load_dataset("imirandam/BiVLC", split = "test")

数据集统计

  • test分割: 2933个实例,每个实例包含2张图像和2个标题,总计11732个检索实例,其中50%为文本到图像检索,50%为图像到文本检索。

源数据

  • image和caption: 来自COCO 2017验证分割。
  • negative_caption: 由SUGARCREPE根据COCO标题生成的文本描述。

训练数据

许可证信息

  • MIT许可证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作