Crisscrossed Captions

github2024-01-16 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/Crisscrossed-Captions

下载链接

链接失效反馈

官方服务：

资源简介：

Crisscrossed Captions (CxC) 包含247,315个人类标注的注释，包括图像对、标题对和图像-标题对之间的正负关联。该数据集扩展了MS-COCO（Karpathy分割的开发和测试集），增加了新的语义相似性判断，以解决现有数据集中跨模态关联的限制。

Crisscrossed Captions (CxC) 包含247,315个人类标注的注释，涵盖图像对、标题对以及图像-标题对之间的正负关联。该数据集在MS-COCO（Karpathy分割的开发和测试集）基础上进行了扩展，新增了语义相似性判断，旨在解决现有数据集中跨模态关联的局限性。

创建时间：

2020-08-21

原始信息汇总

数据集概述

名称: Crisscrossed Captions (CxC)

规模: 包含247,315个人工标注的注释，涉及图像对、标题对以及图像-标题对的正负关联。

数据结构:

文件类型: 包含2个CSV文件/任务（STS, SIS, SITS）和/分割（val, test）。
- 文件名格式: *_raw.csv 和 *_aggregated.csv。
内容格式: 前两列为MS-COCO对应的图像或标题ID，后接注释分数，最后一列表示样本方法。

任务类型:

STS (Semantic Textual Similarity):
- c2c_cocaption: 来自同一MS-COCO示例的标题对。
- c2c_isim: 基于图像相似性从不同MS-COCO示例中抽样的标题对。
SIS (Semantic Image Similarity):
- i2i_csim: 基于标题相似性从不同MS-COCO示例中抽样的图像对。
SITS (Semantic Image-Text Similarity):
- c2i_intrasim: 来自不同MS-COCO示例的标题-图像对。
- c2i_original: 来自同一MS-COCO示例的标题-图像对。

数据集用途: 扩展MS-COCO（Karpathy分割的dev和test集），添加新的语义相似性判断，以解决现有数据集在跨模态关联上的限制。

引用信息:

@article{parekh2020crisscrossed, title={Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCO}, author={Parekh, Zarana and Baldridge, Jason and Cer, Daniel and Waters, Austin and Yang, Yinfei}, journal={arXiv preprint arXiv:2004.15020}, year={2020} }

搜集汇总

数据集介绍

构建方式

Crisscrossed Captions (CxC) 数据集通过扩展MS-COCO数据集（Karpathy分割的开发集和测试集）构建而成，旨在弥补现有多模态数据集中跨模态关联的不足。该数据集包含了247,315条人工标注的语义相似性判断，涵盖了图像对、文本对以及图像-文本对的正负关联。标注过程中，文本对的相似性基于语义文本相似性（Semantic Textual Similarity）进行评分，而图像对和图像-文本对的相似性则通过不同的采样方法生成，确保了数据集的多样性和广泛性。

使用方法

使用CxC数据集时，用户首先需要下载MS-COCO Karpathy分割的标注文件，并通过提供的合并脚本将CxC的标注与MS-COCO数据结合。合并脚本支持用户指定输入路径和输出路径，生成包含CxC标注的增强数据集。用户可以根据任务需求选择不同的子任务（如STS、SIS、SITS）进行实验，并通过分析标注文件中的评分数据，评估模型在多模态语义相似性判断中的表现。此外，数据集的使用需遵循引用规范，确保学术研究的透明性和可追溯性。

背景与挑战

背景概述

Crisscrossed Captions（CxC）数据集于2020年由Zarana Parekh、Jason Baldridge等研究人员提出，旨在扩展MS-COCO数据集的多模态语义相似性标注。该数据集包含247,315条人工标注，涵盖了图像对、文本对以及图像-文本对之间的正负关联。CxC的创建背景源于现有图像描述数据集中跨模态关联的局限性，如图像之间缺乏配对、文本仅与描述同一图像的文本配对、缺乏负关联以及缺失的正跨模态关联。这些问题削弱了多模态检索评估的效果，并限制了跨模态学习对单模态任务影响的研究。CxC通过引入新的语义相似性标注，填补了这一研究空白，推动了多模态表示学习的发展。

当前挑战

Crisscrossed Captions数据集在解决多模态语义相似性评估问题时面临多重挑战。首先，现有数据集中跨模态关联的缺失限制了多模态检索任务的准确性和全面性，CxC通过引入负关联和扩展正关联，试图解决这一问题。其次，构建过程中，如何确保标注的一致性和语义的准确性成为关键挑战，特别是在处理图像与文本之间的复杂关系时。此外，数据集的扩展依赖于MS-COCO的Karpathy划分，如何有效整合新标注并保持数据结构的完整性也是构建过程中的一大难题。这些挑战不仅影响了数据集的构建，也对后续的多模态学习研究提出了更高的要求。

常用场景

经典使用场景

Crisscrossed Captions数据集在跨模态检索和语义相似性评估中具有重要应用。通过扩展MS-COCO数据集，CxC提供了丰富的图像对、文本对以及图像-文本对的语义相似性标注，为多模态表示学习提供了更为全面的评估基准。研究者在进行图像描述生成、跨模态检索等任务时，常利用CxC数据集来验证模型的性能，尤其是在处理跨模态关联和负样本关联时，CxC提供了独特的数据支持。

解决学术问题

Crisscrossed Captions数据集解决了多模态学习中的关键问题，特别是跨模态关联的缺失和负样本的不足。传统数据集如MS-COCO仅提供同一图像内的文本描述对，缺乏跨图像的关联和负样本，这限制了跨模态检索和语义相似性评估的准确性。CxC通过引入跨图像的语义相似性标注和负样本，显著提升了多模态学习模型的训练和评估效果，推动了跨模态学习与单模态任务之间的研究进展。

实际应用

在实际应用中，Crisscrossed Captions数据集被广泛用于图像描述生成、跨模态检索和语义相似性评估等任务。例如，在智能图像搜索系统中，CxC的语义相似性标注可以帮助系统更准确地匹配图像与文本描述，提升用户体验。此外，CxC还可用于训练和评估多模态对话系统，使其能够更好地理解图像与文本之间的关联，从而生成更符合上下文的回复。

数据集最近研究