CompoVIS

Hugging Face2024-12-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/guodaosun/CompoVIS

下载链接

链接失效反馈

官方服务：

资源简介：

CLEVR-Per是一个跨模态数据集，整合了图像、基准（真实）描述和置换（错误）描述，旨在促进视觉-语言模型中“组合理解”任务的研究。数据集通过交换属性词汇来创建不同的语义表达，探索模型对视觉和文本实体语义变化的理解能力。数据集包含三个子集：ColPer（颜色语义置换）、CntPer（数量语义置换）和MatPer（材料语义置换），每个子集专注于特定类型的语义变换。

CLEVR-Per is a cross-modal dataset that integrates images, ground-truth captions, and perturbed captions, aimed at advancing research on the "compositional understanding" task in vision-language models. The dataset creates distinct semantic expressions by swapping attribute lexicons, with the goal of exploring models' ability to comprehend semantic changes of visual and textual entities. It comprises three subsets: ColPer (color semantic perturbation), CntPer (count semantic perturbation), and MatPer (material semantic perturbation), each focusing on a specific type of semantic transformation.

创建时间：

2024-12-05

原始信息汇总

CLEVR-Per 数据集

概述

CLEVR-Per 是一个跨模态数据集，集成了图像、基准（真实）描述和置换（虚假）描述，旨在促进视觉-语言模型在“组合理解”任务中的研究。该数据集通过交换属性词汇，创建不同的语义表达，探索模型对视觉和文本实体语义变化的理解能力。CLEVR-Per 包含三个子集：ColPer（颜色语义置换）、CntPer（数量语义置换）和 MatPer（材料语义置换），每个子集专注于特定类型的语义变换。

支持的任务

组合理解评估：评估模型对语义变化的理解能力。模型从基准描述和置换描述中选择与给定图像最相关的描述，测试其组合理解能力。
对抗样本生成：研究人员可以使用基准和置换描述生成多样化的对抗样本，用于对比训练，提高模型检测错误语义的能力。

数据来源和统计

CLEVR-Per 数据集源自 CLEVR，所有基准和置换描述均基于预定义的规则和模板生成。

数据集统计和示例

子集	图像数量	基准描述数量	置换描述数量
ColPer	4000	16905	16905
CntPer	4000	7292	7292
MatPer	4000	10589	10589

数据结构

字段名称	数据类型	描述
image_id	string	图像样本的标识符
image_path	string	图像样本的路径或URL
obj1_name	string	描述中的第一个实体名称
obj2_name	string	描述中的第二个实体名称
true_caption	string	描述图像的基准描述
false_caption	string	通过交换基准描述中的属性生成的描述
attributes	list	与两个实体相关的属性列表
id	int	样本的唯一标识符

示例

字段名称	数据类型	描述
image_id	string	`000001`
image_path	string	`CLEVR_mini_000001.png`
obj1_name	string	`sphere`
obj2_name	string	`cube`
true_caption	string	`"yellow sphere and purple cube."`
false_caption	string	`"purple sphere and yellow cube."`
attributes	list	`["yellow", "purple"]`
id	int	`100`

引用

如果您使用此数据集，请按以下格式引用：

@misc{cleverper_dataset, author = {Tong Li, Guodao Sun*, Xueqian Zheng, Qi Jiang, Wang Xia, Xu Tan, Haidong Gao, Jingwei Tang, Yunchao Wang, Haixia Wang, Ronghua Liang}, title = {CompoVis: Is Cross-modal Semantic Alignment of CLIP Optimal? A Visual Analysis Attempt}, year = {2024}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/guodaosun/CompoVIS}}, }

搜集汇总

数据集介绍

构建方式

CompoVIS数据集的构建基于CLEVR数据集，通过预定义的规则和模板生成基线（true）和置换（false）的描述性文本。该数据集旨在探索视觉语言模型在理解视觉和文本实体语义变化方面的能力，通过交换属性词汇，生成不同的语义表达。数据集包含三个子集：ColPer（颜色语义置换）、CntPer（数量语义置换）和MatPer（材料语义置换），每个子集专注于特定类型的语义转换。

特点

CompoVIS数据集的特点在于其跨模态的语义对齐设计，通过图像、基线描述和置换描述的结合，能够有效评估模型在组合理解任务中的表现。数据集的每个子集都包含4000张图像，且每张图像对应两组描述：一组为基线描述，另一组为通过置换属性生成的错误描述。这种设计使得数据集在评估模型对语义变化的理解能力时具有高度的多样性和挑战性。

使用方法

CompoVIS数据集适用于组合理解评估和对抗样本生成任务。在组合理解评估中，模型需要从基线描述和置换描述中选择与给定图像最相关的描述，以测试其对语义变化的理解能力。在对抗样本生成任务中，研究人员可以利用基线和置换描述生成多样化的对抗样本，进行对比训练，从而提升模型对错误语义的检测能力。数据集的结构清晰，包含图像标识、图像路径、实体名称、基线描述、置换描述及属性列表等字段，便于模型进行训练和评估。

背景与挑战

背景概述

CompoVIS数据集，源自CLEVR-Per，是一个跨模态数据集，旨在推动视觉-语言模型在组合理解任务中的研究。该数据集通过整合图像、基准（真实）描述和置换（虚假）描述，探索模型对视觉和文本实体语义变化的理解能力。CompoVIS由三个子集组成：ColPer（颜色语义置换）、CntPer（数量语义置换）和MatPer（材料语义置换），每个子集专注于特定类型的语义转换。该数据集由Tong Li、Guodao Sun等研究人员于2024年创建，主要研究问题集中在视觉-语言模型的组合理解能力上，对推动跨模态语义对齐研究具有重要影响。

当前挑战

CompoVIS数据集面临的挑战主要集中在两个方面。首先，构建过程中需要生成大量的基准和置换描述，确保语义转换的准确性和多样性，这对数据生成规则和模板的设计提出了高要求。其次，该数据集旨在评估模型在组合理解任务中的表现，特别是模型能否准确识别图像与描述之间的语义关系，这对模型的跨模态语义对齐能力构成了挑战。此外，如何通过生成的对抗样本进行对比训练，进一步提升模型的语义检测能力，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

CompoVIS数据集的经典使用场景主要集中在视觉-语言模型的组合理解评估上。通过提供图像、基准描述和置换描述，该数据集能够有效测试模型对语义变化的识别能力。模型需要从基准描述和置换描述中选择与图像最相关的描述，从而评估其在组合理解任务中的表现。

衍生相关工作

基于CompoVIS数据集，研究者们开展了多项相关工作，包括对抗样本生成和对比训练等。这些工作通过利用基准描述和置换描述生成多样化的对抗样本，进一步提升了模型的鲁棒性和语义理解能力。此外，该数据集还激发了对视觉-语言模型在组合理解任务中的深入研究，推动了相关领域的技术进步。

数据集最近研究