five

CompoVIS

收藏
Hugging Face2024-12-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/guodaosun/CompoVIS
下载链接
链接失效反馈
官方服务:
资源简介:
CLEVR-Per是一个跨模态数据集,整合了图像、基准(真实)描述和置换(错误)描述,旨在促进视觉-语言模型中“组合理解”任务的研究。数据集通过交换属性词汇来创建不同的语义表达,探索模型对视觉和文本实体语义变化的理解能力。数据集包含三个子集:ColPer(颜色语义置换)、CntPer(数量语义置换)和MatPer(材料语义置换),每个子集专注于特定类型的语义变换。

CLEVR-Per is a cross-modal dataset that integrates images, ground-truth captions, and perturbed captions, aimed at advancing research on the "compositional understanding" task in vision-language models. The dataset creates distinct semantic expressions by swapping attribute lexicons, with the goal of exploring models' ability to comprehend semantic changes of visual and textual entities. It comprises three subsets: ColPer (color semantic perturbation), CntPer (count semantic perturbation), and MatPer (material semantic perturbation), each focusing on a specific type of semantic transformation.
创建时间:
2024-12-05
原始信息汇总

CLEVR-Per 数据集

概述

CLEVR-Per 是一个跨模态数据集,集成了图像、基准(真实)描述和置换(虚假)描述,旨在促进视觉-语言模型在“组合理解”任务中的研究。该数据集通过交换属性词汇,创建不同的语义表达,探索模型对视觉和文本实体语义变化的理解能力。CLEVR-Per 包含三个子集:ColPer(颜色语义置换)、CntPer(数量语义置换)和 MatPer(材料语义置换),每个子集专注于特定类型的语义变换。

支持的任务

  • 组合理解评估:评估模型对语义变化的理解能力。模型从基准描述和置换描述中选择与给定图像最相关的描述,测试其组合理解能力。
  • 对抗样本生成:研究人员可以使用基准和置换描述生成多样化的对抗样本,用于对比训练,提高模型检测错误语义的能力。

数据来源和统计

CLEVR-Per 数据集源自 CLEVR,所有基准和置换描述均基于预定义的规则和模板生成。

数据集统计和示例

子集 图像数量 基准描述数量 置换描述数量
ColPer 4000 16905 16905
CntPer 4000 7292 7292
MatPer 4000 10589 10589

数据结构

字段名称 数据类型 描述
image_id string 图像样本的标识符
image_path string 图像样本的路径或URL
obj1_name string 描述中的第一个实体名称
obj2_name string 描述中的第二个实体名称
true_caption string 描述图像的基准描述
false_caption string 通过交换基准描述中的属性生成的描述
attributes list 与两个实体相关的属性列表
id int 样本的唯一标识符

示例

字段名称 数据类型 描述
image_id string 000001
image_path string CLEVR_mini_000001.png
obj1_name string sphere
obj2_name string cube
true_caption string "yellow sphere and purple cube."
false_caption string "purple sphere and yellow cube."
attributes list ["yellow", "purple"]
id int 100

引用

如果您使用此数据集,请按以下格式引用:

@misc{cleverper_dataset, author = {Tong Li, Guodao Sun*, Xueqian Zheng, Qi Jiang, Wang Xia, Xu Tan, Haidong Gao, Jingwei Tang, Yunchao Wang, Haixia Wang, Ronghua Liang}, title = {CompoVis: Is Cross-modal Semantic Alignment of CLIP Optimal? A Visual Analysis Attempt}, year = {2024}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/guodaosun/CompoVIS}}, }

搜集汇总
数据集介绍
main_image_url
构建方式
CompoVIS数据集的构建基于CLEVR数据集,通过预定义的规则和模板生成基线(true)和置换(false)的描述性文本。该数据集旨在探索视觉语言模型在理解视觉和文本实体语义变化方面的能力,通过交换属性词汇,生成不同的语义表达。数据集包含三个子集:ColPer(颜色语义置换)、CntPer(数量语义置换)和MatPer(材料语义置换),每个子集专注于特定类型的语义转换。
特点
CompoVIS数据集的特点在于其跨模态的语义对齐设计,通过图像、基线描述和置换描述的结合,能够有效评估模型在组合理解任务中的表现。数据集的每个子集都包含4000张图像,且每张图像对应两组描述:一组为基线描述,另一组为通过置换属性生成的错误描述。这种设计使得数据集在评估模型对语义变化的理解能力时具有高度的多样性和挑战性。
使用方法
CompoVIS数据集适用于组合理解评估和对抗样本生成任务。在组合理解评估中,模型需要从基线描述和置换描述中选择与给定图像最相关的描述,以测试其对语义变化的理解能力。在对抗样本生成任务中,研究人员可以利用基线和置换描述生成多样化的对抗样本,进行对比训练,从而提升模型对错误语义的检测能力。数据集的结构清晰,包含图像标识、图像路径、实体名称、基线描述、置换描述及属性列表等字段,便于模型进行训练和评估。
背景与挑战
背景概述
CompoVIS数据集,源自CLEVR-Per,是一个跨模态数据集,旨在推动视觉-语言模型在组合理解任务中的研究。该数据集通过整合图像、基准(真实)描述和置换(虚假)描述,探索模型对视觉和文本实体语义变化的理解能力。CompoVIS由三个子集组成:ColPer(颜色语义置换)、CntPer(数量语义置换)和MatPer(材料语义置换),每个子集专注于特定类型的语义转换。该数据集由Tong Li、Guodao Sun等研究人员于2024年创建,主要研究问题集中在视觉-语言模型的组合理解能力上,对推动跨模态语义对齐研究具有重要影响。
当前挑战
CompoVIS数据集面临的挑战主要集中在两个方面。首先,构建过程中需要生成大量的基准和置换描述,确保语义转换的准确性和多样性,这对数据生成规则和模板的设计提出了高要求。其次,该数据集旨在评估模型在组合理解任务中的表现,特别是模型能否准确识别图像与描述之间的语义关系,这对模型的跨模态语义对齐能力构成了挑战。此外,如何通过生成的对抗样本进行对比训练,进一步提升模型的语义检测能力,也是该数据集需要解决的重要问题。
常用场景
经典使用场景
CompoVIS数据集的经典使用场景主要集中在视觉-语言模型的组合理解评估上。通过提供图像、基准描述和置换描述,该数据集能够有效测试模型对语义变化的识别能力。模型需要从基准描述和置换描述中选择与图像最相关的描述,从而评估其在组合理解任务中的表现。
衍生相关工作
基于CompoVIS数据集,研究者们开展了多项相关工作,包括对抗样本生成和对比训练等。这些工作通过利用基准描述和置换描述生成多样化的对抗样本,进一步提升了模型的鲁棒性和语义理解能力。此外,该数据集还激发了对视觉-语言模型在组合理解任务中的深入研究,推动了相关领域的技术进步。
数据集最近研究
最新研究方向
在视觉语言模型(VLMs)领域,CLEVR-Per数据集的最新研究方向主要集中在组合理解评估和对抗样本生成上。该数据集通过整合图像、基准描述和置换描述,旨在探索模型对视觉和文本实体语义变化的理解能力。研究者们通过评估模型在给定图像时选择最相关描述的能力,来测试其组合理解能力。此外,利用基准和置换描述生成对抗样本,进行对比训练,以提高模型检测错误语义的能力,成为当前研究的热点。这些研究不仅推动了VLMs在复杂语义理解方面的进步,也为提升模型的鲁棒性和泛化能力提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作