CIM

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/AHAAM/CIM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个经过精心策划的视觉问答（VQA）数据集，旨在分析叠加文本如何影响视觉语言模型中的视觉推理。每个样本包含一张自然图像、一个多项选择题以及四个仅在叠加文本的存在和语义正确性上有所不同的对齐图像变体。这种结构支持对多模态鲁棒性、虚假相关性和文本诱导的捷径学习进行受控实验。数据集包含1,062个高质量示例，通过多阶段的生成、过滤和人工验证流程筛选而成。数据集支持的研究领域包括视觉问答、文本扰动下的多模态推理、视觉语言模型的鲁棒性和偏见分析，以及忠实视觉基础与依赖文本线索的对比。每个样本包含核心字段（如问题ID、图像ID、问题、选项、答案、类别和版本）以及四个图像变体（无文本、正确文本、无关文本和误导文本）。此外，数据集还提供了文本叠加的元数据，包括自动生成的图像描述、预定义的文本叠加位置索引以及每个变体的文本叠加注释。数据集生成和筛选流程包括自动问题过滤、图像变体生成、人工选择候选图像以及最终验证。

创建时间：

2026-01-30

原始信息汇总

CIM 数据集概述

数据集简介

CIM 是一个精心策划的视觉问答数据集，旨在分析叠加文本如何影响视觉-语言模型中的视觉推理。每个样本包含一张自然图像、一个多项选择题以及四个对齐的图像变体，这些变体仅在叠加文本的存在和语义正确性上有所不同。该结构支持对多模态鲁棒性、虚假关联和文本诱导的捷径学习进行受控实验。数据集包含1,062个高质量样本，通过多阶段生成、过滤和人工参与验证流程筛选得出。

支持的研究任务

视觉问答
文本扰动下的多模态推理
视觉-语言模型的鲁棒性与偏见分析
忠实的视觉定位与对文本线索的依赖

数据集结构

每个样本对应一个问题-图像对，包含以下字段。

核心字段

字段名	类型	描述
`question_id`	string	唯一问题标识符
`image_id`	string	图像标识符（文件名主干）
`question`	string	自然语言问题
`choices`	list[string]	多项选择选项（A–D）
`answer`	string	正确答案标签（`A`、`B`、`C` 或 `D`）
`category`	string	问题类别
`version`	string	数据集版本（仅在数据集创建期间使用）

图像变体

每个样本包含四个像素对齐的图像变体，存储为 Hugging Face Image() 特征并延迟解码：

字段名	描述
`notext`	未叠加任何文本的原始图像
`correct`	叠加了 MCQ 问题正确答案的图像
`irrelevant`	叠加了语义上无关文本的图像
`misleading`	叠加了误导性答案（MCQ 问题的一个错误选项）的图像
各变体之间仅叠加文本不同，底层图像内容完全相同。

文本叠加元数据

每张图像都关联有描述生成过程中所用文本叠加的结构化元数据。

字段名	类型	描述
`caption`	string	原始图像的自动生成描述（由 gpt-4o 生成，用作扩散模型的参数）
`fixed_position`	int	预定义文本叠加位置的索引（传递给 gpt-4o 以选择叠加文本位置的已分割图像中的片段编号）
`text_overlays`	dict	每个变体的叠加标注

`text_overlays` 格式

json { "correct": { "text": "White", "text_bbox_xyxy": [x1, y1, x2, y2] // 扩散模型用于叠加文本的边界框 }, "irrelevant": { "text": "decrease", "text_bbox_xyxy": [x1, y1, x2, y2] }, "misleading": { "text": "Pink", "text_bbox_xyxy": [x1, y1, x2, y2] } }

数据生成与筛选流程

自动问题筛选：初步过滤掉模糊或低质量的 VQA 样本。
图像变体生成：为每张图像和每种叠加类型（正确、无关、误导）生成五个候选图像。
人工参与选择：基于文本可读性、视觉清晰度和语义对齐，为每个变体手动选择一个候选。
最终验证：仅保留具有完整变体、有效元数据以及问题-答案对齐一致的样本。

数据集规模与配置

总样本数：1,062 个。
每个样本的图像变体数：4 个。
数据存储：所有图像使用 Git LFS 和 Hugging Face Image() 特征存储。
数据拆分：仅包含一个 test 拆分，包含 1,062 个样本。
下载大小：588,627,016 字节。
数据集大小：589,693,087 字节。

使用示例

python from datasets import load_dataset

ds = load_dataset("AHAAM/CIM", split="test") sample = ds[0]

sample["correct"] # PIL.Image.Image sample["cache_variants"]["misleading"]["text"]

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，CIM数据集的构建体现了对文本叠加影响视觉推理的精细探索。该数据集通过多阶段生成、筛选与人工参与验证的流程，从原始视觉问答样本中筛选出高质量问题-图像对，并利用扩散模型生成四种语义不同的文本叠加图像变体。每个样本均经过人工筛选，确保文本可读性、视觉清晰度与语义对齐，最终保留1062个完整且一致的示例，为可控实验提供了坚实基础。

特点

CIM数据集的核心特征在于其精心设计的四种像素对齐图像变体，包括无文本原图、正确答案叠加、无关文本叠加以及误导性答案叠加。这种结构使得研究者能够精确分析视觉语言模型对叠加文本的依赖程度，揭示多模态推理中的鲁棒性与偏差问题。数据集还提供了丰富的元数据，如文本边界框坐标与图像描述，支持深入的文本-视觉交互研究。

使用方法

使用CIM数据集时，研究者可通过Hugging Face的datasets库直接加载测试集，访问每个样本的问题、选项、答案及四种图像变体。图像以惰性解码方式存储，便于高效处理。该数据集适用于视觉问答、多模态鲁棒性分析等任务，通过对比不同文本叠加条件下的模型表现，探究视觉语言模型是否过度依赖文本线索而忽视视觉证据。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，视觉语言模型在理解和推理图像与文本联合信息方面展现出卓越能力，然而模型对图像中叠加文本的依赖程度及其引发的鲁棒性问题逐渐成为研究焦点。CIM数据集应运而生，由研究团队精心构建，旨在系统探究叠加文本对视觉推理的影响。该数据集通过提供包含原始图像及三种语义各异文本叠加变体的对齐样本，为核心研究问题——即模型在视觉问答任务中是否过度依赖文本捷径而非进行忠实视觉 grounding——提供了可控实验平台。其严谨的人工循环验证流程确保了数据的高质量与一致性，为评估和提升多模态模型的鲁棒性与抗偏置能力奠定了重要基础。

当前挑战

CIM数据集致力于解决视觉问答领域中模型对文本线索的虚假关联与捷径学习这一核心挑战。具体而言，它要求模型必须基于图像视觉内容进行推理，而非被叠加的、可能正确、误导或无关的文本所干扰，这对模型的真实视觉理解能力提出了严峻考验。在构建过程中，挑战同样显著：需确保四种图像变体在像素级别严格对齐，仅文本叠加存在差异，这对图像生成与标注技术提出了极高精度要求；同时，通过多阶段过滤与人工筛选来保证文本的清晰度、视觉自然度以及与问题的语义对齐，此过程耗费大量人力物力，且需在规模与质量间取得平衡。

常用场景

经典使用场景

在视觉语言模型研究领域，CIM数据集为分析文本叠加对视觉推理的影响提供了经典实验平台。该数据集通过提供四种语义对齐的图像变体，使研究者能够系统评估模型在面临正确、无关或误导性文本叠加时的表现差异。这种设计特别适用于探究多模态模型是否过度依赖文本线索而忽略视觉内容，从而揭示其推理机制的潜在脆弱性。

衍生相关工作

围绕CIM数据集已衍生出多项经典研究工作，包括多模态对抗性训练框架的构建与评估协议的设计。这些工作深入探索了视觉语言模型的注意力机制与文本依赖特性，推动了如文本感知视觉推理基准和鲁棒性增强方法的发展。相关成果进一步促进了领域内对模型泛化能力与可解释性的系统性研究。

数据集最近研究

CIM