vqa-cmsv-benchmark

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/as-benchmark-artifacts/vqa-cmsv-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

VQA-CMSV Benchmark 是一个用于视觉问答（VQA）任务的数据集包，包含 VQA v2-CMSV、GQA-CMSV 和 VG-CMSV 的标注分割以及用于掩码监督实验的补丁掩码 NPZ 文件。数据集适用于视觉语言任务，特别是涉及视觉问答和快捷偏差研究的场景。数据规模介于 10 万到 100 万之间，具体分为训练集、验证集和测试集。VQA v2-CMSV 包含 97,582 个训练样本、12,199 个验证样本和 12,199 个测试样本；GQA-CMSV 包含 8,007 个训练样本、1,010 个验证样本和 983 个测试样本；VG-CMSV 包含 8,002 个训练样本、996 个验证样本和 1,002 个测试样本。数据集还包括掩码 NPZ 文件，其形状分别为 (69884, 24, 24)、(5461, 24, 24) 和 (3772, 24, 24)。常见字段包括 question_id、image_id、answer_type 以及问题和答案文本。GQA-CMSV 和 VG-CMSV 还包含 text_keywords、visual_cues、original_answer、generated_question 和 generated_answer 等字段。NPZ 文件包含 question_ids、image_ids、coverage_ratio、has_mask 和相关的图像填充元数据。数据集不包含原始或掩码图像文件，用户需自行获取或准备相应图像并遵守原始数据集的许可条款。

创建时间：

2026-05-04

原始信息汇总

数据集概览：VQA-CMSV Benchmark

数据集名称：VQA-CMSV Benchmark
许可协议：其他
语言：英语
任务类别：视觉问答（Visual Question Answering）
标签：视觉-语言、视觉问答、捷径偏差、补丁掩码、LLaVA
数据规模：100,000 < 样本数 < 1,000,000

数据集组成

该数据集包含三个子配置，每个配置均提供训练集、验证集和测试集：

配置名称	训练集文件	验证集文件	测试集文件
`vqa_v2_cmsv`	`data/vqa_v2_cmsv/train.json`	`data/vqa_v2_cmsv/val.json`	`data/vqa_v2_cmsv/test.json`
`gqa_cmsv`	`data/gqa_cmsv/train.jsonl`	`data/gqa_cmsv/val.jsonl`	`data/gqa_cmsv/test.jsonl`
`vg_cmsv`	`data/vg_cmsv/train.jsonl`	`data/vg_cmsv/val.jsonl`	`data/vg_cmsv/test.jsonl`

此外，还包含以下掩码（NPZ）文件：

masks/vqa_v2_cmsv_masks.npz
masks/gqa_cmsv_masks.npz
masks/vg_cmsv_masks.npz

以及 manifest.json 和 metadata/summary.json 文件。

数据集规模

子数据集	训练集	验证集	测试集
VQA v2-CMSV	219,562	12,199	12,199
GQA-CMSV	8,007	1,010	983
VG-CMSV	8,002	996	1,002

掩码NPZ文件规模：

VQA v2-CMSV：69,884 行，形状为 (69884, 24, 24)
GQA-CMSV：5,461 行，形状为 (5461, 24, 24)
VG-CMSV：3,772 行，形状为 (3772, 24, 24)

数据字段说明

所有子数据集包含的公共字段：

question_id：问题ID
image_id：图像ID
answer_type：答案类型
question/answer text：问题与答案文本

GQA-CMSV 和 VG-CMSV 额外包含：

text_keywords：文本关键词
visual_cues：视觉线索
original_answer：原始答案
generated_question：生成的问题
generated_answer：生成的答案

NPZ掩码文件包含：

question_ids：问题ID列表
image_ids：图像ID列表
coverage_ratio：覆盖比例，coverage_ratio[i, row, col] 表示在LLaVA 24x24视觉补丁中，经过pad-to-square预处理后，二进制掩码覆盖该补丁的分数
has_mask：是否有掩码标记
相关的图像填充元数据

重要说明

原始图像文件和掩码图像文件不包含在本仓库中，用户需自行获取或准备对应图像，并遵守原始数据集的许可协议。
data/vqa_v2_cmsv/train.json 是主SAGE实验中阶段-2的训练混合数据，包含219,562条记录：75,196条带SAM3补丁掩码监督的生成式CMSV记录、22,386条不带掩码监督的生成式CMSV记录、121,980条VQA train2014无掩码记录。
JSON/JSONL分割文件保留了所有问题，训练期间被Qwen过滤掉的问题并未从文件中移除。
NPZ掩码文件经过了过滤：如果 question_id 在训练期间被Qwen过滤，或样本的 answer_type == "number"，则对应的NPZ行被移除。该过滤仅适用于发布的NPZ掩码行，对应的QA记录仍保留在JSON/JSONL文件中。
对于GQA-CMSV和VG-CMSV，image_path 已清理为相对占位符 masked_images/<dataset>/...，这些图像文件不包含在内。

许可与上游数据

本数据集包作为衍生研究注释和掩码元数据发布。底层源数据集和图像保留其原始许可和条款。详情请参阅 NOTICE.md 文件。

搜集汇总

数据集介绍

构建方式

VQA-CMSV Benchmark数据集的构建根植于视觉问答领域中对捷径偏差与掩码监督机制的探索。该数据集整合了VQA v2、GQA和VG三大经典视觉问答数据集的CMSV变体，通过筛选与合并生成训练、验证和测试子集。构建过程中，对SAM3补丁掩码进行了监督元数据的过滤，仅保留经Qwen模型审核后有效的question_id，并排除了answer_type为“number”的样本，由此形成了三个规模各异但结构一致的数据配置。每个配置均以JSON或JSONL格式存储样本字段，并附带NPZ格式的掩码文件，用于支持基于补丁的掩码监督实验。原始图像及掩码图像不直接包含，用户需自行获取并遵循原数据集许可。

特点

该数据集的核心特点在于其针对视觉语言模型中的捷径偏差问题设计，融合了多源数据并引入了补丁掩码监督机制。VQA-CMSV不仅保留了原始问题的多样性，还通过生成式CMSV记录模拟了模型可能依赖的虚假关联，从而为评估和缓解捷径偏差提供了基准。掩码NPZ文件记录了LLaVA模型24x24视觉补丁的覆盖比率，为细粒度的视觉-语言对齐研究提供了元数据支撑。数据集涵盖三个子集，训练规模从数千至数万条不等，其中VQA v2-CMSV以219,562条记录最为庞大，兼顾了数据量与任务复杂度。此外，GQA-CMSV和VG-CMSV附加了文本关键词、视觉线索及生成问答字段，进一步丰富了模型可解释性分析的维度。

使用方法

使用VQA-CMSV Benchmark时，用户首先需从原始来源获取VQA v2、GQA和VG数据集对应的图像文件，并独立准备掩码图像。数据加载可通过HuggingFace Datasets库实现，利用配置名称如'vqa_v2_cmsv'、'gqa_cmsv'或'vg_cmsv'访问各子集的JSON或JSONL分裂文件。掩码NPZ文件可用于训练过程中的掩码监督，其shape为(N, 24, 24)，其中N为有效行数，用户需根据question_id与对应问答记录对齐。训练时，可结合LLaVA等视觉语言模型，利用补丁掩码进行特征遮挡或注意力引导，以检验模型对捷径特征的依赖程度。建议在加载数据前仔细阅读NOTICE.md文件，确保遵守原始数据集的许可条款。

背景与挑战

背景概述

视觉问答（VQA）作为联结视觉与语言理解的核心任务，近年来取得了显著进展，但模型常依赖训练数据中的统计捷径（shortcut bias）而非真正的视觉语义推理，例如仅凭问题中的关键词即可作答。为系统性地暴露与缓解这一问题，研究人员于近期创建了VQA-CMSV Benchmark。该基准由多个权威机构联合发布，涵盖VQA v2、GQA与Visual Genome三大经典VQA数据集，通过构建‘对比性掩码语义变异’（CMSV）样本，即在保留问题语义的同时，对图像关键区域施加精细化补丁掩码，迫使模型必须依赖完整的视觉-语言交互才能正确作答。该基准不仅提供了大规模标注分割（如VQA v2-CMSV训练集包含近22万条记录），还首次引入了基于SAM3的补丁掩码监督元数据（NPZ文件），为研究捷径偏差的成因与缓解策略提供了标准化评估平台，对推动VQA领域向更鲁棒、更可解释的视觉语言模型发展具有深远影响。

当前挑战

该数据集旨在应对两方面的核心挑战。其一，在领域问题层面，现有VQA模型普遍存在的捷径偏差严重制约了其泛化与推理能力——模型可在未见真实视觉内容的情况下，利用问题-答案间的表面关联给出正确回答。CMSV基准通过构造问题相同但视觉掩码不同的对抗样本，系统性地评估模型是否真正理解视觉上下文，从而推动模型从‘统计匹配’转向‘因果推理’。其二，在构建过程中，团队面临多项技术挑战：如何在不破坏原始问答语义的前提下生成具有诊断性的掩码版本；如何对来自不同数据源（VQA v2、GQA、VG）的数万张图像进行统一的预处理（如填充至正方形并映射至LLaVA的24×24视觉块网格）；以及如何高效过滤与筛选掩码元数据（如移除数值型答案的样本），确保监督信号的有效性与一致性。这些严格的构建工序确保了基准的严谨性与可复现性。

常用场景

经典使用场景

在视觉语言前沿探索中，模型常因依赖数据集中的捷径关联而忽视核心视觉语义，导致泛化能力堪忧。VQA-CMSV Benchmark正是为诊断与缓解这一顽疾而生，其核心用途在于评估与训练视觉问答模型对捷径偏见的鲁棒性。通过精心构造的混淆样本与补丁掩码监督信号，该数据集迫使模型在回答问题时必须真正关注图像中的关键区域，而非依赖语言先验或表面统计模式，从而成为检验模型视觉推理深度的试金石。

衍生相关工作

围绕VQA-CMSV的思想脉络，学界已衍生出多个代表性工作。例如，基于补丁掩码监督的SAGE方法首次将空间掩码信号融入视觉语言微调阶段，显著降低了模型对捷径的依赖；后续研究如MoVQA和Counterfactual VQA借鉴其混淆样本构造策略，探索了因果推断与反事实推理在视觉问答中的应用。此外，该基准的设计理念也启发了视觉语言导航、图文匹配等领域的去偏研究，形成了以“对抗样本+空间监督”为核心的技术路线，持续推动多模态模型的公平性与鲁棒性评估。

数据集最近研究