I-VQA 数据集

Name: I-VQA 数据集
Creator: 上海交通大学, 中关村学院, 上海人工智能实验室
Published: 2025-06-09 22:38:14
License: 暂无描述

arXiv2025-06-09 更新2025-06-11 收录

下载链接：

https://github.com/tychen-SJTU/Implicit-VideoQA

下载链接

链接失效反馈

官方服务：

资源简介：

I-VQA 数据集是一种新型的视频问答数据集，旨在解决视频问答中无法直接定位显式视觉证据的问题。该数据集通过对 Grounded VideoQA 数据集中的视频进行重新组织和去除显式视觉证据片段，以支持隐式视频问答任务的训练和评估。数据集包含 5549 个问答样本，其中 3749 个样本用于训练集，1800 个样本分为测试集。数据集中的问题主要关注于视频中的隐含意义和深层意图，而不仅仅是显式的视觉证据。I-VQA 数据集的创建为隐式视频问答任务的研究提供了重要的数据基础，有助于推动该领域的发展。

The I-VQA dataset is a novel video question answering (VideoQA) dataset aimed at solving the problem that existing VideoQA tasks cannot directly locate explicit visual evidence. This dataset is constructed by reorganizing the videos from the Grounded VideoQA dataset and removing segments containing explicit visual evidence, so as to support the training and evaluation of implicit video question answering tasks. It comprises 5,549 question-answering (QA) pairs, among which 3,749 pairs are assigned to the training set, and the remaining 1,800 pairs are allocated to the test set. The questions in this dataset mainly focus on the implied meanings and deep intentions within videos, rather than just explicit visual evidence. The creation of the I-VQA dataset provides an important data foundation for research on implicit video question answering tasks, and helps promote the development of this field.

提供机构：

上海交通大学, 中关村学院, 上海人工智能实验室

创建时间：

2025-06-09

原始信息汇总

I-VQA 数据集概述

数据集基本信息

名称: I-VQA Dataset
样本数量: 5,549个QA样本
- 训练集: 3,749个样本
- 测试集: 1,800个样本

数据标注

训练集标注文件: dataset/NExT-GQA/ICR/training_4k.json
测试集标注文件: dataset/NExT-GQA/ICR/test_mc.json
视频来源: Next-GQA, E.T. Bench, REXTIME（根据提供的视频ID查找）

标注内容详情

duration: 显式证据（在I-VQA任务中被屏蔽）
context: 上下文问答对
action_relation_intent: 由GPT-4生成的线索
context_relation: 上下文线索与当前隐式问题的关系（1表示相关，0表示无关）

相关文件

SUTD-Traffic QA样本: dataset/SUTD-traffic/filtered_data2.json
PSAV样本: dataset/ads/converted_annotation.json
IRM测试结果:
- 多选: Implicit_reasoner/result/IRM_test_mc.json
- 开放式: Implicit_reasoner/result/IRM_test_open.json
GPT评分/评判脚本: Implicit_reasoner/eval_GPT_score.py

搜集汇总

数据集介绍

构建方式

I-VQA数据集的构建基于Grounded VideoQA数据集（如NextGQA、E.T. Bench和REXTIME）的系统性重组，通过人工掩码和适度扩展（σ=20）显式视觉证据片段，确保问题仅能通过上下文视觉线索推理。数据清洗阶段排除了仅需常识推理、简单描述或无法通过上下文推导的问题（如时间/地点类问题），最终筛选出5,549个高质量QA样本（3,749训练集/1,800测试集）。标注环节将上下文QA对转化为动作-意图线索对，并采用GPT-4标注其与隐式问题的因果关系，人工验证显示标注一致性达92%。

特点

I-VQA数据集聚焦显式视觉证据缺失场景下的视频推理，核心特点包括：（1）问题类型以‘Why’‘How’‘What’为主，涉及符号意义或深层意图推理（如广告意图分析）；（2）每个视频平均包含3-4条有价值的上下文线索（动作-意图对），构成双重推理链；（3）严格的数据清洗确保答案唯一性，排除常识依赖和模糊样本；（4）视频时长约1分钟，显式证据占比10-30%，符合真实场景复杂度。

使用方法

使用I-VQA时需结合双重线索推理框架：首先通过动作-意图模块（AIM）从视频上下文中生成候选线索，经视觉信息验证和关系分类器筛选出有效线索；随后视觉增强模块（VEM）利用筛选线索优化视觉表征，迭代增强线索与视频的交互。评估支持多选（5选项）和开放式回答两种模式，开放式回答需通过GPT-3.5评分（0-5分）验证。数据集适用于训练和评估隐式视频推理模型，如广告意图理解、交通事件预测等任务。

背景与挑战

背景概述

I-VQA（Implicit Video Question Answering）数据集由上海交通大学、中关村研究院和上海人工智能实验室的研究团队于2025年提出，旨在解决视频问答（VideoQA）领域中显式视觉证据缺失情境下的推理难题。该数据集重构自GroundedVQA系列数据集（如NextGQA、E.T. Bench和REXTIME），通过人工掩码关键视觉片段，聚焦符号意义和深层意图相关的隐含问题。其创新性体现为首次系统化定义隐式视频问答任务，推动视频理解从显式定位向上下文推理的范式转变，为认知级视频分析提供了基准平台。

当前挑战

领域挑战：1) 隐式推理需突破时空显式证据依赖，如广告符号解读需关联非连续帧的隐喻线索；2) 多模态对齐存在语义鸿沟，例如‘卷睫毛暗示麦当劳’需跨视觉-文本模态的抽象类比。构建挑战：1) 数据清洗需严格排除常识可解问题（如‘男孩成功翻滚后的情绪’），确保答案必须依赖上下文推理；2) 双线索标注（动作-意图对）需人工验证GPT-4生成的因果关系，避免虚假关联（如误将时序邻近事件判为因果）。

常用场景

经典使用场景

在视频理解与推理领域，I-VQA数据集通过聚焦隐含视觉证据的问答任务，为模型提供了挑战性场景。其经典使用场景包括分析广告视频中的象征性意图（如麦当劳标志与卷曲睫毛的形态关联）或日常视频中的深层行为动机（如母亲盖毯子传递温暖的隐含意义）。数据集通过重构GroundedVQA的显式证据片段并扩展时间戳掩码，强制模型依赖上下文线索而非直接视觉证据进行推理。

解决学术问题

该数据集解决了视频问答中显式证据缺失导致的性能瓶颈问题，尤其针对涉及符号意义或潜在意图的隐含问题。通过引入双重线索推理框架（动作-意图模块和视觉增强模块），IRM模型在I-VQA任务中超越GPT-4o等基线4.87%，验证了建模上下文动作与意图线索对深层语义推理的有效性。其意义在于突破了传统VideoQA对显式片段定位的依赖，推动了视频模态的因果推理与符号理解研究。

衍生相关工作

该数据集衍生出多模态推理的创新方法，如MECD+（视频多事件因果发现）和ACQUIRED（反事实视频问答）。其双重线索建模思想被扩展至广告策略识别（PSAV）和交通预测（Traffic-VQA）等任务，相关成果在NeurIPS和CVPR会议形成系列工作。数据集构建方法论还启发了对CommonsenseQA的视觉化扩展，推动VideoChat2等模型增强时序推理能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集