CausalVQA
收藏arXiv2025-06-12 更新2025-06-13 收录
下载链接:
https://github.com/facebookresearch/CausalVQA
下载链接
链接失效反馈官方服务:
资源简介:
CausalVQA是一个视频问答(VQA)基准数据集,由探索模型对物理世界中因果关系的理解的问答对组成。该数据集填补了现有VQA基准的空白,通过提出基于现实世界场景的挑战性问题,同时关注模型预测不同动作和事件的可能结果的能力。数据集包含五种问题类型:反事实、假设、预期、规划和描述。我们设计了质量控制机制,防止模型利用简单的捷径,要求模型基于对视频内容的深度视觉理解来回答问题。我们发现,当前前沿的多模态模型在基准测试中的表现远低于人类,特别是在预期和假设问题上。这突出了当前系统在利用空间-时间推理、理解物理原理以及理解可能的替代方案以在现实世界环境中做出准确预测方面的挑战。
CausalVQA is a video question answering (VQA) benchmark dataset consisting of question-answer pairs designed to explore models' understanding of causal relationships in the physical world. This dataset fills the gap of existing VQA benchmarks by presenting challenging questions rooted in real-world scenarios, with a focus on evaluating models' capability to predict possible outcomes of diverse actions and events. The dataset includes five question categories: counterfactual, hypothetical, anticipatory, planning, and descriptive. We have developed a quality control mechanism to prevent models from exploiting simple shortcuts, mandating that answers be derived from in-depth visual comprehension of the video content. We observed that current state-of-the-art multimodal models achieve significantly lower performance than humans on this benchmark, particularly on anticipatory and hypothetical questions. This underscores the challenges facing contemporary systems in leveraging spatio-temporal reasoning, grasping physical principles, and understanding potential alternatives to generate accurate predictions within real-world environments.
提供机构:
FAIR at Meta
创建时间:
2025-06-12
原始信息汇总
CausalVQA 数据集概述
数据集简介
- 名称:CausalVQA
- 类型:视频问答(VQA)基准数据集
- 目的:评估模型在物理世界中的因果推理能力
- 特点:
- 基于真实世界场景
- 包含五种问题类型:反事实、假设性、预期性、规划性和描述性
- 设计质量控制机制,防止模型利用简单捷径
数据集构成
- 问题类型:
- 反事实(counterfactual)
- 假设性(hypothetical)
- 预期性(anticipation)
- 规划性(planning)
- 描述性(descriptive)
- 难度等级:基于273名非专家标注者的人类试验结果
数据获取与使用
- 许可:EgoExo License,需通过Ego-Exo4D项目申请
- 下载方式:
- 使用AWS S3 CLI工具下载
- 下载命令:
aws s3 cp s3://ego4d-consortium-sharing/egoexo-public/v2/causal_vqa/CausalVQA.zip <your location>\CausalVQA.zip
- 目录结构: text CausalVQA/ ├── lmms-eval/ ├── models/ ├── scripts/ ├── tasks/ ├── data/ └── debug/ └── test/
评估与运行
- 环境设置:
- 使用提供的makefile进行环境设置和依赖安装
- 主要命令:
make setup_env,make setup_vllm,make setup_lmms_eval,make setup_plm,make setup_cleanup,make prep_debug_data
- 评估运行:
- 支持多种模型评估,如InternVL2、LLaVA、Qwen2等
- 主要命令:
make run_internvl2_5,make run_llava_onevision,make run_qwen2_5vl_vllm,make run_plm,make run_gemini_oai,make run_gpt4o
数据标注
- 标注文件内容:
- qid:问题标识符
- type:问题类型
- question:问题文本
- choices1:多项选择
- correct1:choices1的目标答案(测试集中移除)
- choices2:扰动和重新排序的多项选择
- correct2:choices2的目标答案(测试集中移除)
- difficulty:基于人类基准的难度等级
- renamed_video:视频文件名
相关资源
- 论文:CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models
- 博客:V-JEPA 2 World Model Benchmarks
- 排行榜:CausalVQA Leaderboard
- 相关基准:IntPhys2, MVPBench
引用
bibtex @misc{causalvqa, title={CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models}, author={Aaron Foss and Chloe Evans and Sasha Mitts and Koustuv Sinha and Ammar Rizvi and Justine T Kao}, year={2025}, eprint={}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
CausalVQA数据集的构建采用了一种混合人机协作的流程,旨在确保问题的多样性和现实世界相关性。首先,从EgoExo4D数据集中精选了298段第一人称视角视频,涵盖丰富的物理互动场景。随后,16名标注员根据五种问题类型(反事实、假设、预测、规划和描述性)生成问题-答案对,并通过视觉语言模型(VLM)生成干扰项。为确保语言质量,使用Llama 3.1-70B-Instruct对问题和干扰项进行语言精炼和标准化。最后,通过语言扰动和重新排序机制生成问题的两个变体(MCQ和MCQ'),以降低模型对表面语言特征的依赖。
特点
CausalVQA数据集专注于物理世界中的因果推理,包含1,586个问题项,涵盖五种问题类型和三个难度级别(基于人类表现)。其独特之处在于强调视觉基础性,通过严格的过滤步骤确保问题需要深入理解视频内容才能回答,而非依赖语言线索。此外,数据集通过问题配对机制(MCQ和MCQ')增强了统计效力,能够更精确地衡量模型对视频内容的鲁棒理解能力。人类基线表现(84.78%准确率)与当前最先进模型(如Gemini 2.5 Flash的61.66%)之间的显著差距,凸显了该数据集在评估复杂因果推理能力方面的挑战性。
使用方法
CausalVQA设计为五选一多项选择题测试,支持零样本评估。研究者可通过提供的视频片段和配对问题(MCQ/MCQ')测试模型性能,使用配对准确率(仅当模型同时答对两个变体时计分)作为核心指标。数据集包含调试子集(100个简单问题)用于超参数调整,主测试集则通过在线排行榜进行评估提交。评估时建议使用均匀采样的视频帧(如16帧),并设置温度参数为零以确保可复现性。此外,可通过盲测(无视频输入)和单帧测试(仅末帧输入)进行消融实验,分析模型对视觉信息的依赖程度。
背景与挑战
背景概述
CausalVQA是由Meta的FAIR团队于2025年推出的视频问答(VQA)基准数据集,旨在评估多模态模型在真实物理场景中的因果推理能力。该数据集基于EgoExo4D的自我中心视频构建,包含1,586个问题对,涵盖反事实、假设、预期、规划和描述性五种问题类型。通过混合人工与模型协同的标注流程,CausalVQA填补了现有基准在真实世界复杂因果推理评估上的空白,特别强调模型需基于深层视觉理解而非语言线索作答。其创新性的问题配对设计和严格的质量控制机制,为衡量AI系统对物理原理和时空关系的理解提供了标准化测试平台。
当前挑战
CausalVQA面临的核心挑战体现在两个方面:领域问题层面,现有视频模型在反事实推理(如'若改变动作会如何')和未来预测(如'接下来可能发生什么')等需要物理常识的任务上表现显著低于人类水平,尤其在预期和假设类问题中差距达27%;数据构建层面,需克服真实视频中因果关系的隐含性(如避免通过单帧画面或语言模式即可推测答案的捷径),同时确保问题多样性(如平衡运动场景与日常活动)和标注一致性(如通过多轮人工校验消除模糊问题)。此外,数据筛选过程中约39%的问题因语言模型可独立回答而被剔除,凸显了构建视觉强相关基准的难度。
常用场景
经典使用场景
CausalVQA数据集作为视频问答(VQA)领域的创新基准,专为评估多模态模型在真实物理场景中的因果推理能力而设计。其经典应用场景包括通过五种问题类型(反事实、假设、预测、规划和描述性)系统性地测试模型对动态视觉信息的时空推理能力,例如预测物体运动轨迹或评估行为后果。数据集基于EgoExo4D的自我中心视角视频,模拟人类直觉物理认知,为模型提供复杂现实场景下的因果链分析任务。
实际应用
在现实应用中,CausalVQA可赋能具身智能系统在非结构化环境中的决策能力,如家庭服务机器人预测物品跌落风险、AR设备实时规划避障路径。其对反事实和假设性问题的强调,直接关联医疗仿真训练、自动驾驶因果分析等高风险场景。数据集的自我中心视角特性尤其适用于可穿戴设备开发,要求模型通过穿戴者视角理解物理交互逻辑,为下一代人机协作系统提供关键测试基准。
衍生相关工作
CausalVQA的发布催生了多模态推理模型的创新架构设计,如PerceptionLM通过参数高效的方式在反事实问题上显著优于GPT-4o。其方法论影响了后续基准如VideoPhy的物理合理性评估框架,而数据构建中的语言扰动策略被ACQUIRED等数据集采纳为抗偏置标准。该工作还推动了Ego4D生态的扩展,促使Egocentric-VQA等研究重新审视第一视角下的因果表征学习。
以上内容由遇见数据集搜集并总结生成



