five

CausalVQA

收藏
github2025-06-11 更新2025-06-12 收录
下载链接:
https://github.com/facebookresearch/CausalVQA
下载链接
链接失效反馈
官方服务:
资源简介:
CausalVQA是一个用于视频问答(VQA)的基准数据集,包含探究模型对物理世界中因果关系理解的问题-答案对。现有VQA基准往往侧重于对现实世界视频的表面感知理解,或使用模拟环境创建的狭窄物理推理问题。CausalVQA通过提出基于现实世界场景的挑战性问题填补了这一空白,同时聚焦于模型通过五种问题类型(反事实、假设、预期、规划和描述性)预测不同行动和事件可能结果的能力。

CausalVQA is a benchmark dataset for video question answering (VQA) that encompasses question-answer pairs exploring the model's understanding of causal relationships in the physical world. Existing VQA benchmarks often focus on the surface perceptual understanding of real-world videos or employ narrow physical reasoning problems created in simulated environments. CausalVQA fills this gap by posing challenging questions based on real-world scenarios, while focusing on the model's ability to predict the possible outcomes of different actions and events through five question types (counterfactual, hypothetical, expected, planning, and descriptive).
创建时间:
2025-06-07
原始信息汇总

CausalVQA 数据集概述

数据集简介

  • 名称:CausalVQA
  • 类型:视频问答(VQA)基准数据集
  • 核心目标:评估模型在物理世界中因果推理的能力
  • 特点
    • 问题-答案对基于真实世界场景
    • 包含五种问题类型:反事实、假设性、预期性、规划性和描述性
    • 设计质量控制机制以防止模型利用简单捷径

数据集组成

  • 问题类型
    • 反事实(counterfactual)
    • 假设性(hypothetical)
    • 预期性(anticipation)
    • 规划性(planning)
    • 描述性(descriptive)
  • 难度级别:基于273名非专家标注者的人类试验结果

数据集获取与使用

  • 许可证:EgoExo License(需通过Ego-Exo4D项目获取)
  • 获取步骤
    1. 申请Ego4D许可证(https://ego4ddataset.com/egoexo-license/)
    2. 安装AWS CLI工具并配置
    3. 使用AWS S3 CLI下载数据集
  • 目录结构: text CausalVQA/ ├── lmms-eval/ ├── models/ ├── scripts/ ├── tasks/ ├── data/ └── debug/ └── test/

评估与运行

  • 环境设置:通过makefile辅助设置
  • 评估准备:需替换数据集路径中的绝对引用
  • 运行评估:支持多种模型评估(如internvl2_5、llava_onevision等)

标注文件内容

  • 包含字段
    • qid(问题标识符)
    • type(问题类型)
    • question(问题文本)
    • choices1(多项选择)
    • correct1(choices1的目标答案)
    • choices2(扰动和重新排序的多项选择)
    • correct2(choices2的目标答案)
    • difficulty(难度级别)
    • renamed_video(视频文件名)

相关资源

  • 论文:https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models
  • 博客:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks
  • 排行榜:https://huggingface.co/spaces/facebook/pwm_leaderboard
  • 同行基准:IntPhys2、MVPBench

引用

bibtex @misc{causalvqa, title={CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models}, author={Aaron Foss and Chloe Evans and Sasha Mitts and Koustuv Sinha and Ammar Rizvi and Justine T Kao}, year={2025}, eprint={}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
CausalVQA数据集的构建立足于填补视频问答领域中因果推理能力的评估空白。研究团队精心设计了五类问题(反事实、假设性、预期性、规划性和描述性),这些问题均基于真实世界场景,通过严格的质控机制确保模型必须依赖深度视觉理解而非语言线索来作答。数据集采用Ego4D平台授权视频片段,由273名非专业标注者参与难度校准,形成了具有物理世界因果关联的问答对。
特点
该数据集的核心价值在于其物理因果推理的深度标注特性。区别于传统视频问答数据集对表层感知的侧重,CausalVQA通过多模态问题设计(含扰动选项对和难度分级),系统评估模型对时空推理、物理原理及替代可能性的理解。特别值得注意的是,测试集答案经过刻意屏蔽,迫使模型必须通过视频内容推导结论,这种机制有效防止了数据泄露导致的评估偏差。
使用方法
使用该数据集需遵循严格的授权流程,包括申请Ego4D许可证并配置AWS CLI工具。数据下载后需通过特定目录结构进行部署,配套的Makefile自动化脚本可完成环境配置、依赖安装及数据预处理。评估阶段支持多种前沿多模态模型的测试,运行预设指令即可生成基准结果。值得注意的是debug集包含完整标注而测试集仅提供问题,这种设计既保障了研究复现性又维护了评估的严谨性。
背景与挑战
背景概述
CausalVQA是由Meta AI研究团队于2025年推出的视频问答基准数据集,旨在评估模型对物理世界中因果关系的理解能力。该数据集填补了现有视频问答基准的空白,通过真实场景中的五种问题类型(反事实、假设性、预期性、规划性和描述性),深入探究模型对动作与事件结果的预测能力。研究团队设计了严格的质量控制机制,确保模型必须基于深层次视觉理解而非语言线索进行回答。作为评估物理世界模型的系列基准之一,CausalVQA与IntPhys2和MVPBench共同推动了多模态推理研究的发展。
当前挑战
CausalVQA面临的挑战主要体现在两个方面:在领域问题层面,现有前沿多模态模型在预期性和假设性问题上的表现显著低于人类水平,突显了模型在时空推理、物理原理理解以及替代方案认知方面的不足;在构建过程中,研究团队需要克服真实场景下因果关系的复杂建模难题,同时确保问题设计避免模型利用语言线索等捷径策略,这对数据采集、标注和验证提出了极高要求。
常用场景
经典使用场景
在视频理解与因果推理领域,CausalVQA数据集通过真实世界场景中的视频问答对,为模型提供了深入探究物理因果关系的平台。其独特的五类问题设计——反事实、假设性、预期性、规划性和描述性,不仅挑战模型对时空动态的把握,更要求其理解物理法则与可能性推理。该数据集已成为评估多模态模型因果推理能力的黄金标准,尤其在需要预测动作后果或事件发展的研究场景中展现不可替代的价值。
实际应用
该数据集的实际价值在智能体决策系统中得到充分体现。自动驾驶车辆需预测行人行为后果,家庭服务机器人要预判物体交互影响,这些场景都依赖CausalVQA所强调的因果推理能力。工业界已将其作为测试视觉-语言模型物理常识的基准,特别是在需要长期规划与反事实推理的安防监控、医疗辅助诊断等领域。数据集构建时采用的人类基线难度分级,更使其成为产品化AI系统可靠性验证的重要参照。
衍生相关工作
CausalVQA的发布催生了多模态推理模型的创新浪潮。基于其构建的IntPhys2和MVPBench等姊妹基准,共同形成了物理世界模型评估体系。学术界相继提出时空图神经网络、神经符号混合系统等新架构来应对其挑战,Meta发布的V-JEPA世界模型便直接受其启发。该数据集还促进了因果表示学习与视频Transformer的结合,相关成果在NeurIPS和ICML等顶会上形成系列突破性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作