Visual Causal Graph dataset (VCG-32K)

Name: Visual Causal Graph dataset (VCG-32K)
Creator: 上海人工智能实验室、上海创新研究院、上海交通大学、北京大学、同济大学
Published: 2025-12-02 00:05:13
License: 暂无描述

arXiv2025-12-02 更新2025-12-03 收录

下载链接：

https://github.com/OpenCausaLab/CauSight

下载链接

链接失效反馈

官方服务：

资源简介：

VCG-32K是由上海人工智能实验室等机构联合创建的大规模视觉因果图数据集，旨在推动视觉因果发现研究。该数据集包含32,256张图像，涵盖299,262个实体、2,287个实体类别和185,321条因果关系，数据源自MS-COCO和Objects365两大经典视觉理解数据集。其构建过程采用两阶段标注流程，首先精修边界框以确保实体定位准确，随后基于直接接触、状态维持与反事实干预等因果原则标注实体间的因果机制类型。该数据集主要应用于训练和评估视觉语言模型进行因果推理，以解决机器人操作、自动驾驶等需要安全可靠决策的下游任务中，模型缺乏深层因果理解能力的核心挑战。

VCG-32K is a large-scale visual causal graph dataset jointly created by Shanghai AI Laboratory and other institutions, aiming to advance research in visual causal discovery. This dataset contains 32,256 images, covering 299,262 entities, 2,287 entity categories and 185,321 causal relationships, and its data is sourced from two classic visual understanding datasets: MS-COCO and Objects365. Its construction adopts a two-stage annotation pipeline: first, bounding boxes are refined to guarantee accurate entity localization, then the types of causal mechanisms between entities are annotated based on causal principles including direct contact, state persistence and counterfactual intervention. This dataset is primarily used for training and evaluating visual language models to conduct causal reasoning, so as to address the core challenge that models lack deep causal understanding capabilities in downstream tasks requiring safe and reliable decision-making such as robotic manipulation and autonomous driving.

提供机构：

上海人工智能实验室、上海创新研究院、上海交通大学、北京大学、同济大学

创建时间：

2025-12-02

原始信息汇总

CauSight 数据集概述

数据集基本信息

数据集名称：VCG-32K
数据集发布者：OpenCausaLab
数据集地址：https://huggingface.co/datasets/OpenCausaLab/VCG-32K
关联模型：CauSight
关联模型地址：https://huggingface.co/OpenCausaLab/CauSight
关联论文：https://arxiv.org/abs/2512.01827
论文标题：CauSight: Learning to Supersense for Visual Causal Discovery

数据集内容与用途

该数据集用于视觉因果发现任务，旨在支持模型学习“超感知”以进行视觉因果推理。

数据集获取与使用

下载方式

通过Hugging Face Hub下载，需使用huggingface_hub库。 bash hf download OpenCausaLab/VCG-32K --repo-type dataset --local-dir ./VCG-32K

数据预处理

下载后包含压缩文件，需解压至指定目录。

COCO图像数据：./VCG-32K/COCO/images.tar.gz
365图像数据：./VCG-32K/365/images.tar.gz

关联资源

代码仓库：https://github.com/OpenCausaLab/CauSight
环境配置：需使用Python 3.10，依赖包见requirements.txt。
评估流程：需启动模型服务器后运行推理脚本。
扩展功能：支持使用Tree-of-Causal-Thought方法生成自定义SFT数据。

搜集汇总

数据集介绍

构建方式

在视觉因果发现领域，构建高质量数据集是推动模型从感知迈向推理的关键。Visual Causal Graph dataset (VCG-32K) 的构建基于MS-COCO和Objects365两大经典视觉理解数据集，通过系统化的两阶段标注流程实现。首先，标注人员对原始图像中的边界框进行精细化修正，剔除错误标注、抽象概念或与其他实体无直接接触的实体，并补充具有因果交互的新实体。随后，在因果关系标注阶段，严格依据视觉因果性的定义——即实体间需满足直接接触、维持状态以及反事实干预下状态改变三个条件——来识别并标注实体间的有向因果边及具体因果机制类型。整个流程由资深评审员进行质量核查，确保平均标注准确率超过95%，最终形成了包含32,256张图像、近30万实体和18.5万条因果关系的大规模数据集。

特点

VCG-32K 数据集的核心特点在于其首次实现了视觉场景中实体级因果图的大规模系统标注。与传统的场景图数据集仅描述空间邻接关系不同，该数据集明确揭示了实体间的因果机制与作用方向，例如“支撑”、“携带”等动态交互关系。数据集中每个因果图均包含精确的边界框定位、有向的因果边以及解释“为何”产生因果关系的机制类型标签，为模型提供了从感知到因果推理的丰富监督信号。此外，数据集源自多样化的真实世界场景，涵盖广泛的实体类别与因果模式，其规模与质量为视觉因果发现任务的基准评估与模型训练奠定了坚实基础。

使用方法

VCG-32K 数据集主要用于训练与评估视觉语言模型在因果发现任务上的性能。研究者可将其划分为训练集与测试集，以监督学习或强化学习等方式训练模型从单张图像中推断实体间的因果图结构。数据集中提供的实体边界框、因果边及机制标签可作为直接监督信号，用于模型输出与真实因果图的结构化比对。此外，该数据集支持跨数据集评估，例如使用MS-COCO子集进行训练，并在Objects365子集上测试模型的泛化能力。通过该数据集，研究者能够系统探索模型在复杂视觉场景中进行反事实推理、排除混淆因素并生成精确因果表征的能力，进而推动安全决策、机器人操作等下游应用的发展。

背景与挑战

背景概述

视觉因果发现是人工智能领域的前沿方向，旨在赋予模型从静态图像中推断实体间因果机制的能力，超越传统视觉感知的局限。Visual Causal Graph dataset (VCG-32K) 由上海人工智能实验室、上海交通大学、北京大学等机构的研究团队于2025年构建，是首个大规模实体级因果图标注数据集。该数据集基于MS-COCO和Objects365的32,256张图像，精细标注了超过29.9万个实体及18.5万条因果边，核心研究问题在于推动视觉-语言模型从关联性理解迈向因果性推理，为机器人操作、自动驾驶等需要安全决策的下游任务提供可解释的结构化基础。VCG-32K的发布填补了视觉因果表征的空白，为构建具备因果思维的下一代AI系统奠定了关键的数据基石。

当前挑战

VCG-32K致力于解决的领域核心挑战是视觉因果发现，即要求模型从单一图像中识别实体并推断其间的有向因果关系，而非仅感知空间共现。这一任务面临三重困难：其一，因果关系的判定需基于反事实推理，即判断若原因实体缺失，结果实体的状态是否会改变，这对模型的逻辑推理能力提出了极高要求；其二，视觉场景中常存在大量混杂因素，模型需区分真正的因果机制与表面的空间关联。在数据集构建过程中，挑战同样显著：为确保标注质量，团队设计了两阶段标注流程，先修正边界框以精确定位实体，再依据严格的因果定义（实体接触、状态维持、反事实依赖）标注关系，并通过多人复核使平均准确率超过95%，此过程需克服标注一致性维护与复杂场景因果判定的双重困难。

常用场景

经典使用场景

在视觉因果发现领域，VCG-32K数据集为模型提供了从静态图像中推断实体间因果关系的基准平台。该数据集通过超过32,000张带有实体级因果图标注的图像，涵盖了日常场景中物体间的支撑、抓握、承载等动态交互机制。经典使用场景涉及训练视觉语言模型进行反事实推理，例如判断若移除某个实体（如书架上的笔记本电脑），其他实体（如书本和玻璃杯）的状态将如何变化，从而模拟人类对视觉场景的深层因果理解。

衍生相关工作

基于VCG-32K数据集，研究者开发了CauSight这一新型视觉语言模型，其训练框架融合了树状因果思维轨迹合成与强化学习优化。该工作衍生出多项经典方法，如Tree-of-Causal-Thought（ToCT）通过蒙特卡洛树搜索生成高质量推理轨迹，以及基于图结构的因果奖励机制，这些技术已被应用于提升模型在跨数据集场景下的因果发现性能。后续研究可进一步探索因果图在具身智能、多模态推理等方向的扩展应用。

数据集最近研究