five

CausalSpatial

收藏
github2026-01-22 更新2026-01-23 收录
下载链接:
https://github.com/CausalSpatial/CausalSpatial
下载链接
链接失效反馈
官方服务:
资源简介:
CausalSpatial是首个用于评估对象中心因果空间推理能力的诊断基准数据集。它采用对象中心的表述方式,每个查询都基于图像中目标对象的特定假设运动,探究模型是否能在四个预期任务(碰撞、兼容性、遮挡和轨迹)中模拟实例级动态的后果。

CausalSpatial is the first diagnostic benchmark dataset for evaluating object-centric causal spatial reasoning capabilities. It adopts an object-centric representation framework, where each query is based on the specific hypothesized motion of a target object in an image, to examine whether a model can simulate the consequences of instance-level dynamics across four intended tasks: collision, compatibility, occlusion, and trajectory.
创建时间:
2026-01-16
原始信息汇总

CausalSpatial 数据集概述

数据集基本信息

  • 数据集名称:CausalSpatial
  • 核心定位:首个用于评估因果空间推理能力的诊断性基准。
  • 核心任务:评估模型在对象中心化的假设运动下,进行因果空间推理的能力。
  • 论文状态:论文已发布于arXiv(arXiv:2601.13304),数据集已发布。

数据集设计

  • 设计理念:采用对象中心化的构建方式。每个查询都基于图像中对目标对象施加的特定假设运动。
  • 评估能力:探究模型是否能在四个预测任务中模拟实例级动态的后果。
  • 四大任务
    1. 碰撞
    2. 兼容性
    3. 遮挡
    4. 轨迹

数据内容与结构

  • 数据格式:可通过Hugging Face datasets库加载。
  • 子集划分:数据集包含多个子集,例如collision
  • 评估工具兼容:提供了用于VLMEvalKit评估框架的TSV格式文件。

数据获取与加载

  • Hugging Face仓库IDMwxinnn/CausalSpatial

  • 加载示例: python from datasets import load_dataset dataset = load_dataset("Mwxinnn/CausalSpatial", "collision", split="train")

  • VLMEvalKit文件下载: python from huggingface_hub import hf_hub_download file_path = hf_hub_download(repo_id="Mwxinnn/CausalSpatial", filename="VLMEvalKit/CausalSpatial.tsv", repo_type="dataset")

评估方法

  • 支持模型:可评估包括GPT5、Claude、Gemini、Qwen2.5 VL、Qwen3-VL在内的多模态大语言模型。
  • 评估流程:支持直接评估,也支持结合轨迹预测与视频生成框架(COW)进行间接评估。
  • COW框架:需要额外使用IWM管道进行轨迹预测和视频生成,以辅助模型推理。

依赖环境与工具

  • 关键依赖项目
    1. MapAnything:用于从输入回归场景的3D几何。
    2. ATI:用于视频生成的轨迹运动控制框架。
  • 环境配置:需安装指定requirements.txt,并下载相关模型权重。

引用信息

  • 引用格式

    @article{ma2025causalspatial, title={CausalSpatial: A Comprehensive Benchmark for Object-Centric Causal Spatial Reasoning}, author={Ma, Wenxin and Wang, Chenlong and Yuan, Ruisheng and Chen, Hao and Dai, Nanru and Zhou, S. Kevin and Yang, Yijun and Yuille, Alan and Chen, Jieneng}, journal={arXiv preprint arXiv:2601.13304}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与人工智能领域,空间因果推理能力是衡量模型智能水平的关键维度。CausalSpatial数据集的构建采用了以对象为中心的范式,通过精心设计的图像场景,为每个查询设定一个施加于目标对象的假设性运动。这一过程涉及从真实世界图像中选取多样化场景,并基于物理规律与空间关系,系统性地生成涵盖碰撞、兼容性、遮挡与轨迹预测四类任务的推理问题,从而构建出一个结构化的诊断性基准。
特点
作为首个专注于对象中心化因果空间推理的综合性基准,CausalSpatial具备鲜明的特色。其核心在于模拟人类心智中对三维世界的心理建模能力,要求模型能够推理实例级动态变化所引发的后果。数据集覆盖了四种紧密关联的物理交互任务,形成了层次化的评估体系,为深入剖析多模态大模型在复杂空间因果逻辑上的表现提供了精细的标尺。
使用方法
该数据集旨在系统评估多模态大模型的因果空间推理性能。研究人员可通过Hugging Face平台便捷加载数据子集,并利用配套的评估脚本对各类模型进行测试。评估流程支持结合先进的视频生成框架(如COW),首先生成假设运动对应的视频序列,进而让模型基于动态视觉信息进行推理,从而更全面地考察其模拟物理交互与预测结果的能力。
背景与挑战
背景概述
在人工智能领域,空间推理与因果推断的融合是迈向通用智能的关键一步。CausalSpatial数据集由约翰斯·霍普金斯大学、中国科学技术大学、香港科技大学等机构的研究团队于2026年联合创建,旨在构建首个面向对象中心化因果空间推理的诊断性基准。该数据集的核心研究问题聚焦于评估模型能否在给定图像中模拟目标物体在假设运动下的物理交互后果,涵盖碰撞、兼容性、遮挡与轨迹预测四大任务。其创新性在于将人类心智中自然形成的三维世界心理模型转化为可计算的形式化挑战,为多模态大语言模型与视频生成系统的能力边界提供了严谨的度量标准,推动了具身智能与物理常识推理领域的发展。
当前挑战
CausalSpatial所针对的领域挑战在于突破现有模型在动态空间因果推理上的局限。传统视觉语言模型往往缺乏对物体间物理交互的深层理解,难以从静态图像中推断运动引发的连锁效应,例如预测碰撞后的轨迹变化或遮挡关系的动态演变。在构建过程中,研究团队需克服数据合成的复杂性:既要确保假设运动在物理上的合理性,又需维持视觉场景的多样性与真实性。同时,设计能够精确反映因果关系的评估任务需平衡难度与可解释性,避免引入偏差。此外,整合轨迹预测与视频生成模块时,如何协调多阶段模型的输出一致性,亦是实现可靠评估的关键技术障碍。
常用场景
经典使用场景
在计算机视觉与人工智能领域,CausalSpatial数据集作为首个专注于对象中心因果空间推理的诊断性基准,其经典应用场景在于系统评估多模态大语言模型在复杂物理交互中的推理能力。该数据集通过精心设计的四类任务——碰撞、兼容性、遮挡与轨迹预测,模拟真实世界中的动态情境,要求模型基于静态图像推断目标对象在假设运动下的因果后果,从而深入检验模型是否具备人类般的空间模拟与因果推断智能。
实际应用
在实际应用层面,CausalSpatial数据集所针对的因果空间推理能力是自动驾驶、机器人操作与增强现实等前沿技术的关键基础。例如,在自动驾驶系统中,车辆需准确预测行人或车辆的潜在运动轨迹以避免碰撞;在机器人抓取任务中,机械臂必须理解物体间的物理兼容性与遮挡关系。该数据集通过标准化评估,能够指导开发更安全、更智能的自主系统,推动人工智能技术在复杂动态环境中的可靠部署。
衍生相关工作
围绕CausalSpatial数据集,已衍生出一系列探索空间因果推理的经典研究工作。例如,研究团队提出的COW推理框架,结合轨迹预测与视频生成技术,为模型提供了动态视觉线索以增强推理性能。同时,该数据集与MapAnything、ATI等先进几何建模与运动控制项目的集成,进一步促进了多模态理解与生成模型的协同发展,为构建具备物理世界模拟能力的人工智能系统开辟了新的研究路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作