YoCausal

Name: YoCausal
Creator: 国立阳明交通大学; 盛大人工智能研究院·东京
Published: 2026-05-29 01:59:51
License: 暂无描述

arXiv2026-05-29 更新2026-05-30 收录

下载链接：

https://www.youzhexie.me/papers/YoCausal/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

YoCausal是由国立阳明交通大学与盛大人工智能研究院东京团队构建的因果认知评估基准数据集。该数据集包含1232个真实世界视频样本，涵盖日常生活、物理现象、人类行为及动物活动四大主题领域，通过零成本时间反转技术生成自然反事实样本对。其创新性构建方法摒弃了传统合成数据的局限，利用现有视频资源进行时间反转，实现了数据规模的任意扩展与场景多样性的突破。该数据集专为评估视频扩散模型的因果理解能力而设计，旨在揭示生成模型是否真正内化了世界因果结构，为推进人工智能向世界模型发展提供关键诊断工具。

YoCausal is a causal cognition evaluation benchmark dataset developed by National Yang Ming Chiao Tung University and the Tokyo team of Shanda Artificial Intelligence Research Institute. This dataset comprises 1,232 real-world video samples spanning four thematic domains: daily life, physical phenomena, human behaviors, and animal activities. It generates natural counterfactual sample pairs using a zero-cost time reversal technique. Its innovative construction approach circumvents the limitations of traditional synthetic data; by leveraging existing video resources for time reversal, it enables arbitrary scaling of the dataset size and breakthroughs in scene diversity. Specifically designed to evaluate the causal understanding capabilities of video diffusion models, this dataset aims to uncover whether generative models have truly internalized the causal structure of the world, thereby providing a critical diagnostic tool for advancing artificial intelligence toward world models.

提供机构：

国立阳明交通大学; 盛大人工智能研究院·东京

创建时间：

2026-05-29

原始信息汇总

数据集概述

数据集名称: YoCausal
目标: 评估视频生成模型（VDMs）的因果认知能力，灵感来自认知科学中测试婴儿是否感知因果关系的反向视频实验。
构建方法: 通过零成本的时间反转，将真实世界视频作为自然反事实样本，构建可无限扩展的基准数据集。
核心创新:
- 第一个基于认知科学的视频生成模型因果关系基准。
- 可构建任意可扩展的真实世界数据集，消除模拟到现实的差距。
- 基于认知科学的双层框架：Level 1 量化时间感知（逆向惊奇指数 RSI），Level 2 通过视觉语言模型（VLM）将数据集划分为因果子集和非因果子集，计算因果认知指数（CCI），以分离真实因果推理与时间偏差。
数据集构成: 包含来自不同领域的真实世界视频，涵盖General（通用）、Physics（物理）、Human（人类）、Animal（动物）等类别。
评估指标:
- Level 1 - 逆向惊奇指数（RSI）: 通过去噪损失量化模型对时间箭头的感知。衡量反向视频损失高于正向视频的比例。
- Level 2 - 因果认知指数（CCI）: 基于VLM对因果与非因果子集的RSI差异计算，用于衡量真正的因果认知能力。
基准测试结果: 评估了13个SOTA视频生成模型，发现感知时间箭头并不等同于理解因果关系，模型与人类水平的因果认知仍存在显著差距。
- 人类基准: RSI平均79.08%，CCI 8.67%。
- 最佳模型: Wan2.1-T2V-14B（RSI 53.24%, CCI 5.91%），Wan2.2-T2V-A14B（RSI 54.19%, CCI 5.51%）。
- 部分模型在CCI上出现负值，表明其无法有效区分因果与非因果序列。

搜集汇总

数据集介绍

构建方式

YoCausal数据集基于认知科学中的期望违背范式构建，通过将真实世界视频进行零成本的时间反转，生成自然反事实样本。数据集包含通用场景、物理现象、人类动作和动物行为四个主题子集，分别源自Moments in Time、Physics IQ、Kinetics-400和Animal Kingdom等现有数据集。这种设计使得基准测试具有任意可扩展性，能够无缝整合新领域视频，无需依赖合成数据或受控实验室设置，从而避免了模拟到现实的鸿沟。

特点

YoCausal的核心特点在于其两层评估框架：第一层通过反转惊奇指数量化模型对时间箭头的感知能力，第二层利用因果认知指数将数据集聚类为因果与非因果子集，从而分离真正的因果推理与统计时间偏差。该基准测试具有零成本的可扩展性，任何真实视频均可被纳入，实现了前所未有的场景多样性。评估13个前沿视频扩散模型后发现，感知时间箭头并不等同于理解因果关系，且模型与人类认知水平之间仍存在显著差距。

使用方法

使用YoCausal时，研究者需选取待评估的视频扩散模型，对数据集中的每个视频生成正向与反向序列，并向两者添加相同的采样噪声，然后计算去噪损失。在第一层中，反转惊奇指数衡量模型正确为正向视频分配更低去噪损失的比例；在第二层中，借助视觉语言模型将视频自动分类为因果与非因果子集，因果认知指数通过计算这两个子集上反转惊奇指数的差值来隔离因果认知能力。最终，可综合两个指标对模型进行排序，全面评估其因果认知水平。

背景与挑战

背景概述

YoCausal基准数据集由台湾阳明交通大学与盛大AI研究东京团队于2026年联合创建，旨在探索视频扩散模型（VDM）是否真正具备因果认知能力。该研究受认知科学中“期望违背”（VoE）范式启发，通过零成本的时间反转操作生成自然反事实样本，构建了两个评价层级。第一层采用反向惊喜指数（RSI）量化模型对时间箭头的感知，第二层提出因果认知指数（CCI）以区分模型对因果关系的真实理解与对统计时间模式的过拟合。该基准因采用真实世界视频而规避了合成数据带来的模拟至现实鸿沟问题，对13个前沿视频扩散模型的评估揭示了模型在因果认知方面与人类水平之间的显著差距，推动了生成模型向世界模型发展的关键性评价研究。

当前挑战

YoCausal针对视频生成模型因果认知评价的核心难题而设计，主要面临两大挑战。其一为领域问题挑战：现有视频生成模型常被质疑仅拟合统计时间模式而非真正理解因果关系，传统基准多依赖合成数据或受控实验室场景，难以评估模型在多样化真实世界中的因果认知泛化能力。其二为构建过程中的挑战：如何在不引入额外标注成本的前提下生成大规模反事实样本，如何从时间箭头感知中解耦出真正的因果理解，以及如何确保评价指标不受视觉美观度、低级运动线索等干扰因素的影响。YoCausal通过创新的时间反转策略与因果/非因果子集划分机制精准回应了这些挑战。

常用场景

经典使用场景

YoCausal作为首个从因果认知角度评估视频扩散模型的基准，其核心使用场景在于量化生成模型对时间箭头和因果关系的理解能力。借鉴认知科学中的期望违背范式，该数据集通过零成本的时间反转操作，将真实世界视频转化为自然反事实样本，从而构建了一个可任意扩展的双层次评估协议。第一层采用反转惊讶指数衡量模型对时间方向性的感知，第二层通过因果认知指数将真正的因果推理与统计时间偏好相分离。这一设计使得YoCausal能够系统性地揭示视频生成模型是否真正内化了因果关系，抑或是仅过拟合于时序模式，为理解当前生成模型的世界建模能力提供了全新的认知维度和量化工具。

衍生相关工作

YoCausal的开创性工作催生了多个重要的衍生研究方向。其一，基于其设计的直觉物理与因果认知联合评测框架，研究者探索了将物理先验融入视频扩散模型的训练后优化方法；其二，受其反事实反转样本构建方式的启发，出现了利用类似时间反转策略进行视频模型自监督学习和因果表示提取的新范式；其三，YoCausal揭示的因果认知与模型规模、架构的关联性，推动了探索扩散Transformer在因果理解上的缩放定律研究；其四，该基准中视觉语言模型自动划分因果与非因果子集的方法论，已被后续工作借鉴用于构建更大规模的因果视频数据集。

数据集最近研究