CRONOS
收藏arXiv2026-05-22 更新2026-05-26 收录
下载链接:
https://genintel.github.io/CRONOS/
下载链接
链接失效反馈官方服务:
资源简介:
CRONOS是由弗赖堡大学等机构创建的干预式基准数据集,旨在评估视频模型的反事实物理一致性。该数据集包含675个高保真视频,通过虚幻引擎环境生成,涵盖了碰撞、坠落和遮挡三种物理事件,并系统干预了场景、视角、物体外观和类别四个维度。其创建过程基于可控的物理模拟,独立操纵视觉因素以保持底层事件类型不变。该数据集主要应用于视频生成模型的评估与诊断,旨在解决模型在视觉输入受控变化下是否保持物理预测一致性的核心问题,推动构建具有稳健因果表征的世界模型。
CRONOS is an interventional benchmark dataset developed by the University of Freiburg and other institutions, designed to evaluate the counterfactual physical consistency of video models. This dataset contains 675 high-fidelity videos generated using the Unreal Engine environment, covering three types of physical events: collision, falling, and occlusion. It systematically intervenes along four dimensions: scene, viewpoint, object appearance, and object category. Its construction is based on controlled physical simulations, where visual factors are independently manipulated while the underlying event type remains unchanged. This dataset is primarily used for the evaluation and diagnosis of video generation models, aiming to address the core question of whether models maintain physical prediction consistency under controlled visual input changes, and promote the construction of world models with robust causal representations.
提供机构:
弗赖堡大学; 马克斯·普朗克信息学研究所; CISPA亥姆霍兹信息安全中心
创建时间:
2026-05-22
原始信息汇总
数据集概述:CRONOS
CRONOS 是一个用于评估视频模型反事实物理一致性的干预式基准测试。其核心目标是衡量模型在视觉输入受控变化(如场景、视角、物体外观和类别)下,物理事件预测的合理性。
基准测试设计
- 核心思想:将视频模型评估视为可控的反事实实验。每个物理事件通过一次仅干预一个场景因素(保持其他因素不变)的方式,渲染成多个反事实观测样本。
- 物理事件:涵盖三种基础刚体相互作用:坠落(物体从边缘跌落)、碰撞(物体相互撞击)、遮挡(物体被遮挡后复现)。
- 系统性视觉干预:对每个物理事件,单独干预以下四个因素:
- 相机视角:改变渲染视角,检验模型是否将场景几何与运动分离。
- 物体外观:改变主体物体的视觉属性(如颜色),不改变物理参数。
- 场景:替换整个场景(背景、光照、布局),检验模型是否能根据新环境调整事件动态。
- 物体类别:替换主体物体,同时改变视觉属性和物理参数(质量、摩擦力)。
评估指标
CRONOS 使用多个互补的逐视频指标来衡量生成质量,并经过人工评分验证:
- 背景稳定性:环境随时间的变化程度。
- 外观稳定性:物体外观随时间的一致性。
- 3D形状稳定性:物体几何形状在视频中的一致性。
- 运动相似性:与参考渲染视频的运动一致性。
- 物理合理性:使用 VLM(Qwen3-VL-32B)针对特定物理问题进行判断。
- 成功率:基于人工校准阈值的二元通过/失败聚合指标。
主要发现
- 所有评估的视频模型在生成基本刚体物理短片段上均表现失败。最强的模型(Cosmos2.5-2B V2V)也仅实现 22% 的成功率,部分模型低于 5%。
- 没有模型实现反事实一致性:每一项干预(包括表面外观变化,尤其是视角、物体类型和场景干预)下,生成质量都会发生大幅变化。
- 视频条件化不仅有助于运动预测:V2V 模式不仅在运动保真度上优于 I2V,在背景和物体稳定性方面也表现更好,表明额外的条件帧有助于在推理时形成更稳定的内部表征。
- 仅凭模型规模提升是不够的:将 Cosmos 参数从 2B 扩展到 14B,并未带来任何物理事件生成性能的提升。
基准结果
以下为所有视频的平均性能。表格展示主要成功率指标;各分项指标(背景稳定性、运动相似性、外观稳定性、3D形状、物理合理性)的分数为 0-1 尺度。
| 排名 | 模型 | 模式 | 成功率 |
|---|---|---|---|
| 1 | Cosmos2.5-2B | V2V | 0.22 |
| 2 | Wan2.2-14B | I2V | 0.20 |
| 3 | Cosmos2.5-14B | V2V | 0.14 |
| 4 | Cosmos2.5-2B | I2V | 0.12 |
| 5 | Cosmos2.5-14B | I2V | 0.08 |
| 6 | MAGI-1-4.5B | I2V | 0.02 |
| 6 | CogVideoX1.5-5B | I2V | 0.02 |
| 8 | MAGI-1-4.5B | V2V | 0.01 |
数据集的局限性
- 合成到真实的域差距:使用 Unreal Engine 渲染虽然实现了必要的控制,但引入了域差距。
- 单参考展开:多数指标与一个渲染参考进行比较,而条件化允许多种合理的未来。已通过多种子评估和与参考无关的稳定性指标进行缓解。
- 评估模型的范围:仅限于可重复设置的开源模型,未包含封闭的商业系统。
BibTeX 引用
bibtex @misc{begiristain2026cronos, title = {{CRONOS}: Benchmarking Counterfactual Physical Consistency in Video Models}, author = {Begiristain, Le{o}n and D{"u}nkel, Olaf and Kortylewski, Adam}, year = {2026}, eprint = {XXXX.XXXXX}, archivePrefix = {arXiv}, primaryClass = {cs.CV} }
搜集汇总
数据集介绍

构建方式
CRONOS基准数据集构建于高保真的Unreal Engine虚拟环境之中,旨在系统性地评估视频生成模型的反事实物理一致性。通过精心设计的物理事件模拟管线,研究团队针对碰撞、坠落与遮挡三种典型刚体交互场景,生成了标准化的视频序列。在保持底层物理事件类型不变的前提下,数据构建过程对四个关键视觉因素——摄像机视角、场景背景、物体类别与物体外观——实施了受控的单一变量干预。每种事件均按照全因子实验设计进行渲染,最终共计生成675段高分辨率(1920×1080像素,30帧/秒)视频,并同步提供逐对象的分割掩码,为后续精细化评估奠定坚实基础。
特点
CRONOS数据集的核心特质在于其开创性的反事实评估框架,该框架将视频预测质量的衡量从单一的视觉逼真度拓展至对因果表征稳定性的诊断。数据集的精巧之处体现在三个方面:其一,通过系统干预实现了解耦分析能力,能够精准定位模型在视角变化、外观扰动等不同条件下的失效模式;其二,采用光写实渲染引擎,在保持合成环境可控优势的同时,显著提升了视觉内容的真实感;其三,引入了一套多维度、对象中心化的评测指标,涵盖外观稳定性、背景稳定性、三维形状保真度、运动相似性与物理合理性,并通过人类标注验证了这些指标的有效性,使其成为诊断模型脆弱性的可靠工具。
使用方法
CRONOS为视频生成模型的诊断评估提供了完整的技术方案。研究人员既可以采用图像到视频(I2V)的范式,将首帧作为条件输入,也可以使用视频到视频(V2V)的多帧条件设置以获取更丰富的运动线索。评测流程首先利用预训练的SAM3D与CoTracker3模型从生成视频中提取对象级分割掩码与点轨迹,随后沿五个质量维度计算归一化的评分。特别地,通过计算同组干预条件下各维度评分的最佳与最差表现之差,可以量化模型对特定干预因素的敏感性,数值越小代表反事实一致性越优。数据集代码与全部视频已开源,支持社区复现与模型诊断。
背景与挑战
背景概述
在视频生成模型迅猛发展的当下,其是否真正习得物理世界的因果结构而非依赖视觉浅表关联,成为核心研究议题。基于此,弗莱堡大学与马克斯·普朗克信息学研究所的研究人员于2026年提出了CRONOS基准数据集,旨在评估视频模型的反事实物理一致性。该数据集依托虚幻引擎构建高保真物理模拟环境,系统性地对视角、场景、物体类别与外观四个关键因素进行干预,同时保持碰撞、坠落、遮挡等物理事件类型不变,从而精准诊断模型预测在不同视觉变化下的稳定性。CRONOS的发布为验证视频模型是否具备结构化、因果化的物理理解能力提供了可控且可复现的测试平台,对推动世界模型与因果表征学习的发展具有重要影响。
当前挑战
CRONOS所应对的核心挑战在于,当前视频生成模型虽能合成视觉逼真的时序内容,但其预测通常对视觉输入中的视角、场景、物体类别乃至颜色等外观变化高度敏感,导致反事实物理一致性严重缺失。例如,同一物理事件在变换相机视角后,模型生成的物体运动轨迹与交互质量出现显著退化,暴露出模型主要依赖视角相关的视觉统计信息而非内在的3D物理机制。此外,数据集的构建挑战包括:在统一的模拟器中精确控制物理参数以生成标准化事件,同时保持场景的视觉逼真度;设计涵盖多因素的全因子干预组合,且需确保不同干预条件下物理动力学的一致性;以及开发能够解耦物体运动与外观的评估指标,以有效诊断模型在可控干预下的表现波动。
常用场景
经典使用场景
在视频生成与物理世界模型交叉研究的浪潮中,CRONOS被广泛用作评估视频模型反事实物理一致性的诊断性基准。研究者利用其系统化的干预设计,将同一物理事件(如碰撞、坠落或遮挡)置于不同的视角、场景、物体类别和外观条件下,以检验生成模型是否能在视觉输入受控变化时依然维持对底层物理动力学的稳定预测。这一用途尤其契合当前对视频扩散模型因果表征能力的关注,推动学术界从感知质量走向结构化的因果评估。
解决学术问题
CRONOS直指视频生成领域一个尚未被深入解答的学术难题:模型究竟习得了物理世界的因果结构,抑或仅仅依赖于数据中的表层视觉相关性。通过引入反事实物理一致性的量化框架,该基准得以系统揭示模型在视角切换、物体替换等干预下生成质量的剧烈波动,从而证实现有模型普遍缺乏鲁棒的3D感知与因果分解能力。这一发现为理解视频模型的泛化瓶颈提供了关键证据,并推动了因果表征学习在视频预测中的理论探索。
衍生相关工作
受CRONOS启发,一系列旨在提升视频模型物理一致性的后续工作应运而生。其中,PISA探索了针对自由落体场景的物理后训练策略,通过在合成数据上微调视频扩散模型来改善物体轨迹预测;PhysWorld则在简化的2D环境中测试视频生成模型对物理属性的泛化能力。此外,WorldBench通过构建可控的合成场景并采用参考轨迹对比的方式,进一步细化了物理理解评估的粒度,这些工作共同奠定了视频模型从视觉表象到物理因果的转型路径。
以上内容由遇见数据集搜集并总结生成



