CARVE, EpicKitchen-AR

Name: CARVE, EpicKitchen-AR
Creator: 迪肯大学应用人工智能研究所, 亚马逊
Published: 2025-01-16 13:39:28
License: 暂无描述

arXiv2025-01-16 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.09304v1

下载链接

链接失效反馈

官方服务：

资源简介：

CARVE数据集由迪肯大学应用人工智能研究所创建，包含10,000个通过2D物理模拟器生成的合成视频，涵盖了250,000多个因果事件对。该数据集通过反事实合成方法生成触发-目标事件标签，旨在解决视频事件中的因果推理问题。EpicKitchen-AR数据集则基于EpicKitchen-100数据集中的真实视频，通过反事实合成方法增加了因果事件标签，扩展了CARVE任务在真实世界视频中的应用。这两个数据集为视频因果推理研究提供了丰富的实验数据，适用于视频监控、根因分析和电影内容管理等领域。

The CARVE dataset was developed by the Institute of Applied Artificial Intelligence at Deakin University. It contains 10,000 synthetic videos generated using a 2D physics simulator, covering more than 250,000 causal event pairs. The dataset generates trigger-target event labels via counterfactual synthesis methods, with the goal of solving causal reasoning tasks in video events. The EpicKitchen-AR dataset, based on real videos from the EpicKitchen-100 dataset, adds causal event labels through counterfactual synthesis, extending the application of the CARVE task to real-world video scenarios. Collectively, these two datasets provide abundant experimental data for video causal reasoning research, and are applicable to fields such as video surveillance, root cause analysis, and film content management.

提供机构：

迪肯大学应用人工智能研究所, 亚马逊

创建时间：

2025-01-16

搜集汇总

数据集介绍

构建方式

CARVE数据集的构建方式采用了物理模拟器和对抗事实合成方法。物理模拟器用于生成无噪声的视频，而对抗事实合成方法则用于生成触发目标标签。具体来说，研究人员首先利用物理模拟器生成了10K个包含复杂动态物体交互的视频，并从中提取了超过25万个具有触发目标和目标事件的对抗事实事件对。接着，他们通过删除视频中的动态物体并重新运行模拟，生成了对抗事实视频，并通过比较原始视频和对抗事实视频中的目标事件来生成触发目标标签。EpicKitchen-AR数据集则利用了EpicKitchen数据集中的真实视频，并通过对抗事实合成方法添加了对抗事实事件标签。具体来说，研究人员首先使用动作预测模型AFFT对所有视频进行预测，然后选择预测正确的视频，并将相邻的相同标签的动作合并为事件。接着，他们通过屏蔽每个观察序列中的事件并观察目标事件预测的变化，生成了对抗事实事件序列。最后，他们定义了触发事件为导致目标事件预测错误的事件。这些触发目标事件对构成了EpicKitchen-AR数据集。

特点

CARVE数据集的特点在于其清洁的视频和清晰的因果关系，这使得它可以用于验证假设和验证方法的核心理念。该数据集包含超过25万个具有触发目标和目标事件的对抗事实事件对，这些事件对被分为训练集、验证集和测试集。EpicKitchen-AR数据集的特点在于其真实性和实用性，它利用了EpicKitchen数据集中的真实视频，并通过对抗事实合成方法添加了对抗事实事件标签，这使得它可以用于处理真实场景下的视频。

使用方法

CARVE数据集和EpicKitchen-AR数据集可用于研究视频因果推理问题，并训练和评估相关的模型。研究者可以使用这些数据集来训练CERN模型或其他模型，并评估它们在识别视频事件之间的因果关系的性能。此外，这些数据集还可以用于开发视频监控、根本原因分析和电影内容管理等方面的应用。

背景与挑战

背景概述

随着人工智能在处理大规模数据集以推断世界知识方面的显著进步，人们开始探索机器在生成假设和直觉方面的能力。这种能力，称为溯因推理，对于人工智能系统来说仍然是一个盲点。为了解决这个问题，本研究提出了一个名为因果溯因推理的视频事件（CARVE）的新任务，要求人工智能系统能够理解视频中嵌入的因果关系，并生成关于触发事件——最可能导致查询目标事件发生的先前事件——的假设。CARVE任务对于视频监控、运动分析和电影内容管理等众多应用具有重要意义。

当前挑战

CARVE任务面临的主要挑战包括：1)区分因果关系与关联偏置；2)构建包含真实因果关系的数据集；3)设计能够有效处理视频事件之间复杂关系的模型。为了解决这些挑战，研究人员提出了一个名为Causal Event Relation Network (CERN)的新型神经网络框架，该框架能够分析事件之间的时序和语义关系，从而有效地确定触发事件。实验结果表明，CERN在解决视频因果推理挑战方面优于各种基线方法，包括微调的大规模视频识别模型和强大的大型视频语言模型。然而，CARVE任务仍然是一个极具挑战性的问题，需要进一步的研究和改进。

常用场景

经典使用场景

CARVE和EpicKitchen-AR数据集主要用于视频事件因果推理的研究。这些数据集包含真实和合成的视频，以及通过新颖的反事实合成方法生成的触发-目标标签。它们被用来训练和评估Causal Event Relation Network (CERN)等模型，该模型旨在理解视频中事件之间的因果关系，并生成关于触发事件的假设。

实际应用

CARVE和EpicKitchen-AR数据集的实际应用场景包括视频监控、体育分析和电影制作。例如，在视频监控中，CARVE可以帮助追溯可疑行为的因果链，以了解为什么它是不寻常的；在体育分析中，该任务支持分析运动员在场地上的意外动作，并建议可能的原因，如策略变化或受伤；在电影制作中，可以分解长视频的故事线，以识别不合逻辑或冗余的部分，并提供编辑建议。

衍生相关工作

CARVE和EpicKitchen-AR数据集衍生了Causal Event Relation Networks (CERN)等经典工作，该模型通过在时间空间和语义空间中检查视频事件之间的关系来有效地确定根本原因触发事件。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集