THUMOS14-C, ActivityNet-v1.3-C
收藏arXiv2024-03-30 更新2024-07-30 收录
下载链接:
https://github.com/Alvin-Zeng/temporal-robustness-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
本研究创建了两个用于评估时间动作检测模型鲁棒性的基准数据集:THUMOS14-C和ActivityNet-v1.3-C。这些数据集包含在视频获取和处理过程中常见的五种类型的时间域损坏,每种损坏有三个严重程度级别,总计15种损坏类型。数据集的设计旨在通过损坏视频中的一小部分帧来破坏其时间连续性,从而有效测试时间动作检测模型的定位能力。这些数据集不仅用于评估模型在清洁数据上的性能,还特别关注模型在面对时间损坏时的鲁棒性,为未来研究提供了新的视角和工具。
In this study, we developed two benchmark datasets for evaluating the robustness of temporal action detection models: THUMOS14-C and ActivityNet-v1.3-C. These datasets cover five common types of temporal domain corruptions that frequently arise during video acquisition and processing, with three severity levels for each corruption type, totaling 15 distinct corruption cases. The datasets are designed to disrupt the temporal continuity of videos by corrupting a small fraction of their frames, thereby effectively testing the localization capability of temporal action detection models. These datasets not only support the evaluation of model performance on clean data, but also specifically focus on model robustness against temporal corruptions, providing new research perspectives and tools for future studies.
提供机构:
深圳大学
创建时间:
2024-03-30
原始信息汇总
数据集概述
简介
该数据集用于评估时间动作检测模型对时间损坏的鲁棒性,相关论文已被CVPR 2024接收。
更新日志
- 02/05/2024: 上传了在Thumos14数据集上添加损坏和提取特征的代码,包括I3D和VideoMAE V2提取器,以及使用TRC损失训练的三个示例模型。
内容概要
代码包括:
- 在Thumos数据集上对I3D和VideoMAE V2特征添加噪声,用于从Thumos14-C(测试集)提取特征或使用TRC损失训练模型。
- 包含三个使用TRC损失的示例模型:ActionFormer、TriDet和TemporalMaxer。
快速开始
修改配置文件
在运行代码之前,需要修改配置文件。对于提取特征和运行TRC损失示例代码,每个配置文件开头都提供了具体的修改说明。注释中有$$的参数需要重置,其他参数可以保持默认值。
运行代码
- 对于Thumos数据集上的I3D特征,运行命令:
python main.py - 对于Thumos数据集上的videomaev2特征,运行命令:
python extract_tad_feature_thumos.py - 对于ActionFormer、TriDet和TemporalMaxer,运行命令与原作者提供的GitHub说明一致。
引用
如果该数据集对您的研究有帮助,请在发表的论文中引用:
latex @inproceedings{zeng2024benchmarking, title={Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions}, author={Zeng, Runhao and Chen, Xiaoyong and Liang, Jiaming and Wu, Huisi and Cao, Guangzhong and Guo, Yong}, booktitle={IEEE Conference on Computer Vision and Pattern Recognition}, year={2024}, }
搜集汇总
数据集介绍

构建方式
THUMOS14-C 和 ActivityNet-v1.3-C 数据集是专门为了评估时间动作检测 (TAD) 模型在时间域中的鲁棒性而构建的。这两个数据集包含了在视频采集和处理过程中常见的五种类型的时间域损坏,分别是黑帧、运动模糊、过曝、遮挡和数据包丢失。每种类型的损坏都有三个不同的严重级别,通过改变视频中损坏帧的数量来实现。THUMOS14-C 数据集包含了来自 THUMOS14 测试集的 213 个视频,而 ActivityNet-v1.3-C 数据集则是在 ActivityNet-v1.3 验证集的基础上构建的。
特点
THUMOS14-C 和 ActivityNet-v1.3-C 数据集的特点在于它们模拟了实际场景中可能遇到的时间域损坏。这些数据集不仅能够评估 TAD 模型在干净数据上的性能,还能有效地检验模型在面对时间域损坏时的鲁棒性。此外,这两个数据集的构建考虑了多种损坏类型和严重级别,为 TAD 模型的鲁棒性评估提供了全面的基准。
使用方法
使用 THUMOS14-C 和 ActivityNet-v1.3-C 数据集进行模型评估时,首先需要将 TAD 模型在干净数据上进行训练,然后在损坏数据上进行测试。评估指标包括平均平均精度 (mAP) 和相对鲁棒性。相对鲁棒性是一种新的指标,用于衡量模型在干净数据和损坏数据上的性能差异。通过在损坏数据上的测试结果,可以评估 TAD 模型在时间域损坏情况下的鲁棒性。此外,为了提高 TAD 模型的鲁棒性,可以采用 FrameDrop 增强策略和 Temporal-Robust Consistency (TRC) 损失函数进行训练。
背景与挑战
背景概述
视频中的时序动作检测(Temporal Action Detection, TAD)旨在定位动作位置并识别未修剪视频中动作类别。尽管许多方法已经取得了有希望的结果,但它们的鲁棒性尚未得到彻底研究。在实践中,我们观察到视频中的时序信息可能会偶尔被损坏,例如丢失或模糊的帧。有趣的是,现有的方法通常即使只有一个帧受到影响,也会导致性能显著下降。为了正式评估鲁棒性,我们建立了两个时序损坏鲁棒性基准,即THUMOS14-C和ActivityNet-v1.3-C。在本文中,我们对七种领先的TAD方法进行了广泛的分析,并得到了一些有趣的发现:1) 现有的方法对时序损坏特别敏感,端到端方法往往比那些具有预训练特征提取器的方法更容易受到影响;2) 易损性主要来自定位错误,而不是分类错误;3) 当损坏发生在动作实例的中间时,TAD模型往往会带来最大的性能下降。除了建立基准之外,我们还进一步开发了一种简单但有效的鲁棒训练方法,通过FrameDrop增强和时序鲁棒一致性损失来抵御时序损坏。值得注意的是,我们的方法不仅提高了鲁棒性,而且在干净的数据上也取得了有希望的改进。我们相信这项研究将成为未来鲁棒视频分析研究的一个基准。
当前挑战
1) 所解决的领域问题:THUMOS14-C和ActivityNet-v1.3-C数据集旨在评估时序动作检测模型的鲁棒性,特别是在视频中的时序信息损坏的情况下。这些数据集通过引入多种类型的时序损坏,如黑帧、运动模糊、过度曝光、遮挡和数据包丢失,来模拟现实世界中的视频损坏情况。2) 构建过程中所遇到的挑战:构建这样的数据集需要解决如何有效地模拟和引入时序损坏,以及如何评估模型在损坏数据上的表现的问题。此外,还需要确保数据集的多样性和代表性,以便能够全面评估模型在不同类型和程度的时序损坏下的鲁棒性。
常用场景
经典使用场景
THUMOS14-C 和 ActivityNet-v1.3-C 数据集主要用于评估时间动作检测(TAD)模型在视频时序信息被篡改时的鲁棒性。通过在这两个数据集上训练和测试模型,研究者可以了解现有 TAD 模型在面对时序信息缺失、模糊等常见问题时表现如何,并针对性地提升模型的鲁棒性。这两个数据集在视频理解、自动驾驶、安防监控和机器人等领域具有广泛的应用前景。
解决学术问题
THUMOS14-C 和 ActivityNet-v1.3-C 数据集解决了现有 TAD 模型在面对时序信息篡改时鲁棒性不足的问题。通过在数据集中引入不同类型和程度的时序信息篡改,研究者可以更全面地评估模型的鲁棒性,并针对性地改进模型。此外,这两个数据集还揭示了 TAD 模型在面对时序信息篡改时,定位误差比分类误差更为显著的问题,为后续研究提供了重要的参考。
衍生相关工作
THUMOS14-C 和 ActivityNet-v1.3-C 数据集的提出,激发了研究者对 TAD 模型鲁棒性的关注。在此基础上,研究者们提出了一系列改进 TAD 模型鲁棒性的方法,如 FrameDrop 增强策略和 Temporal-Robust Consistency 损失函数。这些方法在 THUMOS14-C 和 ActivityNet-v1.3-C 数据集上取得了显著的鲁棒性提升,为后续研究提供了重要的参考。此外,这些方法还可以应用于其他视频分析任务,如动作识别和视频分类,以提升模型在面对时序信息篡改时的鲁棒性。
以上内容由遇见数据集搜集并总结生成



