Charades-STA, ActivityNet Captions

Name: Charades-STA, ActivityNet Captions
Creator: 清华大学
Published: 2021-09-22 13:06:17
License: 暂无描述

arXiv2021-09-22 更新2024-06-21 收录

下载链接：

https://github.com/yytzsy/grounding_changing_distribution

下载链接

链接失效反馈

官方服务：

资源简介：

本研究重新组织了两个广泛使用的视频时间句子定位（TSGV）基准数据集：Charades-STA和ActivityNet Captions。这两个数据集通过改变训练和测试集中的真实时刻分布，实现了分布外（OOD）测试，旨在减少真实时刻标注偏差的影响。Charades-STA基于Charades数据集，包含5,338个视频和12,408个查询-时刻对，而ActivityNet Captions原为密集视频标注任务设计，包含10,009个视频和37,421个查询-时刻对。本研究通过重新划分数据集，引入了新的评估协议，以更准确地监控TSGV研究的进展。

This study reconstructs two widely used benchmark datasets for video temporal sentence grounding (TSGV): Charades-STA and ActivityNet Captions. These datasets enable out-of-distribution (OOD) testing by adjusting the distribution of ground-truth temporal moments in their training and test splits, with the goal of alleviating the impact of annotation bias associated with ground-truth moment labels. Charades-STA, derived from the original Charades dataset, comprises 5,338 videos and 12,408 query-moment pairs. ActivityNet Captions, which was originally developed for dense video captioning tasks, includes 10,009 videos and 37,421 query-moment pairs. Additionally, this study introduces a novel evaluation protocol via dataset re-splitting, to more precisely track the progress of TSGV research.

提供机构：

清华大学

创建时间：

2021-01-22

搜集汇总

数据集介绍

构建方式

Charades-STA和ActivityNet Captions数据集的重新划分旨在解决当前时间句子定位视频中存在的标注偏差问题。为了使测试集与训练集的标注时刻分布不同，研究人员采用了高斯核密度估计方法来拟合所有数据样本的标注时刻分布，并根据密度值对数据样本进行排序。然后，将排序后20%的数据样本作为初步的测试-ood集，剩余的80%数据样本作为初步的训练集。为了确保训练集和测试集之间没有视频重叠，研究人员对初步的测试-ood集进行了检查，并将所有引用相同视频的数据样本移至样本数量较多的集合中。最后，将剩余的样本随机分为训练集、验证集和测试-iid集，分别占数据样本的70%、5%和5%。

特点

Charades-STA和ActivityNet Captions数据集重新划分后，形成了Charades-CD和ActivityNet-CD两个新数据集。这两个数据集的特点在于它们的测试-ood集的标注时刻分布与训练集、验证集和测试-iid集存在显著差异，这意味着模型无法依赖标注偏差来提高性能。此外，研究人员还提出了一个新的评估指标dR@𝐴?,IoU@𝐴?，该指标通过考虑预测时刻和真实时刻之间的时间距离来校正IoU分数，从而减轻了数据集标注偏差导致的高估性能问题。

使用方法

Charades-CD和ActivityNet-CD数据集的使用方法与原始数据集类似，但需要注意新的测试-ood集的引入。研究人员建议在评估模型的泛化能力时，应在测试-iid集和测试-ood集上分别进行评估，并通过比较两者的性能差距来反映模型在OOD测试中的表现。同时，为了更准确地评估模型的定位准确率，研究人员建议使用dR@𝐴?,IoU@𝐴?指标，该指标可以抑制由于数据集标注偏差导致的高估性能。

背景与挑战

背景概述

视频中的时间句子定位（Temporal Sentence Grounding in Videos, TSGV）是一个近年来受到广泛关注的研究领域。TSGV旨在将自然语言句子与长且未剪辑的视频序列中的复杂人类活动进行匹配。尽管近年来不断有新的方法被提出，并且这些方法在性能上似乎比前一代有所提高，但现有的TSGV模型仍然倾向于捕捉到时刻注释的偏差，并且未能充分利用多模态输入。更有甚者，一些极其简单的基线模型，甚至在没有训练的情况下，也能达到最先进的性能。为了解决这些问题，研究人员对现有的TSGV评估协议进行了深入研究，并发现流行的数据集划分和评估指标是导致不可靠基准测试的罪魁祸首。为了解决这个问题，研究人员提出了重新组织两个广泛使用的TSGV基准数据集（ActivityNet Captions和Charades-STA）的方法。具体来说，他们刻意使得训练和测试分割中的真实时刻分布不同，即进行分布外（OOD）测试。同时，他们引入了一种新的评估指标“dR@𝐴?,IoU@𝐴?”，通过惩罚偏差影响的时刻预测来校准基本的IoU分数，并减轻由数据集注释偏差（如过长的真实时刻）引起的评估膨胀。在新的评估协议下，研究人员对八个最先进的TSGV方法进行了广泛的实验和消融研究。所有结果都表明，重新组织的测试集和新的指标可以更好地监控TSGV的进展。

当前挑战

TSGV领域面临的主要挑战包括：1) 现有的TSGV数据集存在明显的时刻注释偏差，这导致简单的基线模型也能达到最先进的性能，从而无法准确监控TSGV研究的进展；2) 现有的评估指标R@𝐴?,IoU@𝐴?在IoU阈值较小时不可靠，因为数据集中存在过长的真实时刻，这会导致评估结果膨胀；3) 现有的TSGV模型未能充分利用多模态输入，过度依赖真实时刻的注释偏差，缺乏对视频内容和自然语言查询之间语义差距的足够理解。

常用场景

经典使用场景

Charades-STA与ActivityNet Captions数据集在视频时序句子定位（TSGV）任务中扮演着至关重要的角色。TSGV旨在将自然语言句子定位到未剪辑视频序列中的复杂人类活动。这两个数据集提供了丰富的视频片段和相应的自然语言描述，使得研究人员能够训练和评估模型在理解和定位视频中特定时刻的能力。这些数据集的经典使用场景包括但不限于开发能够理解并响应自然语言查询的视频分析系统，以及创建智能视频编辑和摘要工具，从而提高视频内容理解和交互的智能化水平。

衍生相关工作

Charades-STA与ActivityNet Captions数据集的重新组织和新的评价指标dR@𝐴?,IoU@𝐴?衍生了一系列相关研究工作。这些工作包括但不限于对TSGV模型泛化能力的深入分析、对视频时序关系和视觉语言交互的深入研究，以及开发新的模型和算法以提高TSGV任务的准确性和效率。这些研究工作不仅推动了TSGV领域的学术发展，还为实际应用场景提供了更可靠和有效的技术支持。

数据集最近研究