ActivityNet v1.3, Kinetics, Moments in Time, AVA

github2020-06-15 更新2024-05-31 收录

下载链接：

https://github.com/nemonameless/video-understanding-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ActivityNet v1.3: 包含约20,000个人类活动视频，涉及200个类别。Kinetics: 包含约500,000个人类动作视频，涉及600个类别。Moments in Time: 包含约100万个涉及339个类别的动作或活动视频。AVA: 包含57,600个视频，涉及80个类别，用于时空本地化原子视觉动作。

ActivityNet v1.3: Contains approximately 20,000 human activity videos, covering 200 categories. Kinetics: Includes around 500,000 human action videos, spanning 600 categories. Moments in Time: Comprises about 1 million videos of actions or activities, covering 339 categories. AVA: Consists of 57,600 videos, encompassing 80 categories, used for spatiotemporal localization of atomic visual actions.

创建时间：

2018-10-13

原始信息汇总

视频分类数据集概述

数据集	类别	示例数量	类别数量	持续时间	组织者	SOTA性能
UCF101	人类动作	13,320	101	<10s	UCF	98% (DeepMind I3D)
HMDB51	人类动作	6,766	51	<10s	Brown	80.7% (DeepMind I3D)
ActivityNet v1.3	人类活动	~20,000	200	-	ActivityNet	8.83% err (iBUG)
Charades	日常人类活动	9,848	157	-	AI2	0.3441 mAP (DeepMind I3D)
Kinetics	人类动作	~500,000	600	10s	DeepMind	-
Sports-1M	体育	~1 million	478	5m36s	Google & Stanford	-
YouTube-8M	视觉内容	~7 million	4716	120-500s	Google Cloud	85% GAP (WILLOW)
FCVID	视觉内容	91,223	239	100s+	Fudan-Columbia	-
Something-Something	物体动作	108,499	174	~4s	TwentyBN	-
Moments in Time	动作或活动	~1 million	339	3s	MIT-IBM Watson	-
SLAC	识别与定位	520K	200	~30.6s	MIT & Facebook	-

时间动作检测数据集概述

数据集	示例数量	组织者	SOTA性能
THUMOS2014	9.682	UCF	-
ActivityNet(v1.3)	~20,000	ActivityNet	0.344(SJTU & Columbia)
Broad Video Highlights	18000	Baidu	-

时空本地化原子视觉动作数据集概述

数据集	示例数量	类别数量	组织者	SOTA性能
AVA	57.6k	80	Google & Berkeley	-

视频中的手势数据集概述

数据集	示例数量	类别数量	组织者	SOTA性能
Jester	148,092	27	TwentyBN	95.34%(Ke Yang, NUDT_PDL)

视频字幕数据集概述

数据集	上下文	示例数量	组织者	SOTA性能
MPII-MD	电影	68,337 clips with 68,375 sentences	MPII	-
MSR-VTT	20 类别	10,000 clips with 200,000 sentences	MSR	-
Charades	人类活动	9,848 clips with 27,847 sentences	AI2	-
Densevid	事件	20k clips and 100k sentences	Stanford, ActivityNet	-

视频问答数据集概述

数据集	任务	示例数量	组织者	SOTA性能
MovieQA	电影中的问答	408 movies & 14944 QAs	UToronto	-
MarioQA	游戏视频中的事件推理	187,757 examples with 92,874 QAs	POSTECH	-

搜集汇总

数据集介绍

构建方式

ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集的构建均基于大规模视频数据的收集与标注。ActivityNet v1.3通过众包平台收集了约20,000个视频片段，涵盖了200种人类活动类别。Kinetics数据集则从YouTube平台获取了约500,000个10秒时长的视频片段，涵盖了600种人类动作类别。Moments in Time数据集通过众包标注了约100万个3秒时长的视频片段，涵盖了339种动作或活动类别。AVA数据集则专注于时空局部化的原子视觉动作，收集了57.6k个视频片段，标注了80种动作类别。这些数据集的构建均依赖于众包标注和自动化工具的结合，以确保标注的准确性和多样性。

使用方法

这些数据集的使用方法主要围绕视频分类、动作检测和时空动作定位等任务展开。研究人员可以通过下载数据集中的视频和标注文件，利用深度学习模型进行训练和评估。对于ActivityNet v1.3和Kinetics，常见的任务包括视频分类和动作识别，研究人员可以使用卷积神经网络（CNN）或3D卷积网络（如I3D）进行特征提取和分类。Moments in Time数据集则适合用于瞬时动作识别任务，研究人员可以通过短时视频片段进行模型训练。AVA数据集则适用于时空动作定位任务，研究人员可以通过标注的时空边界框进行动作检测和定位。这些数据集的使用方法灵活多样，能够满足不同研究需求。

背景与挑战

背景概述

ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集是视频理解领域的重要资源，广泛应用于2018年ActivityNet挑战赛。这些数据集由多个知名研究机构共同开发，包括ActivityNet、DeepMind、MIT-IBM Watson以及Google与Berkeley的合作团队。ActivityNet v1.3专注于人类活动的识别，包含约20,000个视频样本和200个类别；Kinetics-600则扩展至600个类别，涵盖广泛的人类动作；Moments in Time以百万级视频样本捕捉短暂的动作或活动；AVA则专注于时空局部化的原子视觉动作。这些数据集的创建旨在推动视频分类、时序动作检测和时空动作定位等任务的研究，为计算机视觉领域提供了丰富的实验数据。

当前挑战

这些数据集在构建和应用过程中面临多重挑战。首先，视频数据的标注成本高昂，尤其是时空动作定位任务，需要精确标注动作的起始时间和空间位置。其次，视频内容的多样性和复杂性增加了模型训练的难度，例如Kinetics-600中的动作类别涵盖范围广泛，模型需具备强大的泛化能力。此外，Moments in Time中的短暂动作识别要求模型能够捕捉细微的时间变化，这对算法的时序建模能力提出了更高要求。最后，AVA数据集中的原子动作识别需要同时处理空间和时间信息，这对模型的架构设计和计算资源提出了严峻挑战。这些挑战共同推动了视频理解领域的技术进步。

常用场景

经典使用场景

ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集在视频理解领域具有广泛的应用，尤其是在视频分类、时间动作检测和空间-时间局部化原子视觉动作识别等任务中。这些数据集为研究者提供了丰富的视频样本，涵盖了从日常活动到复杂动作的多样化场景，极大地推动了视频理解技术的发展。

解决学术问题

这些数据集解决了视频理解领域中的多个关键学术问题，如动作识别、时间动作定位和空间-时间动作检测。通过提供大规模、多样化的视频数据，研究者能够开发出更加精确和鲁棒的算法，从而提升模型在复杂场景下的表现。这些数据集的出现填补了视频理解领域的数据空白，为相关研究提供了坚实的基础。

实际应用

在实际应用中，ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集被广泛应用于智能监控、视频内容分析、自动驾驶和虚拟现实等领域。例如，智能监控系统可以利用这些数据集中的动作识别模型，实时检测异常行为；自动驾驶系统则可以通过分析视频数据，提升对周围环境的感知能力。

数据集最近研究