ActivityNet v1.3, Kinetics-600, Moments in Time, AVA

github2019-09-11 更新2024-05-31 收录

下载链接：

https://github.com/Jeffery-Zhou/video-understanding-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ActivityNet v1.3: 包含约20,000个人类活动视频，涉及200个类别。Kinetics-600: 包含约500,000个人类动作视频，涉及600个类别。Moments in Time: 包含约100万个涉及339个类别的动作或活动视频。AVA: 包含57.6k个视频，涉及80个类别。

ActivityNet v1.3: Contains approximately 20,000 videos of human activities, covering 200 categories. Kinetics-600: Includes around 500,000 videos of human actions, spanning 600 categories. Moments in Time: Comprises about 1 million videos of actions or activities, encompassing 339 categories. AVA: Features 57.6k videos, covering 80 categories.

创建时间：

2019-05-07

原始信息汇总

视频分类数据集概述

数据集	论文链接	网站链接	类别	示例数量	类别数量	视频时长	组织者	SOTA 性能
UCF101	[PDF][p1]	[Link][l1]	人类动作	13,320	101	<10s	UCF	98% (DeepMind I3D)
HMDB51	[PDF][p2]	[Link][l2]	人类动作	6,766	51	<10s	Brown	80.7% (DeepMind I3D)
ActivityNet v1.3	[PDF][p8]	[Link][l8]	人类活动	~20,000	200	-	ActivityNet	8.83% err (iBUG)
Charades	[PDF][p4]	[Link][l4]	日常人类活动	9,848	157	-	AI2	0.3441 mAP (DeepMind I3D)
Kinetics	[PDF][p3]	[Link][l3]	人类动作	~500,000	600	10s	DeepMind	-
Sports-1M	[PDF][p5]	[Link][l5]	体育	~1 million	478	5m36s	Google & Stanford	-
YouTube-8M	[PDF][p6]	[Link][l6]	视觉内容	~7 million	4716	120-500s	Google Cloud	85% GAP (WILLOW)
FCVID	[PDF][p9]	[Link][l9]	视觉内容	91,223	239	100s+	Fudan-Columbia	-
Something-Something	[PDF][p10]	[Link][l10]	物体动作	108,499	174	~4s	TwentyBN	-
Moments in Time	[PDF][p7]	[Link][l7]	动作或活动	~1 million	339	3s	MIT-IBM Watson	-
SLAC	[arXiv][p11]	[Link][l11]	识别与定位	520K	200	~30.6s	MIT and Facebook	-

时间动作检测数据集概述

数据集	论文链接	网站链接	示例数量	组织者	SOTA 性能
THUMOS2014	[PDF][t1]	[Link][d1]	9,682	UCF	-
ActivityNet(v1.3)	[PDF][p8]	[Link][l8]	~20,000	ActivityNet	0.344 (SJTU & Columbia)
Broad Video Highlights	-	[Link][d2]	18,000	Baidu	-

时空本地化原子视觉动作数据集概述

数据集	论文链接	网站链接	示例数量	类别数量	组织者	SOTA 性能
AVA	[arXiv][s1]	[Link][t1]	57.6k	80	Google & Berkeley	-

视频字幕数据集概述

数据集	论文链接	网站链接	上下文	示例数量	组织者	SOTA 性能
MPII-MD	[PDF][v2]	[Link][c2]	电影	68,337 clips with 68,375 sentences	MPII	-
MSR-VTT	[PDF][v1]	[Link][c1]	20 类别	10,000 clips with 200,000 sentences	MSR	-
Charades	[PDF][p4]	[Link][l4]	人类活动	9,848 clips with 27,847 sentences	AI2	-
Densevid	[PDF][v3]	[Link][c3]	事件	20k clips and 100k sentences	Stanford, ActivityNet	-

视频问答数据集概述

数据集	论文链接	网站链接	任务	示例数量	组织者	SOTA 性能
MovieQA	[PDF][q1]	[Link][a1]	电影问答	408 movies & 14,944 QAs	UToronto	-
MarioQA	[PDF][q2]	[Link][a2]	游戏视频事件推理	187,757 examples with 92,874 QAs	POSTECH	-

搜集汇总

数据集介绍

构建方式

ActivityNet v1.3, Kinetics-600, Moments in Time, AVA等数据集的构建，均是基于大规模视频资源的整合与精细标注。ActivityNet v1.3数据集通过汇聚人类日常活动视频，对视频进行精细的时间标注，标注出视频中的活动类别。Kinetics-600数据集则收集了各类人类动作视频，每个视频都被剪辑至10秒左右，并按照600种动作类别进行分类。Moments in Time数据集包含了日常生活中短暂的活动或事件，每个视频片段仅3秒长，涵盖339种不同的活动类别。AVA数据集则专注于视频中的空间时间定位原子视觉动作，对57.6万视频帧进行标注，分为80个动作类别。

使用方法

使用这些数据集时，研究者可根据具体任务需求，通过数据集官方网站获取相应的数据集和标注信息。ActivityNet v1.3和Kinetics-600通常用于视频分类和动作识别任务，Moments in Time适用于事件识别与细粒度动作识别，而AVA数据集适用于空间时间定位的视觉动作识别。用户需遵循数据集的使用条款，并正确引用相关论文以尊重版权和知识产权。

背景与挑战

背景概述

ActivityNet v1.3、Kinetics-600、Moments in Time以及AVA这四个数据集，均为视频理解领域的重要资源。ActivityNet v1.3数据集由ActivityNet组织创建于2015年，旨在推动人类活动识别的研究；Kinetics-600数据集由DeepMind于2017年推出，包含600种人类动作类别，是迄今为止最大的动作识别数据集之一；Moments in Time数据集由MIT-IBM Watson实验室于2018年发布，专注于描述视频中的动作或活动；而AVA数据集则由Google和Berkeley联合发布，专注于空间和时间上局部化的原子视觉动作的识别。这些数据集为相关领域的研究提供了丰富的实验素材，推动了视频理解技术的发展，对学术界和工业界均产生了深远的影响。

当前挑战

这些数据集在研究领域中面临的挑战包括：1) 视频理解领域的问题挑战，例如，动作识别中对于复杂场景和遮挡的处理，以及对于动作的细粒度识别；2) 数据集构建过程中的挑战，包括高质量标注的获取、数据集的多样性和平衡性，以及大规模数据处理和计算资源的需求。这些挑战不仅要求研究者在算法上取得创新，还需要在数据处理和标注技术上进行不断的探索和优化。

常用场景

经典使用场景

ActivityNet v1.3, Kinetics-600, Moments in Time, AVA等视频理解数据集，广泛应用于视频分类、动作识别、时空定位等研究领域，其中经典使用场景包括对人类行为、日常活动等进行标注和识别，为算法模型提供丰富的学习样本。

解决学术问题

这些数据集解决了学术研究中关于视频内容理解、动作识别准确度、时序定位等关键问题，为计算机视觉领域的研究提供了重要支撑，极大推动了相关技术的进步与应用。

实际应用

在实际应用中，这些数据集可被用于智能监控、人机交互、内容推荐系统等多个领域，有助于提升系统的智能识别与响应能力，拓宽了计算机视觉技术的应用范围。

数据集最近研究