ActivityNet v1.3, Kinetics-600, Moments in Time, AVA, UCF101, HMDB51, Charades, Kinetics, Sports-1M, YouTube-8M, FCVID, Something-Something, Moments in Time, SLAC, THUMOS2014, Broad Video Highlights, AVA, Jester, MPII-MD, MSR-VTT, Charades, Densevid, MovieQA, MarioQA

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/yoosan/video-understanding-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ActivityNet v1.3: 包含约20,000个人类活动的视频数据集。 Kinetics-600: 包含约500,000个人类动作的视频数据集，每个视频约10秒。 Moments in Time: 包含约100万个描述动作或活动的视频数据集，每个视频约3秒。 AVA: 包含57.6k个视频片段，涉及80个类别，用于时空定位的原子视觉动作。 UCF101: 包含13,320个视频，涉及101个类别的人类动作。 HMDB51: 包含6,766个视频，涉及51个类别的人类动作。 Charades: 包含9,848个视频，涉及157个类别的日常人类活动。 Sports-1M: 包含约100万个视频，涉及478个类别的体育活动。 YouTube-8M: 包含约700万个视频，涉及4716个类别的视觉内容。 FCVID: 包含91,223个视频，涉及239个类别的视觉内容。 Something-Something: 包含108,499个视频，涉及174个类别的与物体相关的动作。 SLAC: 包含520K个视频片段，涉及200个类别，用于识别和定位。 THUMOS2014: 包含9,682个视频片段，用于时间动作检测。 Broad Video Highlights: 包含18,000个视频片段。 Jester: 包含148,092个视频片段，涉及27个类别的手势。 MPII-MD: 包含68,337个视频片段，涉及电影内容。 MSR-VTT: 包含10,000个视频片段，涉及20个类别。 Densevid: 包含20k个视频片段和100k个句子，涉及事件。 MovieQA: 包含408部电影和14,944个问答对，涉及电影中的问答。 MarioQA: 包含187,757个示例和92,874个问答对，涉及游戏视频中的事件推理。

ActivityNet v1.3: A video dataset containing approximately 20,000 human activities. Kinetics-600: A video dataset containing approximately 500,000 human actions, each video about 10 seconds. Moments in Time: A video dataset containing approximately 1 million videos describing actions or activities, each video about 3 seconds. AVA: Contains 57.6k video clips, involving 80 categories, used for spatiotemporal localization of atomic visual actions. UCF101: Contains 13,320 videos, involving 101 categories of human actions. HMDB51: Contains 6,766 videos, involving 51 categories of human actions. Charades: Contains 9,848 videos, involving 157 categories of daily human activities. Sports-1M: Contains approximately 1 million videos, involving 478 categories of sports activities. YouTube-8M: Contains approximately 7 million videos, involving 4716 categories of visual content. FCVID: Contains 91,223 videos, involving 239 categories of visual content. Something-Something: Contains 108,499 videos, involving 174 categories of object-related actions. SLAC: Contains 520K video clips, involving 200 categories, used for recognition and localization. THUMOS2014: Contains 9,682 video clips, used for temporal action detection. Broad Video Highlights: Contains 18,000 video clips. Jester: Contains 148,092 video clips, involving 27 categories of gestures. MPII-MD: Contains 68,337 video clips, involving movie content. MSR-VTT: Contains 10,000 video clips, involving 20 categories. Densevid: Contains 20k video clips and 100k sentences, involving events. MovieQA: Contains 408 movies and 14,944 question-answer pairs, involving questions and answers in movies. MarioQA: Contains 187,757 examples and 92,874 question-answer pairs, involving event reasoning in game videos.

创建时间：

2017-12-04

原始信息汇总

视频分类数据集概述

数据集	类别	示例数量	类别数量	持续时间	组织者	SOTA性能
UCF101	人类动作	13,320	101	<10s	UCF	98% (DeepMind I3D)
HMDB51	人类动作	6,766	51	<10s	Brown	80.7% (DeepMind I3D)
ActivityNet v1.3	人类活动	~20,000	200	-	ActivityNet	8.83% err (iBUG)
Charades	日常人类活动	9,848	157	-	AI2	0.3441 mAP (DeepMind I3D)
Kinetics	人类动作	~500,000	600	10s	DeepMind	-
Sports-1M	体育	~1 million	478	5m36s	Google & Stanford	-
YouTube-8M	视觉内容	~7 million	4716	120-500s	Google Cloud	85% GAP (WILLOW)
FCVID	视觉内容	91,223	239	100s+	Fudan-Columbia	-
Something-Something	物体动作	108,499	174	~4s	TwentyBN	-
Moments in Time	动作或活动	~1 million	339	3s	MIT-IBM Watson	-
SLAC	识别与定位	520K	200	~30.6s	MIT & Facebook	-

时间动作检测数据集概述

数据集	示例数量	组织者	SOTA性能
THUMOS2014	9.682	UCF	-
ActivityNet(v1.3)	~20,000	ActivityNet	0.344(SJTU & Columbia )
Broad Video Highlights	18000	Baidu	-

时空定位原子视觉动作数据集概述

数据集	示例数量	类别数量	组织者	SOTA性能
AVA	57.6k	80	Google & Berkeley	-

手势视频数据集概述

数据集	示例数量	类别数量	组织者	SOTA性能
Jester	148,092	27	TwentyBN	95.34%(Ke Yang, NUDT_PDL)

视频字幕数据集概述

数据集	上下文	示例数量	组织者	SOTA性能
MPII-MD	电影	68,337 clips with 68,375 sentences	MPII	-
MSR-VTT	20个类别	10,000 clips with 200,000 sentences	MSR	-
Charades	人类活动	9,848 clips with 27,847 sentences	AI2	-
Densevid	事件	20k clips and 100k sentences	Stanford, ActivityNet	-

视频问答数据集概述

数据集	任务	示例数量	组织者	SOTA性能
MovieQA	电影问答	408 movies & 14944 QAs	UToronto	-
MarioQA	游戏视频事件推理	187,757 examples with 92,874 QAs	POSTECH	-

搜集汇总

数据集介绍

构建方式

该数据集集合了多个视频理解领域的经典数据集，涵盖了从人类动作识别到视频问答等多个任务。这些数据集的构建方式各异，例如ActivityNet v1.3通过众包平台收集了约20,000个标注视频，涵盖200种人类活动；Kinetics-600则通过从YouTube上筛选并标注了约500,000个10秒长的视频片段，涉及600种人类动作。Moments in Time则通过从互联网上收集了约100万个3秒长的视频片段，涵盖339种动作或活动。这些数据集的构建均依赖于大规模的标注工作，确保了数据的多样性和广泛性。

特点

该数据集集合的显著特点在于其多样性和广泛性。每个数据集针对不同的任务和应用场景进行了优化，例如UCF101和HMDB51专注于人类动作识别，而ActivityNet v1.3和Kinetics-600则扩展到更广泛的人类活动。Moments in Time和Something-Something则进一步探索了动作与物体之间的关系。此外，数据集的规模也从数千到数百万不等，适应了从小规模实验到大规模应用的需求。这些特点使得该数据集集合成为视频理解领域的重要资源。

使用方法

该数据集集合适用于多种视频理解任务的研究和开发，包括但不限于视频分类、时序动作检测、空间-时间动作定位、手势识别、视频描述生成和视频问答。使用者可以根据具体任务选择合适的数据集，例如对于视频分类任务，可以选择UCF101或Kinetics-600；对于时序动作检测，可以选择ActivityNet v1.3或THUMOS2014。使用时，通常需要先下载数据集，然后根据提供的标注文件进行数据预处理和模型训练。此外，部分数据集还提供了预训练模型和基准性能，方便研究者进行性能对比和模型优化。

背景与挑战

背景概述

视频理解领域的研究近年来取得了显著进展，得益于多个大型视频数据集的推出。ActivityNet v1.3、Kinetics-600、Moments in Time、AVA等数据集由知名机构如MIT、DeepMind、Google等发布，旨在推动视频分类、动作检测、时空定位等任务的研究。这些数据集不仅涵盖了广泛的人类活动和动作类别，还提供了丰富的视频内容和标注信息，极大地促进了视频理解技术的发展。例如，ActivityNet v1.3包含了约20,000个视频，涵盖200种人类活动，成为ActivityNet挑战赛2018年的核心数据集。这些数据集的推出为研究人员提供了宝贵的资源，推动了视频理解领域的技术进步。

当前挑战

尽管这些视频数据集为研究提供了丰富的资源，但在构建和应用过程中仍面临诸多挑战。首先，视频数据的采集和标注成本高昂，尤其是涉及复杂动作和时空定位的任务，标注的准确性和一致性难以保证。其次，视频数据集的规模庞大，处理和存储这些数据对计算资源提出了极高的要求。此外，不同数据集之间的异质性也给模型的泛化能力带来了挑战。例如，Kinetics数据集包含约500,000个视频，涵盖600种动作，但其视频长度和内容多样性使得模型训练变得复杂。最后，视频理解任务的多样性，如动作检测、视频描述生成等，要求模型具备多任务学习的能力，这对算法的灵活性和效率提出了更高的要求。

常用场景

经典使用场景

在视频理解领域，ActivityNet v1.3、Kinetics-600、Moments in Time等数据集被广泛应用于视频分类、时序动作检测和视频描述生成等任务。这些数据集通过提供多样化的视频内容和标注信息，支持研究人员开发和验证视频理解算法。例如，ActivityNet v1.3常用于动作识别和时序动作检测，Kinetics-600则用于大规模动作分类，Moments in Time则专注于捕捉视频中的瞬间动作。

实际应用

在实际应用中，这些数据集支持了多种视频分析任务，如视频监控、体育分析和视频内容推荐。例如，ActivityNet v1.3的时序动作检测技术可应用于智能监控系统，帮助识别异常行为；Kinetics-600的动作分类技术则可用于体育视频分析，自动识别运动员的动作类型。此外，Moments in Time的数据集可用于视频内容推荐系统，帮助用户快速找到感兴趣的视频片段。

衍生相关工作

基于这些数据集，研究者们开发了多种先进的视频理解算法和模型。例如，基于ActivityNet v1.3的研究工作推动了时序动作检测技术的发展，产生了如iBUG等高性能算法；Kinetics-600则激发了大量关于深度学习在动作分类中的应用研究，如DeepMind的I3D模型。此外，Moments in Time的数据集也促进了视频描述生成和视频问答等领域的研究，产生了如MovieQA和MarioQA等经典数据集和相关工作。

以上内容由遇见数据集搜集并总结生成