ActivityNet v1.3, Kinetics, Moments in Time, AVA, UCF101, HMDB51, Charades, Sports-1M, YouTube-8M, FCVID, Something-Something, SLAC, THUMOS2014, Jester, MPII-MD, MSR-VTT, Densevid, MovieQA, MarioQA

github2018-04-17 更新2024-05-31 收录

下载链接：

https://github.com/Pakigya/video-understanding-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ActivityNet v1.3: 包含约20,000个视频，涉及200种人类活动。Kinetics: 包含约300,000个视频，涉及400种人类动作。Moments in Time: 包含约100万个视频，涉及339种动作或活动。AVA: 包含57.6k个视频，涉及80种动作。UCF101: 包含13,320个视频，涉及101种人类动作。HMDB51: 包含6,766个视频，涉及51种人类动作。Charades: 包含9,848个视频，涉及157种日常人类活动。Sports-1M: 包含约100万个视频，涉及478种体育活动。YouTube-8M: 包含约700万个视频，涉及4716种视觉内容。FCVID: 包含91,223个视频，涉及239种视觉内容。Something-Something: 包含108,499个视频，涉及174种与物体相关的动作。SLAC: 包含520K个视频，涉及200种识别和定位任务。THUMOS2014: 包含9,682个视频。Jester: 包含148,092个视频，涉及27种手势。MPII-MD: 包含68,337个视频片段，涉及电影内容。MSR-VTT: 包含10,000个视频片段，涉及20种类别。Densevid: 包含20k个视频片段和100k个句子，涉及事件。MovieQA: 包含408部电影和14,944个问答对，涉及电影中的问答。MarioQA: 包含187,757个示例和92,874个问答对，涉及游戏视频中的事件推理。

ActivityNet v1.3: Contains approximately 20,000 videos covering 200 types of human activities. Kinetics: Includes about 300,000 videos covering 400 types of human actions. Moments in Time: Comprises around 1 million videos covering 339 types of actions or activities. AVA: Contains 57.6k videos covering 80 types of actions. UCF101: Includes 13,320 videos covering 101 types of human actions. HMDB51: Contains 6,766 videos covering 51 types of human actions. Charades: Includes 9,848 videos covering 157 types of daily human activities. Sports-1M: Comprises about 1 million videos covering 478 types of sports activities. YouTube-8M: Contains approximately 7 million videos covering 4716 types of visual content. FCVID: Includes 91,223 videos covering 239 types of visual content. Something-Something: Contains 108,499 videos covering 174 types of object-related actions. SLAC: Includes 520K videos covering 200 types of recognition and localization tasks. THUMOS2014: Contains 9,682 videos. Jester: Includes 148,092 videos covering 27 types of gestures. MPII-MD: Contains 68,337 video clips covering movie content. MSR-VTT: Includes 10,000 video clips covering 20 categories. Densevid: Contains 20k video clips and 100k sentences covering events. MovieQA: Includes 408 movies and 14,944 question-answer pairs covering movie-related questions and answers. MarioQA: Contains 187,757 examples and 92,874 question-answer pairs covering event reasoning in game videos.

创建时间：

2018-04-17

原始信息汇总

视频理解数据集概述

视频分类

数据集	类别	示例数量	类别数量	持续时间	组织者	SOTA性能
UCF101	人类动作	13,320	101	<10s	UCF	98% (DeepMind I3D)
HMDB51	人类动作	6,766	51	<10s	Brown	80.7% (DeepMind I3D)
ActivityNet v1.3	人类活动	~20,000	200	-	ActivityNet	8.83% err (iBUG)
Charades	日常人类活动	9,848	157	-	AI2	0.3441 mAP (DeepMind I3D)
Kinetics	人类动作	~300,000	400	10s	DeepMind	-
Sports-1M	体育	~1 million	478	5m36s	Google & Stanford	-
YouTube-8M	视觉内容	~7 million	4716	120-500s	Google Cloud	85% GAP (WILLOW)
FCVID	视觉内容	91,223	239	100s+	Fudan-Columbia	-
Something-Something	物体动作	108,499	174	~4s	TwentyBN	-
Moments in Time	动作或活动	~1 million	339	3s	MIT-IBM Watson	-
SLAC	识别与定位	520K	200	~30.6s	MIT & Facebook	-

时序动作检测

数据集	示例数量	组织者	SOTA性能
THUMOS2014	9.682	UCF	-
ActivityNet(v1.3)	~20,000	ActivityNet	0.344(SJTU & Columbia )

时空局部原子视觉动作

数据集	示例数量	类别数量	组织者	SOTA性能
AVA	57.6k	80	Google & Berkeley	-

视频中的手势

数据集	示例数量	类别数量	组织者	SOTA性能
Jester	148,092	27	TwentyBN	95.34%(Ke Yang, NUDT_PDL)

视频字幕

数据集	上下文	示例数量	组织者	SOTA性能
MPII-MD	电影	68,337 clips with 68,375 sentences	MPII	-
MSR-VTT	20个类别	10,000 clips with 200,000 sentences	MSR	-
Charades	人类活动	9,848 clips with 27,847 sentences	AI2	-
Densevid	事件	20k clips and 100k sentences	Stanford, ActivityNet	-

视频问答

数据集	任务	示例数量	组织者	SOTA性能
MovieQA	电影问答	408 movies & 14944 QAs	UToronto	-
MarioQA	游戏视频事件推理	187,757 examples with 92,874 QAs	POSTECH	-

搜集汇总

数据集介绍

构建方式

ActivityNet v1.3数据集的构建基于大规模的人类活动视频，涵盖了200个不同的活动类别。通过众包的方式收集视频数据，并经过严格的标注和质量控制流程，确保每个视频都被准确地标注了对应的活动类别，从而构建出一个丰富多样且具有挑战性的数据集。

特点

该数据集的特点在于其规模宏大、类别丰富，以及标注质量高。它不仅包含了大量的人类活动视频，还提供了详尽的时空标注信息，为研究视频理解、动作识别等领域提供了宝贵的资源。此外，ActivityNet v1.3数据集在多个国际竞赛中被广泛使用，推动了相关技术的发展。

使用方法

用户可以通过数据集官方网站获取ActivityNet v1.3的详细信息和下载链接。在获取数据后，用户需要遵守数据使用协议，并可以使用标准的数据处理工具进行分析和模型训练。针对不同的研究需求，用户可以对数据集进行预处理、标注解析等操作，以适应具体的实验设计。

背景与挑战

背景概述

ActivityNet v1.3数据集，由ActivityNet团队创建，旨在推动人类活动视频理解的研究。该数据集包含了约20,000个视频样本，涵盖200种不同的活动类别。自推出以来，ActivityNet v1.3在视频理解领域产生了广泛影响，成为多个国际竞赛的基础数据集，如2018年的ActivityNet挑战赛。其主要研究人员来自ActivityNet组织，该团队致力于视频理解相关的算法研究和数据集构建，对提升视频内容理解技术具有重要作用。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1) 大规模多样化活动的标注准确性；2) 高效处理和存储大量视频数据的技术难题。在研究领域问题方面，ActivityNet v1.3面临的挑战包括：1) 视频分类中的长尾分布问题，即某些类别的样本数量远多于其他类别，导致模型性能不均衡；2) 视频中的动作定位和识别问题，需要模型能够准确识别并定位视频中的具体动作。

常用场景

经典使用场景

ActivityNet v1.3数据集，作为人类活动识别领域的权威资源，其经典使用场景在于为算法提供丰富多样的视频数据，以训练和评估模型对各类人类活动进行识别和分类的能力。该数据集广泛应用于深度学习模型的预训练和微调，从而提升模型在视频内容理解方面的性能。

解决学术问题

该数据集解决了视频领域中动作识别准确度不高、类别覆盖不全的学术研究问题。它通过提供大规模、多样化的视频数据，使得研究者能够训练出更为精确和鲁棒的识别模型，进而推动视频理解技术的发展，对智能视频分析、内容审核等领域产生了深远影响。

衍生相关工作

基于ActivityNet v1.3数据集，学术界衍生出了许多经典工作，如时空动作检测、原子视觉动作的定位等。这些工作进一步拓展了视频理解的研究边界，促进了视频分析技术的进步。

以上内容由遇见数据集搜集并总结生成