ActivityNet v1.3, Kinetics-600, Moments in Time, AVA, UCF101, HMDB51, Charades, Kinetics, Sports-1M, YouTube-8M, FCVID, Something-Something, Moments in Time, SLAC, THUMOS2014, ActivityNet(v1.3), Broad Video Highlights, AVA, Jester, MPII-MD, MSR-VTT, Charades, Densevid, MovieQA, MarioQA

github2020-01-06 更新2024-05-31 收录

下载链接：

https://github.com/tian-ux543/video-understanding-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ActivityNet v1.3: 包含约20,000个人类活动的视频数据集，由ActivityNet组织。 Kinetics-600: 包含约500,000个关于人类动作的视频数据集，由DeepMind组织。 Moments in Time: 包含约100万个关于动作或活动的视频数据集，由MIT-IBM Watson组织。 AVA: 包含57.6k个视频片段，涉及80个类别，由Google & Berkeley组织。 UCF101: 包含13,320个关于人类动作的视频，涉及101个类别，由UCF组织。 HMDB51: 包含6,766个关于人类动作的视频，涉及51个类别，由Brown组织。 Charades: 包含9,848个关于日常人类活动的视频，涉及157个类别，由AI2组织。 Sports-1M: 包含约100万个关于体育的视频，涉及478个类别，由Google & Stanford组织。 YouTube-8M: 包含约700万个关于视觉内容的视频，涉及4716个类别，由Google Cloud组织。 FCVID: 包含91,223个关于视觉内容的视频，涉及239个类别，由Fudan-Columbia组织。 Something-Something: 包含108,499个关于使用物体的动作的视频，涉及174个类别，由TwentyBN组织。 SLAC: 包含520K个视频片段，涉及200个类别，用于识别和定位，由MIT和Facebook组织。 THUMOS2014: 包含9,682个视频片段，由UCF组织。 Broad Video Highlights: 包含18,000个视频片段，由Baidu组织。 Jester: 包含148,092个关于手势的视频，涉及27个类别，由TwentyBN组织。 MPII-MD: 包含68,337个电影片段，涉及68,375个句子，由MPII组织。 MSR-VTT: 包含10,000个视频片段，涉及200,000个句子，由MSR组织。 Densevid: 包含20k个视频片段和100k个句子，用于事件描述，由Stanford, ActivityNet组织。 MovieQA: 包含408部电影和14,944个问答对，用于电影中的问答，由UToronto组织。 MarioQA: 包含187,757个示例和92,874个问答对，用于游戏视频中的事件推理，由POSTECH组织。

ActivityNet v1.3：此数据集汇聚了约20,000个视频片段，记录了人类多样的活动，由ActivityNet组织精心构建。 Kinetics-600：本数据集汇集了约500,000个视频，捕捉了人类动作的多样性，由DeepMind组织倾力打造。 Moments in Time：此数据集囊括了约100万个视频，记录了动作与活动的瞬间，由MIT-IBM Watson组织联合出品。 AVA：该数据集包含57.6k个视频片段，覆盖了80个类别，由Google与Berkeley联手打造。 UCF101：此数据集收录了13,320个视频，涵盖了101个类别的人类动作，由UCF组织编制。 HMDB51：该数据集汇聚了6,766个视频片段，涉及51个类别，由Brown组织编制。 Charades：本数据集包含了9,848个关于日常人类活动的视频，涵盖了157个类别，由AI2组织制作。 Sports-1M：此数据集汇集了约100万个体育视频，覆盖了478个类别，由Google与Stanford共同出品。 YouTube-8M：该数据集包含了约700万个关于视觉内容的视频，涵盖了4716个类别，由Google Cloud组织编制。 FCVID：此数据集包含了91,223个关于视觉内容的视频，涉及239个类别，由Fudan-Columbia组织构建。 Something-Something：本数据集汇聚了108,499个关于使用物体的动作的视频，涵盖了174个类别，由TwentyBN组织制作。 SLAC：此数据集包含了520K个视频片段，涉及200个类别，旨在视频识别与定位，由MIT与Facebook共同出品。 THUMOS2014：该数据集包含了9,682个视频片段，由UCF组织编制。 Broad Video Highlights：本数据集包含了18,000个视频片段，由Baidu组织制作。 Jester：此数据集包含了148,092个关于手势的视频，涉及27个类别，由TwentyBN组织制作。 MPII-MD：该数据集包含了68,337个电影片段，涉及68,375个句子，由MPII组织编制。 MSR-VTT：此数据集包含了10,000个视频片段，涉及200,000个句子，由MSR组织制作。 Densevid：本数据集包含了20k个视频片段和100k个句子，用于事件描述，由Stanford与ActivityNet共同出品。 MovieQA：该数据集包含了408部电影和14,944个问答对，用于电影中的问答，由UToronto组织编制。 MarioQA：本数据集包含了187,757个示例和92,874个问答对，用于游戏视频中的事件推理，由POSTECH组织制作。

创建时间：

2020-01-06

原始信息汇总

数据集概述

视频分类数据集

数据集	类别	示例数量	类别数量	持续时间	组织者	SOTA性能
UCF101	人类动作	13,320	101	<10s	UCF	98% (DeepMind I3D)
HMDB51	人类动作	6,766	51	<10s	Brown	80.7% (DeepMind I3D)
ActivityNet v1.3	人类活动	~20,000	200	-	ActivityNet	8.83% err (iBUG)
Charades	日常人类活动	9,848	157	-	AI2	0.3441 mAP (DeepMind I3D)
Kinetics	人类动作	~500,000	600	10s	DeepMind	-
Sports-1M	体育	~1 million	478	5m36s	Google & Stanford	-
YouTube-8M	视觉内容	~7 million	4716	120-500s	Google Cloud	85% GAP (WILLOW)
FCVID	视觉内容	91,223	239	100s+	Fudan-Columbia	-
Something-Something	物体动作	108,499	174	~4s	TwentyBN	-
Moments in Time	动作或活动	~1 million	339	3s	MIT-IBM Watson	-
SLAC	识别与定位	520K	200	~30.6s	MIT & Facebook	-

时间动作检测数据集

数据集	示例数量	组织者	SOTA性能
THUMOS2014	9.682	UCF	-
ActivityNet(v1.3)	~20,000	ActivityNet	0.344(SJTU & Columbia)
Broad Video Highlights	18000	Baidu	-

时空本地化原子视觉动作数据集

数据集	示例数量	类别数量	组织者	SOTA性能
AVA	57.6k	80	Google & Berkeley	-

视频中的手势数据集

数据集	示例数量	类别数量	组织者	SOTA性能
Jester	148,092	27	TwentyBN	95.34%(Ke Yang, NUDT_PDL)

视频字幕数据集

数据集	上下文	示例数量	组织者	SOTA性能
MPII-MD	电影	68,337 clips with 68,375 sentences	MPII	-
MSR-VTT	20类别	10,000 clips wth 200,000 sentences	MSR	-
Charades	人类活动	9,848 clips wth 27,847 sentences	AI2	-
Densevid	事件	20k clips and 100k sentences	Stanford, ActivityNet	-

视频问答数据集

数据集	任务	示例数量	组织者	SOTA性能
MovieQA	电影中的问答	408 movies & 14944 QAs	UToronto	-
MarioQA	游戏视频中的事件推理	187,757 examples with 92,874 QAs	POSTECH	-

搜集汇总

数据集介绍

构建方式

ActivityNet v1.3数据集是通过收集互联网上的视频片段，并对其进行标注和分类，以构建一个大规模的人类活动视频数据集。该数据集包含了多样化的活动类别，旨在为视频理解领域的研究提供丰富的数据资源。

使用方法

用户可以通过数据集的官方网站获取数据集和相关工具。数据集通常以压缩文件的形式提供，用户需要解压后使用。数据集包含了视频文件和相应的标注文件，研究者可以利用这些数据进行模型训练、验证和测试。

背景与挑战

背景概述

ActivityNet v1.3数据集，由ActivityNet团队创建，旨在推动人类活动视频理解的研究。该数据集于2015年首次发布，包含了约200个类别的近20,000个视频样本，涵盖了日常生活中的人类活动。ActivityNet v1.3数据集对视频分类、动作识别等领域产生了深远的影响，成为了该领域内的一个重要基准。其主要研究人员来自加州大学圣地亚哥分校，该数据集的发布极大地促进了视频理解技术的发展，提高了相关任务的研究水平。

当前挑战

在构建ActivityNet v1.3数据集的过程中，研究人员面临着多方面的挑战。首先，如何准确标注视频中的复杂活动是一个难题。其次，由于数据集规模庞大，数据收集和标注过程中的一致性和准确性保障也是一大挑战。此外，数据集的多样性、不平衡性以及如何有效利用这些数据进行模型训练和评估，都是研究界需要解决的挑战。

常用场景

经典使用场景

在视频理解领域中，ActivityNet v1.3数据集作为一项重要的资源，其经典使用场景主要在于对人类活动进行分类。该数据集提供了约20,000个视频示例，涵盖了200种不同的活动类别，为研究者提供了丰富的标注数据，以训练和评估深度学习模型在视频内容理解方面的性能。

解决学术问题

ActivityNet v1.3数据集解决了学术研究中对于大规模、多样化人类活动视频分类的需求，它的出现极大地推动了视频理解领域的发展。通过对该数据集的分析和模型训练，研究者可以提升算法对复杂活动类型的识别能力，降低错误率，从而提高视频分类的准确性和鲁棒性。

实际应用

在实际应用中，ActivityNet v1.3数据集的应用场景广泛，包括但不限于智能视频监控、人机交互、内容推荐系统等。例如，智能监控系统可以利用该数据集训练出的模型，实现对公共场合异常行为的实时识别和预警，提升安全性。

数据集最近研究