ActivityNet v1.3, Kinetics-600, Moments in Time, AVA, UCF101, HMDB51, Charades, Kinetics, Sports-1M, YouTube-8M, FCVID, Something-Something, Moments in Time, SLAC, THUMOS2014, Broad Video Highlights, AVA, Jester, MPII-MD, MSR-VTT, Charades, Densevid, MovieQA, MarioQA
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/yoosan/video-understanding-dataset
下载链接
链接失效反馈官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个人类活动的视频数据集。
Kinetics-600: 包含约500,000个人类动作的视频数据集,每个视频约10秒。
Moments in Time: 包含约100万个描述动作或活动的视频数据集,每个视频约3秒。
AVA: 包含57.6k个视频片段,涉及80个类别,用于时空定位的原子视觉动作。
UCF101: 包含13,320个视频,涉及101个类别的人类动作。
HMDB51: 包含6,766个视频,涉及51个类别的人类动作。
Charades: 包含9,848个视频,涉及157个类别的日常人类活动。
Sports-1M: 包含约100万个视频,涉及478个类别的体育活动。
YouTube-8M: 包含约700万个视频,涉及4716个类别的视觉内容。
FCVID: 包含91,223个视频,涉及239个类别的视觉内容。
Something-Something: 包含108,499个视频,涉及174个类别的与物体相关的动作。
SLAC: 包含520K个视频片段,涉及200个类别,用于识别和定位。
THUMOS2014: 包含9,682个视频片段,用于时间动作检测。
Broad Video Highlights: 包含18,000个视频片段。
Jester: 包含148,092个视频片段,涉及27个类别的手势。
MPII-MD: 包含68,337个视频片段,涉及电影内容。
MSR-VTT: 包含10,000个视频片段,涉及20个类别。
Densevid: 包含20k个视频片段和100k个句子,涉及事件。
MovieQA: 包含408部电影和14,944个问答对,涉及电影中的问答。
MarioQA: 包含187,757个示例和92,874个问答对,涉及游戏视频中的事件推理。
ActivityNet v1.3: A video dataset containing approximately 20,000 human activities.
Kinetics-600: A video dataset containing approximately 500,000 human actions, each video about 10 seconds.
Moments in Time: A video dataset containing approximately 1 million videos describing actions or activities, each video about 3 seconds.
AVA: Contains 57.6k video clips, involving 80 categories, used for spatiotemporal localization of atomic visual actions.
UCF101: Contains 13,320 videos, involving 101 categories of human actions.
HMDB51: Contains 6,766 videos, involving 51 categories of human actions.
Charades: Contains 9,848 videos, involving 157 categories of daily human activities.
Sports-1M: Contains approximately 1 million videos, involving 478 categories of sports activities.
YouTube-8M: Contains approximately 7 million videos, involving 4716 categories of visual content.
FCVID: Contains 91,223 videos, involving 239 categories of visual content.
Something-Something: Contains 108,499 videos, involving 174 categories of object-related actions.
SLAC: Contains 520K video clips, involving 200 categories, used for recognition and localization.
THUMOS2014: Contains 9,682 video clips, used for temporal action detection.
Broad Video Highlights: Contains 18,000 video clips.
Jester: Contains 148,092 video clips, involving 27 categories of gestures.
MPII-MD: Contains 68,337 video clips, involving movie content.
MSR-VTT: Contains 10,000 video clips, involving 20 categories.
Densevid: Contains 20k video clips and 100k sentences, involving events.
MovieQA: Contains 408 movies and 14,944 question-answer pairs, involving questions and answers in movies.
MarioQA: Contains 187,757 examples and 92,874 question-answer pairs, involving event reasoning in game videos.
创建时间:
2017-12-04
原始信息汇总
视频分类数据集概述
| 数据集 | 类别 | 示例数量 | 类别数量 | 持续时间 | 组织者 | SOTA性能 |
|---|---|---|---|---|---|---|
| UCF101 | 人类动作 | 13,320 | 101 | <10s | UCF | 98% (DeepMind I3D) |
| HMDB51 | 人类动作 | 6,766 | 51 | <10s | Brown | 80.7% (DeepMind I3D) |
| ActivityNet v1.3 | 人类活动 | ~20,000 | 200 | - | ActivityNet | 8.83% err (iBUG) |
| Charades | 日常人类活动 | 9,848 | 157 | - | AI2 | 0.3441 mAP (DeepMind I3D) |
| Kinetics | 人类动作 | ~500,000 | 600 | 10s | DeepMind | - |
| Sports-1M | 体育 | ~1 million | 478 | 5m36s | Google & Stanford | - |
| YouTube-8M | 视觉内容 | ~7 million | 4716 | 120-500s | Google Cloud | 85% GAP (WILLOW) |
| FCVID | 视觉内容 | 91,223 | 239 | 100s+ | Fudan-Columbia | - |
| Something-Something | 物体动作 | 108,499 | 174 | ~4s | TwentyBN | - |
| Moments in Time | 动作或活动 | ~1 million | 339 | 3s | MIT-IBM Watson | - |
| SLAC | 识别与定位 | 520K | 200 | ~30.6s | MIT & Facebook | - |
时间动作检测数据集概述
| 数据集 | 示例数量 | 组织者 | SOTA性能 |
|---|---|---|---|
| THUMOS2014 | 9.682 | UCF | - |
| ActivityNet(v1.3) | ~20,000 | ActivityNet | 0.344(SJTU & Columbia ) |
| Broad Video Highlights | 18000 | Baidu | - |
时空定位原子视觉动作数据集概述
| 数据集 | 示例数量 | 类别数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| AVA | 57.6k | 80 | Google & Berkeley | - |
手势视频数据集概述
| 数据集 | 示例数量 | 类别数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| Jester | 148,092 | 27 | TwentyBN | 95.34%(Ke Yang, NUDT_PDL) |
视频字幕数据集概述
| 数据集 | 上下文 | 示例数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| MPII-MD | 电影 | 68,337 clips with 68,375 sentences | MPII | - |
| MSR-VTT | 20个类别 | 10,000 clips with 200,000 sentences | MSR | - |
| Charades | 人类活动 | 9,848 clips with 27,847 sentences | AI2 | - |
| Densevid | 事件 | 20k clips and 100k sentences | Stanford, ActivityNet | - |
视频问答数据集概述
| 数据集 | 任务 | 示例数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| MovieQA | 电影问答 | 408 movies & 14944 QAs | UToronto | - |
| MarioQA | 游戏视频事件推理 | 187,757 examples with 92,874 QAs | POSTECH | - |
搜集汇总
数据集介绍

构建方式
该数据集集合了多个视频理解领域的经典数据集,涵盖了从人类动作识别到视频问答等多个任务。这些数据集的构建方式各异,例如ActivityNet v1.3通过众包平台收集了约20,000个标注视频,涵盖200种人类活动;Kinetics-600则通过从YouTube上筛选并标注了约500,000个10秒长的视频片段,涉及600种人类动作。Moments in Time则通过从互联网上收集了约100万个3秒长的视频片段,涵盖339种动作或活动。这些数据集的构建均依赖于大规模的标注工作,确保了数据的多样性和广泛性。
特点
该数据集集合的显著特点在于其多样性和广泛性。每个数据集针对不同的任务和应用场景进行了优化,例如UCF101和HMDB51专注于人类动作识别,而ActivityNet v1.3和Kinetics-600则扩展到更广泛的人类活动。Moments in Time和Something-Something则进一步探索了动作与物体之间的关系。此外,数据集的规模也从数千到数百万不等,适应了从小规模实验到大规模应用的需求。这些特点使得该数据集集合成为视频理解领域的重要资源。
使用方法
该数据集集合适用于多种视频理解任务的研究和开发,包括但不限于视频分类、时序动作检测、空间-时间动作定位、手势识别、视频描述生成和视频问答。使用者可以根据具体任务选择合适的数据集,例如对于视频分类任务,可以选择UCF101或Kinetics-600;对于时序动作检测,可以选择ActivityNet v1.3或THUMOS2014。使用时,通常需要先下载数据集,然后根据提供的标注文件进行数据预处理和模型训练。此外,部分数据集还提供了预训练模型和基准性能,方便研究者进行性能对比和模型优化。
背景与挑战
背景概述
视频理解领域的研究近年来取得了显著进展,得益于多个大型视频数据集的推出。ActivityNet v1.3、Kinetics-600、Moments in Time、AVA等数据集由知名机构如MIT、DeepMind、Google等发布,旨在推动视频分类、动作检测、时空定位等任务的研究。这些数据集不仅涵盖了广泛的人类活动和动作类别,还提供了丰富的视频内容和标注信息,极大地促进了视频理解技术的发展。例如,ActivityNet v1.3包含了约20,000个视频,涵盖200种人类活动,成为ActivityNet挑战赛2018年的核心数据集。这些数据集的推出为研究人员提供了宝贵的资源,推动了视频理解领域的技术进步。
当前挑战
尽管这些视频数据集为研究提供了丰富的资源,但在构建和应用过程中仍面临诸多挑战。首先,视频数据的采集和标注成本高昂,尤其是涉及复杂动作和时空定位的任务,标注的准确性和一致性难以保证。其次,视频数据集的规模庞大,处理和存储这些数据对计算资源提出了极高的要求。此外,不同数据集之间的异质性也给模型的泛化能力带来了挑战。例如,Kinetics数据集包含约500,000个视频,涵盖600种动作,但其视频长度和内容多样性使得模型训练变得复杂。最后,视频理解任务的多样性,如动作检测、视频描述生成等,要求模型具备多任务学习的能力,这对算法的灵活性和效率提出了更高的要求。
常用场景
经典使用场景
在视频理解领域,ActivityNet v1.3、Kinetics-600、Moments in Time等数据集被广泛应用于视频分类、时序动作检测和视频描述生成等任务。这些数据集通过提供多样化的视频内容和标注信息,支持研究人员开发和验证视频理解算法。例如,ActivityNet v1.3常用于动作识别和时序动作检测,Kinetics-600则用于大规模动作分类,Moments in Time则专注于捕捉视频中的瞬间动作。
实际应用
在实际应用中,这些数据集支持了多种视频分析任务,如视频监控、体育分析和视频内容推荐。例如,ActivityNet v1.3的时序动作检测技术可应用于智能监控系统,帮助识别异常行为;Kinetics-600的动作分类技术则可用于体育视频分析,自动识别运动员的动作类型。此外,Moments in Time的数据集可用于视频内容推荐系统,帮助用户快速找到感兴趣的视频片段。
衍生相关工作
基于这些数据集,研究者们开发了多种先进的视频理解算法和模型。例如,基于ActivityNet v1.3的研究工作推动了时序动作检测技术的发展,产生了如iBUG等高性能算法;Kinetics-600则激发了大量关于深度学习在动作分类中的应用研究,如DeepMind的I3D模型。此外,Moments in Time的数据集也促进了视频描述生成和视频问答等领域的研究,产生了如MovieQA和MarioQA等经典数据集和相关工作。
以上内容由遇见数据集搜集并总结生成



