ActivityNet v1.3, Kinetics-600, Moments in Time, AVA
收藏github2019-09-11 更新2024-05-31 收录
下载链接:
https://github.com/Jeffery-Zhou/video-understanding-dataset
下载链接
链接失效反馈官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个人类活动视频,涉及200个类别。Kinetics-600: 包含约500,000个人类动作视频,涉及600个类别。Moments in Time: 包含约100万个涉及339个类别的动作或活动视频。AVA: 包含57.6k个视频,涉及80个类别。
ActivityNet v1.3: Contains approximately 20,000 videos of human activities, covering 200 categories. Kinetics-600: Includes around 500,000 videos of human actions, spanning 600 categories. Moments in Time: Comprises about 1 million videos of actions or activities, encompassing 339 categories. AVA: Features 57.6k videos, covering 80 categories.
创建时间:
2019-05-07
原始信息汇总
视频分类数据集概述
| 数据集 | 论文链接 | 网站链接 | 类别 | 示例数量 | 类别数量 | 视频时长 | 组织者 | SOTA 性能 |
|---|---|---|---|---|---|---|---|---|
| UCF101 | [PDF][p1] | [Link][l1] | 人类动作 | 13,320 | 101 | <10s | UCF | 98% (DeepMind I3D) |
| HMDB51 | [PDF][p2] | [Link][l2] | 人类动作 | 6,766 | 51 | <10s | Brown | 80.7% (DeepMind I3D) |
| ActivityNet v1.3 | [PDF][p8] | [Link][l8] | 人类活动 | ~20,000 | 200 | - | ActivityNet | 8.83% err (iBUG) |
| Charades | [PDF][p4] | [Link][l4] | 日常人类活动 | 9,848 | 157 | - | AI2 | 0.3441 mAP (DeepMind I3D) |
| Kinetics | [PDF][p3] | [Link][l3] | 人类动作 | ~500,000 | 600 | 10s | DeepMind | - |
| Sports-1M | [PDF][p5] | [Link][l5] | 体育 | ~1 million | 478 | 5m36s | Google & Stanford | - |
| YouTube-8M | [PDF][p6] | [Link][l6] | 视觉内容 | ~7 million | 4716 | 120-500s | Google Cloud | 85% GAP (WILLOW) |
| FCVID | [PDF][p9] | [Link][l9] | 视觉内容 | 91,223 | 239 | 100s+ | Fudan-Columbia | - |
| Something-Something | [PDF][p10] | [Link][l10] | 物体动作 | 108,499 | 174 | ~4s | TwentyBN | - |
| Moments in Time | [PDF][p7] | [Link][l7] | 动作或活动 | ~1 million | 339 | 3s | MIT-IBM Watson | - |
| SLAC | [arXiv][p11] | [Link][l11] | 识别与定位 | 520K | 200 | ~30.6s | MIT and Facebook | - |
时间动作检测数据集概述
| 数据集 | 论文链接 | 网站链接 | 示例数量 | 组织者 | SOTA 性能 |
|---|---|---|---|---|---|
| THUMOS2014 | [PDF][t1] | [Link][d1] | 9,682 | UCF | - |
| ActivityNet(v1.3) | [PDF][p8] | [Link][l8] | ~20,000 | ActivityNet | 0.344 (SJTU & Columbia) |
| Broad Video Highlights | - | [Link][d2] | 18,000 | Baidu | - |
时空本地化原子视觉动作数据集概述
| 数据集 | 论文链接 | 网站链接 | 示例数量 | 类别数量 | 组织者 | SOTA 性能 |
|---|---|---|---|---|---|---|
| AVA | [arXiv][s1] | [Link][t1] | 57.6k | 80 | Google & Berkeley | - |
视频字幕数据集概述
| 数据集 | 论文链接 | 网站链接 | 上下文 | 示例数量 | 组织者 | SOTA 性能 |
|---|---|---|---|---|---|---|
| MPII-MD | [PDF][v2] | [Link][c2] | 电影 | 68,337 clips with 68,375 sentences | MPII | - |
| MSR-VTT | [PDF][v1] | [Link][c1] | 20 类别 | 10,000 clips with 200,000 sentences | MSR | - |
| Charades | [PDF][p4] | [Link][l4] | 人类活动 | 9,848 clips with 27,847 sentences | AI2 | - |
| Densevid | [PDF][v3] | [Link][c3] | 事件 | 20k clips and 100k sentences | Stanford, ActivityNet | - |
视频问答数据集概述
| 数据集 | 论文链接 | 网站链接 | 任务 | 示例数量 | 组织者 | SOTA 性能 |
|---|---|---|---|---|---|---|
| MovieQA | [PDF][q1] | [Link][a1] | 电影问答 | 408 movies & 14,944 QAs | UToronto | - |
| MarioQA | [PDF][q2] | [Link][a2] | 游戏视频事件推理 | 187,757 examples with 92,874 QAs | POSTECH | - |
搜集汇总
数据集介绍

构建方式
ActivityNet v1.3, Kinetics-600, Moments in Time, AVA等数据集的构建,均是基于大规模视频资源的整合与精细标注。ActivityNet v1.3数据集通过汇聚人类日常活动视频,对视频进行精细的时间标注,标注出视频中的活动类别。Kinetics-600数据集则收集了各类人类动作视频,每个视频都被剪辑至10秒左右,并按照600种动作类别进行分类。Moments in Time数据集包含了日常生活中短暂的活动或事件,每个视频片段仅3秒长,涵盖339种不同的活动类别。AVA数据集则专注于视频中的空间时间定位原子视觉动作,对57.6万视频帧进行标注,分为80个动作类别。
使用方法
使用这些数据集时,研究者可根据具体任务需求,通过数据集官方网站获取相应的数据集和标注信息。ActivityNet v1.3和Kinetics-600通常用于视频分类和动作识别任务,Moments in Time适用于事件识别与细粒度动作识别,而AVA数据集适用于空间时间定位的视觉动作识别。用户需遵循数据集的使用条款,并正确引用相关论文以尊重版权和知识产权。
背景与挑战
背景概述
ActivityNet v1.3、Kinetics-600、Moments in Time以及AVA这四个数据集,均为视频理解领域的重要资源。ActivityNet v1.3数据集由ActivityNet组织创建于2015年,旨在推动人类活动识别的研究;Kinetics-600数据集由DeepMind于2017年推出,包含600种人类动作类别,是迄今为止最大的动作识别数据集之一;Moments in Time数据集由MIT-IBM Watson实验室于2018年发布,专注于描述视频中的动作或活动;而AVA数据集则由Google和Berkeley联合发布,专注于空间和时间上局部化的原子视觉动作的识别。这些数据集为相关领域的研究提供了丰富的实验素材,推动了视频理解技术的发展,对学术界和工业界均产生了深远的影响。
当前挑战
这些数据集在研究领域中面临的挑战包括:1) 视频理解领域的问题挑战,例如,动作识别中对于复杂场景和遮挡的处理,以及对于动作的细粒度识别;2) 数据集构建过程中的挑战,包括高质量标注的获取、数据集的多样性和平衡性,以及大规模数据处理和计算资源的需求。这些挑战不仅要求研究者在算法上取得创新,还需要在数据处理和标注技术上进行不断的探索和优化。
常用场景
经典使用场景
ActivityNet v1.3, Kinetics-600, Moments in Time, AVA等视频理解数据集,广泛应用于视频分类、动作识别、时空定位等研究领域,其中经典使用场景包括对人类行为、日常活动等进行标注和识别,为算法模型提供丰富的学习样本。
解决学术问题
这些数据集解决了学术研究中关于视频内容理解、动作识别准确度、时序定位等关键问题,为计算机视觉领域的研究提供了重要支撑,极大推动了相关技术的进步与应用。
实际应用
在实际应用中,这些数据集可被用于智能监控、人机交互、内容推荐系统等多个领域,有助于提升系统的智能识别与响应能力,拓宽了计算机视觉技术的应用范围。
数据集最近研究
最新研究方向
在视频理解领域,ActivityNet v1.3、Kinetics-600、Moments in Time以及AVA等数据集的研究方向主要集中在视频分类、动作识别、时序动作检测以及原子视觉动作的定位上。这些数据集为研究者提供了丰富的资源,推动了深度学习在视频理解方面的应用。ActivityNet v1.3数据集在ActivityNet挑战赛中被广泛使用,其研究方向涉及人类活动识别,对于提升算法在复杂活动识别任务中的性能具有重要意义。Kinetics-600数据集则覆盖了600种人类动作,为大规模动作识别研究提供了支持。Moments in Time数据集包含了百万级别的短时活动视频,旨在研究视频中的具体动作或活动,对于理解视频内容具有深远影响。AVA数据集则专注于空间和时间上局部化的原子视觉动作,其研究有助于精确描述视频中的动作细节。这些研究不仅提升了视频分析技术的精度,也为智能视频处理在现实世界的应用提供了可能。
以上内容由遇见数据集搜集并总结生成



