ActivityNet v1.3, Kinetics, Moments in Time, AVA
收藏github2020-06-15 更新2024-05-31 收录
下载链接:
https://github.com/nemonameless/video-understanding-dataset
下载链接
链接失效反馈官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个人类活动视频,涉及200个类别。Kinetics: 包含约500,000个人类动作视频,涉及600个类别。Moments in Time: 包含约100万个涉及339个类别的动作或活动视频。AVA: 包含57,600个视频,涉及80个类别,用于时空本地化原子视觉动作。
ActivityNet v1.3: Contains approximately 20,000 human activity videos, covering 200 categories. Kinetics: Includes around 500,000 human action videos, spanning 600 categories. Moments in Time: Comprises about 1 million videos of actions or activities, covering 339 categories. AVA: Consists of 57,600 videos, encompassing 80 categories, used for spatiotemporal localization of atomic visual actions.
创建时间:
2018-10-13
原始信息汇总
视频分类数据集概述
| 数据集 | 类别 | 示例数量 | 类别数量 | 持续时间 | 组织者 | SOTA性能 |
|---|---|---|---|---|---|---|
| UCF101 | 人类动作 | 13,320 | 101 | <10s | UCF | 98% (DeepMind I3D) |
| HMDB51 | 人类动作 | 6,766 | 51 | <10s | Brown | 80.7% (DeepMind I3D) |
| ActivityNet v1.3 | 人类活动 | ~20,000 | 200 | - | ActivityNet | 8.83% err (iBUG) |
| Charades | 日常人类活动 | 9,848 | 157 | - | AI2 | 0.3441 mAP (DeepMind I3D) |
| Kinetics | 人类动作 | ~500,000 | 600 | 10s | DeepMind | - |
| Sports-1M | 体育 | ~1 million | 478 | 5m36s | Google & Stanford | - |
| YouTube-8M | 视觉内容 | ~7 million | 4716 | 120-500s | Google Cloud | 85% GAP (WILLOW) |
| FCVID | 视觉内容 | 91,223 | 239 | 100s+ | Fudan-Columbia | - |
| Something-Something | 物体动作 | 108,499 | 174 | ~4s | TwentyBN | - |
| Moments in Time | 动作或活动 | ~1 million | 339 | 3s | MIT-IBM Watson | - |
| SLAC | 识别与定位 | 520K | 200 | ~30.6s | MIT & Facebook | - |
时间动作检测数据集概述
| 数据集 | 示例数量 | 组织者 | SOTA性能 |
|---|---|---|---|
| THUMOS2014 | 9.682 | UCF | - |
| ActivityNet(v1.3) | ~20,000 | ActivityNet | 0.344(SJTU & Columbia) |
| Broad Video Highlights | 18000 | Baidu | - |
时空本地化原子视觉动作数据集概述
| 数据集 | 示例数量 | 类别数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| AVA | 57.6k | 80 | Google & Berkeley | - |
视频中的手势数据集概述
| 数据集 | 示例数量 | 类别数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| Jester | 148,092 | 27 | TwentyBN | 95.34%(Ke Yang, NUDT_PDL) |
视频字幕数据集概述
| 数据集 | 上下文 | 示例数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| MPII-MD | 电影 | 68,337 clips with 68,375 sentences | MPII | - |
| MSR-VTT | 20 类别 | 10,000 clips with 200,000 sentences | MSR | - |
| Charades | 人类活动 | 9,848 clips with 27,847 sentences | AI2 | - |
| Densevid | 事件 | 20k clips and 100k sentences | Stanford, ActivityNet | - |
视频问答数据集概述
| 数据集 | 任务 | 示例数量 | 组织者 | SOTA性能 |
|---|---|---|---|---|
| MovieQA | 电影中的问答 | 408 movies & 14944 QAs | UToronto | - |
| MarioQA | 游戏视频中的事件推理 | 187,757 examples with 92,874 QAs | POSTECH | - |
搜集汇总
数据集介绍

构建方式
ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集的构建均基于大规模视频数据的收集与标注。ActivityNet v1.3通过众包平台收集了约20,000个视频片段,涵盖了200种人类活动类别。Kinetics数据集则从YouTube平台获取了约500,000个10秒时长的视频片段,涵盖了600种人类动作类别。Moments in Time数据集通过众包标注了约100万个3秒时长的视频片段,涵盖了339种动作或活动类别。AVA数据集则专注于时空局部化的原子视觉动作,收集了57.6k个视频片段,标注了80种动作类别。这些数据集的构建均依赖于众包标注和自动化工具的结合,以确保标注的准确性和多样性。
使用方法
这些数据集的使用方法主要围绕视频分类、动作检测和时空动作定位等任务展开。研究人员可以通过下载数据集中的视频和标注文件,利用深度学习模型进行训练和评估。对于ActivityNet v1.3和Kinetics,常见的任务包括视频分类和动作识别,研究人员可以使用卷积神经网络(CNN)或3D卷积网络(如I3D)进行特征提取和分类。Moments in Time数据集则适合用于瞬时动作识别任务,研究人员可以通过短时视频片段进行模型训练。AVA数据集则适用于时空动作定位任务,研究人员可以通过标注的时空边界框进行动作检测和定位。这些数据集的使用方法灵活多样,能够满足不同研究需求。
背景与挑战
背景概述
ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集是视频理解领域的重要资源,广泛应用于2018年ActivityNet挑战赛。这些数据集由多个知名研究机构共同开发,包括ActivityNet、DeepMind、MIT-IBM Watson以及Google与Berkeley的合作团队。ActivityNet v1.3专注于人类活动的识别,包含约20,000个视频样本和200个类别;Kinetics-600则扩展至600个类别,涵盖广泛的人类动作;Moments in Time以百万级视频样本捕捉短暂的动作或活动;AVA则专注于时空局部化的原子视觉动作。这些数据集的创建旨在推动视频分类、时序动作检测和时空动作定位等任务的研究,为计算机视觉领域提供了丰富的实验数据。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,视频数据的标注成本高昂,尤其是时空动作定位任务,需要精确标注动作的起始时间和空间位置。其次,视频内容的多样性和复杂性增加了模型训练的难度,例如Kinetics-600中的动作类别涵盖范围广泛,模型需具备强大的泛化能力。此外,Moments in Time中的短暂动作识别要求模型能够捕捉细微的时间变化,这对算法的时序建模能力提出了更高要求。最后,AVA数据集中的原子动作识别需要同时处理空间和时间信息,这对模型的架构设计和计算资源提出了严峻挑战。这些挑战共同推动了视频理解领域的技术进步。
常用场景
经典使用场景
ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集在视频理解领域具有广泛的应用,尤其是在视频分类、时间动作检测和空间-时间局部化原子视觉动作识别等任务中。这些数据集为研究者提供了丰富的视频样本,涵盖了从日常活动到复杂动作的多样化场景,极大地推动了视频理解技术的发展。
解决学术问题
这些数据集解决了视频理解领域中的多个关键学术问题,如动作识别、时间动作定位和空间-时间动作检测。通过提供大规模、多样化的视频数据,研究者能够开发出更加精确和鲁棒的算法,从而提升模型在复杂场景下的表现。这些数据集的出现填补了视频理解领域的数据空白,为相关研究提供了坚实的基础。
实际应用
在实际应用中,ActivityNet v1.3、Kinetics、Moments in Time和AVA数据集被广泛应用于智能监控、视频内容分析、自动驾驶和虚拟现实等领域。例如,智能监控系统可以利用这些数据集中的动作识别模型,实时检测异常行为;自动驾驶系统则可以通过分析视频数据,提升对周围环境的感知能力。
数据集最近研究
最新研究方向
近年来,视频理解领域的研究重点逐渐从单一的动作识别转向更为复杂的时空动作检测与视频内容理解。ActivityNet v1.3、Kinetics、Moments in Time和AVA等数据集在这一转变中扮演了关键角色。ActivityNet v1.3作为大规模人类活动数据集,推动了时序动作检测技术的发展,尤其是在长视频中精确识别和定位复杂动作的能力。Kinetics-600则通过其丰富的动作类别和高质量的视频样本,为深度学习方法提供了强大的训练基础,进一步提升了动作识别的准确性和鲁棒性。Moments in Time数据集则通过捕捉短暂的动作片段,推动了模型对瞬时动作的理解能力。AVA数据集则专注于时空局部化的原子视觉动作,为细粒度的动作分析提供了重要支持。这些数据集不仅推动了视频理解技术的进步,还在自动驾驶、智能监控和视频内容分析等实际应用中展现了巨大的潜力。
以上内容由遇见数据集搜集并总结生成



