five

ActivityNet v1.3, Kinetics-600, Moments in Time, AVA

收藏
github2019-09-11 更新2024-05-31 收录
下载链接:
https://github.com/Jeffery-Zhou/video-understanding-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个人类活动视频,涉及200个类别。Kinetics-600: 包含约500,000个人类动作视频,涉及600个类别。Moments in Time: 包含约100万个涉及339个类别的动作或活动视频。AVA: 包含57.6k个视频,涉及80个类别。

ActivityNet v1.3: Contains approximately 20,000 videos of human activities, covering 200 categories. Kinetics-600: Includes around 500,000 videos of human actions, spanning 600 categories. Moments in Time: Comprises about 1 million videos of actions or activities, encompassing 339 categories. AVA: Features 57.6k videos, covering 80 categories.
创建时间:
2019-05-07
原始信息汇总

视频分类数据集概述

数据集 论文链接 网站链接 类别 示例数量 类别数量 视频时长 组织者 SOTA 性能
UCF101 [PDF][p1] [Link][l1] 人类动作 13,320 101 <10s UCF 98% (DeepMind I3D)
HMDB51 [PDF][p2] [Link][l2] 人类动作 6,766 51 <10s Brown 80.7% (DeepMind I3D)
ActivityNet v1.3 [PDF][p8] [Link][l8] 人类活动 ~20,000 200 - ActivityNet 8.83% err (iBUG)
Charades [PDF][p4] [Link][l4] 日常人类活动 9,848 157 - AI2 0.3441 mAP (DeepMind I3D)
Kinetics [PDF][p3] [Link][l3] 人类动作 ~500,000 600 10s DeepMind -
Sports-1M [PDF][p5] [Link][l5] 体育 ~1 million 478 5m36s Google & Stanford -
YouTube-8M [PDF][p6] [Link][l6] 视觉内容 ~7 million 4716 120-500s Google Cloud 85% GAP (WILLOW)
FCVID [PDF][p9] [Link][l9] 视觉内容 91,223 239 100s+ Fudan-Columbia -
Something-Something [PDF][p10] [Link][l10] 物体动作 108,499 174 ~4s TwentyBN -
Moments in Time [PDF][p7] [Link][l7] 动作或活动 ~1 million 339 3s MIT-IBM Watson -
SLAC [arXiv][p11] [Link][l11] 识别与定位 520K 200 ~30.6s MIT and Facebook -

时间动作检测数据集概述

数据集 论文链接 网站链接 示例数量 组织者 SOTA 性能
THUMOS2014 [PDF][t1] [Link][d1] 9,682 UCF -
ActivityNet(v1.3) [PDF][p8] [Link][l8] ~20,000 ActivityNet 0.344 (SJTU & Columbia)
Broad Video Highlights - [Link][d2] 18,000 Baidu -

时空本地化原子视觉动作数据集概述

数据集 论文链接 网站链接 示例数量 类别数量 组织者 SOTA 性能
AVA [arXiv][s1] [Link][t1] 57.6k 80 Google & Berkeley -

视频字幕数据集概述

数据集 论文链接 网站链接 上下文 示例数量 组织者 SOTA 性能
MPII-MD [PDF][v2] [Link][c2] 电影 68,337 clips with 68,375 sentences MPII -
MSR-VTT [PDF][v1] [Link][c1] 20 类别 10,000 clips with 200,000 sentences MSR -
Charades [PDF][p4] [Link][l4] 人类活动 9,848 clips with 27,847 sentences AI2 -
Densevid [PDF][v3] [Link][c3] 事件 20k clips and 100k sentences Stanford, ActivityNet -

视频问答数据集概述

数据集 论文链接 网站链接 任务 示例数量 组织者 SOTA 性能
MovieQA [PDF][q1] [Link][a1] 电影问答 408 movies & 14,944 QAs UToronto -
MarioQA [PDF][q2] [Link][a2] 游戏视频事件推理 187,757 examples with 92,874 QAs POSTECH -
搜集汇总
数据集介绍
main_image_url
构建方式
ActivityNet v1.3, Kinetics-600, Moments in Time, AVA等数据集的构建,均是基于大规模视频资源的整合与精细标注。ActivityNet v1.3数据集通过汇聚人类日常活动视频,对视频进行精细的时间标注,标注出视频中的活动类别。Kinetics-600数据集则收集了各类人类动作视频,每个视频都被剪辑至10秒左右,并按照600种动作类别进行分类。Moments in Time数据集包含了日常生活中短暂的活动或事件,每个视频片段仅3秒长,涵盖339种不同的活动类别。AVA数据集则专注于视频中的空间时间定位原子视觉动作,对57.6万视频帧进行标注,分为80个动作类别。
使用方法
使用这些数据集时,研究者可根据具体任务需求,通过数据集官方网站获取相应的数据集和标注信息。ActivityNet v1.3和Kinetics-600通常用于视频分类和动作识别任务,Moments in Time适用于事件识别与细粒度动作识别,而AVA数据集适用于空间时间定位的视觉动作识别。用户需遵循数据集的使用条款,并正确引用相关论文以尊重版权和知识产权。
背景与挑战
背景概述
ActivityNet v1.3、Kinetics-600、Moments in Time以及AVA这四个数据集,均为视频理解领域的重要资源。ActivityNet v1.3数据集由ActivityNet组织创建于2015年,旨在推动人类活动识别的研究;Kinetics-600数据集由DeepMind于2017年推出,包含600种人类动作类别,是迄今为止最大的动作识别数据集之一;Moments in Time数据集由MIT-IBM Watson实验室于2018年发布,专注于描述视频中的动作或活动;而AVA数据集则由Google和Berkeley联合发布,专注于空间和时间上局部化的原子视觉动作的识别。这些数据集为相关领域的研究提供了丰富的实验素材,推动了视频理解技术的发展,对学术界和工业界均产生了深远的影响。
当前挑战
这些数据集在研究领域中面临的挑战包括:1) 视频理解领域的问题挑战,例如,动作识别中对于复杂场景和遮挡的处理,以及对于动作的细粒度识别;2) 数据集构建过程中的挑战,包括高质量标注的获取、数据集的多样性和平衡性,以及大规模数据处理和计算资源的需求。这些挑战不仅要求研究者在算法上取得创新,还需要在数据处理和标注技术上进行不断的探索和优化。
常用场景
经典使用场景
ActivityNet v1.3, Kinetics-600, Moments in Time, AVA等视频理解数据集,广泛应用于视频分类、动作识别、时空定位等研究领域,其中经典使用场景包括对人类行为、日常活动等进行标注和识别,为算法模型提供丰富的学习样本。
解决学术问题
这些数据集解决了学术研究中关于视频内容理解、动作识别准确度、时序定位等关键问题,为计算机视觉领域的研究提供了重要支撑,极大推动了相关技术的进步与应用。
实际应用
在实际应用中,这些数据集可被用于智能监控、人机交互、内容推荐系统等多个领域,有助于提升系统的智能识别与响应能力,拓宽了计算机视觉技术的应用范围。
数据集最近研究
最新研究方向
在视频理解领域,ActivityNet v1.3、Kinetics-600、Moments in Time以及AVA等数据集的研究方向主要集中在视频分类、动作识别、时序动作检测以及原子视觉动作的定位上。这些数据集为研究者提供了丰富的资源,推动了深度学习在视频理解方面的应用。ActivityNet v1.3数据集在ActivityNet挑战赛中被广泛使用,其研究方向涉及人类活动识别,对于提升算法在复杂活动识别任务中的性能具有重要意义。Kinetics-600数据集则覆盖了600种人类动作,为大规模动作识别研究提供了支持。Moments in Time数据集包含了百万级别的短时活动视频,旨在研究视频中的具体动作或活动,对于理解视频内容具有深远影响。AVA数据集则专注于空间和时间上局部化的原子视觉动作,其研究有助于精确描述视频中的动作细节。这些研究不仅提升了视频分析技术的精度,也为智能视频处理在现实世界的应用提供了可能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作