five

ActivityNet v1.3, Kinetics-600, Moments in Time, AVA, UCF101, HMDB51, Charades, Kinetics, Sports-1M, YouTube-8M, FCVID, Something-Something, Moments in Time, SLAC, THUMOS2014, Broad Video Highlights, AVA, Jester, MPII-MD, MSR-VTT, Charades, Densevid, MovieQA, MarioQA

收藏
github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/yoosan/video-understanding-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个人类活动的视频数据集。 Kinetics-600: 包含约500,000个人类动作的视频数据集,每个视频约10秒。 Moments in Time: 包含约100万个描述动作或活动的视频数据集,每个视频约3秒。 AVA: 包含57.6k个视频片段,涉及80个类别,用于时空定位的原子视觉动作。 UCF101: 包含13,320个视频,涉及101个类别的人类动作。 HMDB51: 包含6,766个视频,涉及51个类别的人类动作。 Charades: 包含9,848个视频,涉及157个类别的日常人类活动。 Sports-1M: 包含约100万个视频,涉及478个类别的体育活动。 YouTube-8M: 包含约700万个视频,涉及4716个类别的视觉内容。 FCVID: 包含91,223个视频,涉及239个类别的视觉内容。 Something-Something: 包含108,499个视频,涉及174个类别的与物体相关的动作。 SLAC: 包含520K个视频片段,涉及200个类别,用于识别和定位。 THUMOS2014: 包含9,682个视频片段,用于时间动作检测。 Broad Video Highlights: 包含18,000个视频片段。 Jester: 包含148,092个视频片段,涉及27个类别的手势。 MPII-MD: 包含68,337个视频片段,涉及电影内容。 MSR-VTT: 包含10,000个视频片段,涉及20个类别。 Densevid: 包含20k个视频片段和100k个句子,涉及事件。 MovieQA: 包含408部电影和14,944个问答对,涉及电影中的问答。 MarioQA: 包含187,757个示例和92,874个问答对,涉及游戏视频中的事件推理。

ActivityNet v1.3: A video dataset containing approximately 20,000 human activities. Kinetics-600: A video dataset containing approximately 500,000 human actions, each video about 10 seconds. Moments in Time: A video dataset containing approximately 1 million videos describing actions or activities, each video about 3 seconds. AVA: Contains 57.6k video clips, involving 80 categories, used for spatiotemporal localization of atomic visual actions. UCF101: Contains 13,320 videos, involving 101 categories of human actions. HMDB51: Contains 6,766 videos, involving 51 categories of human actions. Charades: Contains 9,848 videos, involving 157 categories of daily human activities. Sports-1M: Contains approximately 1 million videos, involving 478 categories of sports activities. YouTube-8M: Contains approximately 7 million videos, involving 4716 categories of visual content. FCVID: Contains 91,223 videos, involving 239 categories of visual content. Something-Something: Contains 108,499 videos, involving 174 categories of object-related actions. SLAC: Contains 520K video clips, involving 200 categories, used for recognition and localization. THUMOS2014: Contains 9,682 video clips, used for temporal action detection. Broad Video Highlights: Contains 18,000 video clips. Jester: Contains 148,092 video clips, involving 27 categories of gestures. MPII-MD: Contains 68,337 video clips, involving movie content. MSR-VTT: Contains 10,000 video clips, involving 20 categories. Densevid: Contains 20k video clips and 100k sentences, involving events. MovieQA: Contains 408 movies and 14,944 question-answer pairs, involving questions and answers in movies. MarioQA: Contains 187,757 examples and 92,874 question-answer pairs, involving event reasoning in game videos.
创建时间:
2017-12-04
原始信息汇总

视频分类数据集概述

数据集 类别 示例数量 类别数量 持续时间 组织者 SOTA性能
UCF101 人类动作 13,320 101 <10s UCF 98% (DeepMind I3D)
HMDB51 人类动作 6,766 51 <10s Brown 80.7% (DeepMind I3D)
ActivityNet v1.3 人类活动 ~20,000 200 - ActivityNet 8.83% err (iBUG)
Charades 日常人类活动 9,848 157 - AI2 0.3441 mAP (DeepMind I3D)
Kinetics 人类动作 ~500,000 600 10s DeepMind -
Sports-1M 体育 ~1 million 478 5m36s Google & Stanford -
YouTube-8M 视觉内容 ~7 million 4716 120-500s Google Cloud 85% GAP (WILLOW)
FCVID 视觉内容 91,223 239 100s+ Fudan-Columbia -
Something-Something 物体动作 108,499 174 ~4s TwentyBN -
Moments in Time 动作或活动 ~1 million 339 3s MIT-IBM Watson -
SLAC 识别与定位 520K 200 ~30.6s MIT & Facebook -

时间动作检测数据集概述

数据集 示例数量 组织者 SOTA性能
THUMOS2014 9.682 UCF -
ActivityNet(v1.3) ~20,000 ActivityNet 0.344(SJTU & Columbia )
Broad Video Highlights 18000 Baidu -

时空定位原子视觉动作数据集概述

数据集 示例数量 类别数量 组织者 SOTA性能
AVA 57.6k 80 Google & Berkeley -

手势视频数据集概述

数据集 示例数量 类别数量 组织者 SOTA性能
Jester 148,092 27 TwentyBN 95.34%(Ke Yang, NUDT_PDL)

视频字幕数据集概述

数据集 上下文 示例数量 组织者 SOTA性能
MPII-MD 电影 68,337 clips with 68,375 sentences MPII -
MSR-VTT 20个类别 10,000 clips with 200,000 sentences MSR -
Charades 人类活动 9,848 clips with 27,847 sentences AI2 -
Densevid 事件 20k clips and 100k sentences Stanford, ActivityNet -

视频问答数据集概述

数据集 任务 示例数量 组织者 SOTA性能
MovieQA 电影问答 408 movies & 14944 QAs UToronto -
MarioQA 游戏视频事件推理 187,757 examples with 92,874 QAs POSTECH -
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集集合了多个视频理解领域的经典数据集,涵盖了从人类动作识别到视频问答等多个任务。这些数据集的构建方式各异,例如ActivityNet v1.3通过众包平台收集了约20,000个标注视频,涵盖200种人类活动;Kinetics-600则通过从YouTube上筛选并标注了约500,000个10秒长的视频片段,涉及600种人类动作。Moments in Time则通过从互联网上收集了约100万个3秒长的视频片段,涵盖339种动作或活动。这些数据集的构建均依赖于大规模的标注工作,确保了数据的多样性和广泛性。
特点
该数据集集合的显著特点在于其多样性和广泛性。每个数据集针对不同的任务和应用场景进行了优化,例如UCF101和HMDB51专注于人类动作识别,而ActivityNet v1.3和Kinetics-600则扩展到更广泛的人类活动。Moments in Time和Something-Something则进一步探索了动作与物体之间的关系。此外,数据集的规模也从数千到数百万不等,适应了从小规模实验到大规模应用的需求。这些特点使得该数据集集合成为视频理解领域的重要资源。
使用方法
该数据集集合适用于多种视频理解任务的研究和开发,包括但不限于视频分类、时序动作检测、空间-时间动作定位、手势识别、视频描述生成和视频问答。使用者可以根据具体任务选择合适的数据集,例如对于视频分类任务,可以选择UCF101或Kinetics-600;对于时序动作检测,可以选择ActivityNet v1.3或THUMOS2014。使用时,通常需要先下载数据集,然后根据提供的标注文件进行数据预处理和模型训练。此外,部分数据集还提供了预训练模型和基准性能,方便研究者进行性能对比和模型优化。
背景与挑战
背景概述
视频理解领域的研究近年来取得了显著进展,得益于多个大型视频数据集的推出。ActivityNet v1.3、Kinetics-600、Moments in Time、AVA等数据集由知名机构如MIT、DeepMind、Google等发布,旨在推动视频分类、动作检测、时空定位等任务的研究。这些数据集不仅涵盖了广泛的人类活动和动作类别,还提供了丰富的视频内容和标注信息,极大地促进了视频理解技术的发展。例如,ActivityNet v1.3包含了约20,000个视频,涵盖200种人类活动,成为ActivityNet挑战赛2018年的核心数据集。这些数据集的推出为研究人员提供了宝贵的资源,推动了视频理解领域的技术进步。
当前挑战
尽管这些视频数据集为研究提供了丰富的资源,但在构建和应用过程中仍面临诸多挑战。首先,视频数据的采集和标注成本高昂,尤其是涉及复杂动作和时空定位的任务,标注的准确性和一致性难以保证。其次,视频数据集的规模庞大,处理和存储这些数据对计算资源提出了极高的要求。此外,不同数据集之间的异质性也给模型的泛化能力带来了挑战。例如,Kinetics数据集包含约500,000个视频,涵盖600种动作,但其视频长度和内容多样性使得模型训练变得复杂。最后,视频理解任务的多样性,如动作检测、视频描述生成等,要求模型具备多任务学习的能力,这对算法的灵活性和效率提出了更高的要求。
常用场景
经典使用场景
在视频理解领域,ActivityNet v1.3、Kinetics-600、Moments in Time等数据集被广泛应用于视频分类、时序动作检测和视频描述生成等任务。这些数据集通过提供多样化的视频内容和标注信息,支持研究人员开发和验证视频理解算法。例如,ActivityNet v1.3常用于动作识别和时序动作检测,Kinetics-600则用于大规模动作分类,Moments in Time则专注于捕捉视频中的瞬间动作。
实际应用
在实际应用中,这些数据集支持了多种视频分析任务,如视频监控、体育分析和视频内容推荐。例如,ActivityNet v1.3的时序动作检测技术可应用于智能监控系统,帮助识别异常行为;Kinetics-600的动作分类技术则可用于体育视频分析,自动识别运动员的动作类型。此外,Moments in Time的数据集可用于视频内容推荐系统,帮助用户快速找到感兴趣的视频片段。
衍生相关工作
基于这些数据集,研究者们开发了多种先进的视频理解算法和模型。例如,基于ActivityNet v1.3的研究工作推动了时序动作检测技术的发展,产生了如iBUG等高性能算法;Kinetics-600则激发了大量关于深度学习在动作分类中的应用研究,如DeepMind的I3D模型。此外,Moments in Time的数据集也促进了视频描述生成和视频问答等领域的研究,产生了如MovieQA和MarioQA等经典数据集和相关工作。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务