five

ActivityNet v1.3, Kinetics, Moments in Time, AVA, UCF101, HMDB51, Charades, Sports-1M, YouTube-8M, FCVID, Something-Something, SLAC, THUMOS2014, Jester, MPII-MD, MSR-VTT, Densevid, MovieQA, MarioQA

收藏
github2018-04-17 更新2024-05-31 收录
下载链接:
https://github.com/Pakigya/video-understanding-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个视频,涉及200种人类活动。Kinetics: 包含约300,000个视频,涉及400种人类动作。Moments in Time: 包含约100万个视频,涉及339种动作或活动。AVA: 包含57.6k个视频,涉及80种动作。UCF101: 包含13,320个视频,涉及101种人类动作。HMDB51: 包含6,766个视频,涉及51种人类动作。Charades: 包含9,848个视频,涉及157种日常人类活动。Sports-1M: 包含约100万个视频,涉及478种体育活动。YouTube-8M: 包含约700万个视频,涉及4716种视觉内容。FCVID: 包含91,223个视频,涉及239种视觉内容。Something-Something: 包含108,499个视频,涉及174种与物体相关的动作。SLAC: 包含520K个视频,涉及200种识别和定位任务。THUMOS2014: 包含9,682个视频。Jester: 包含148,092个视频,涉及27种手势。MPII-MD: 包含68,337个视频片段,涉及电影内容。MSR-VTT: 包含10,000个视频片段,涉及20种类别。Densevid: 包含20k个视频片段和100k个句子,涉及事件。MovieQA: 包含408部电影和14,944个问答对,涉及电影中的问答。MarioQA: 包含187,757个示例和92,874个问答对,涉及游戏视频中的事件推理。

ActivityNet v1.3: Contains approximately 20,000 videos covering 200 types of human activities. Kinetics: Includes about 300,000 videos covering 400 types of human actions. Moments in Time: Comprises around 1 million videos covering 339 types of actions or activities. AVA: Contains 57.6k videos covering 80 types of actions. UCF101: Includes 13,320 videos covering 101 types of human actions. HMDB51: Contains 6,766 videos covering 51 types of human actions. Charades: Includes 9,848 videos covering 157 types of daily human activities. Sports-1M: Comprises about 1 million videos covering 478 types of sports activities. YouTube-8M: Contains approximately 7 million videos covering 4716 types of visual content. FCVID: Includes 91,223 videos covering 239 types of visual content. Something-Something: Contains 108,499 videos covering 174 types of object-related actions. SLAC: Includes 520K videos covering 200 types of recognition and localization tasks. THUMOS2014: Contains 9,682 videos. Jester: Includes 148,092 videos covering 27 types of gestures. MPII-MD: Contains 68,337 video clips covering movie content. MSR-VTT: Includes 10,000 video clips covering 20 categories. Densevid: Contains 20k video clips and 100k sentences covering events. MovieQA: Includes 408 movies and 14,944 question-answer pairs covering movie-related questions and answers. MarioQA: Contains 187,757 examples and 92,874 question-answer pairs covering event reasoning in game videos.
创建时间:
2018-04-17
原始信息汇总

视频理解数据集概述

视频分类

数据集 类别 示例数量 类别数量 持续时间 组织者 SOTA性能
UCF101 人类动作 13,320 101 <10s UCF 98% (DeepMind I3D)
HMDB51 人类动作 6,766 51 <10s Brown 80.7% (DeepMind I3D)
ActivityNet v1.3 人类活动 ~20,000 200 - ActivityNet 8.83% err (iBUG)
Charades 日常人类活动 9,848 157 - AI2 0.3441 mAP (DeepMind I3D)
Kinetics 人类动作 ~300,000 400 10s DeepMind -
Sports-1M 体育 ~1 million 478 5m36s Google & Stanford -
YouTube-8M 视觉内容 ~7 million 4716 120-500s Google Cloud 85% GAP (WILLOW)
FCVID 视觉内容 91,223 239 100s+ Fudan-Columbia -
Something-Something 物体动作 108,499 174 ~4s TwentyBN -
Moments in Time 动作或活动 ~1 million 339 3s MIT-IBM Watson -
SLAC 识别与定位 520K 200 ~30.6s MIT & Facebook -

时序动作检测

数据集 示例数量 组织者 SOTA性能
THUMOS2014 9.682 UCF -
ActivityNet(v1.3) ~20,000 ActivityNet 0.344(SJTU & Columbia )

时空局部原子视觉动作

数据集 示例数量 类别数量 组织者 SOTA性能
AVA 57.6k 80 Google & Berkeley -

视频中的手势

数据集 示例数量 类别数量 组织者 SOTA性能
Jester 148,092 27 TwentyBN 95.34%(Ke Yang, NUDT_PDL)

视频字幕

数据集 上下文 示例数量 组织者 SOTA性能
MPII-MD 电影 68,337 clips with 68,375 sentences MPII -
MSR-VTT 20个类别 10,000 clips with 200,000 sentences MSR -
Charades 人类活动 9,848 clips with 27,847 sentences AI2 -
Densevid 事件 20k clips and 100k sentences Stanford, ActivityNet -

视频问答

数据集 任务 示例数量 组织者 SOTA性能
MovieQA 电影问答 408 movies & 14944 QAs UToronto -
MarioQA 游戏视频事件推理 187,757 examples with 92,874 QAs POSTECH -
搜集汇总
数据集介绍
main_image_url
构建方式
ActivityNet v1.3数据集的构建基于大规模的人类活动视频,涵盖了200个不同的活动类别。通过众包的方式收集视频数据,并经过严格的标注和质量控制流程,确保每个视频都被准确地标注了对应的活动类别,从而构建出一个丰富多样且具有挑战性的数据集。
特点
该数据集的特点在于其规模宏大、类别丰富,以及标注质量高。它不仅包含了大量的人类活动视频,还提供了详尽的时空标注信息,为研究视频理解、动作识别等领域提供了宝贵的资源。此外,ActivityNet v1.3数据集在多个国际竞赛中被广泛使用,推动了相关技术的发展。
使用方法
用户可以通过数据集官方网站获取ActivityNet v1.3的详细信息和下载链接。在获取数据后,用户需要遵守数据使用协议,并可以使用标准的数据处理工具进行分析和模型训练。针对不同的研究需求,用户可以对数据集进行预处理、标注解析等操作,以适应具体的实验设计。
背景与挑战
背景概述
ActivityNet v1.3数据集,由ActivityNet团队创建,旨在推动人类活动视频理解的研究。该数据集包含了约20,000个视频样本,涵盖200种不同的活动类别。自推出以来,ActivityNet v1.3在视频理解领域产生了广泛影响,成为多个国际竞赛的基础数据集,如2018年的ActivityNet挑战赛。其主要研究人员来自ActivityNet组织,该团队致力于视频理解相关的算法研究和数据集构建,对提升视频内容理解技术具有重要作用。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 大规模多样化活动的标注准确性;2) 高效处理和存储大量视频数据的技术难题。在研究领域问题方面,ActivityNet v1.3面临的挑战包括:1) 视频分类中的长尾分布问题,即某些类别的样本数量远多于其他类别,导致模型性能不均衡;2) 视频中的动作定位和识别问题,需要模型能够准确识别并定位视频中的具体动作。
常用场景
经典使用场景
ActivityNet v1.3数据集,作为人类活动识别领域的权威资源,其经典使用场景在于为算法提供丰富多样的视频数据,以训练和评估模型对各类人类活动进行识别和分类的能力。该数据集广泛应用于深度学习模型的预训练和微调,从而提升模型在视频内容理解方面的性能。
解决学术问题
该数据集解决了视频领域中动作识别准确度不高、类别覆盖不全的学术研究问题。它通过提供大规模、多样化的视频数据,使得研究者能够训练出更为精确和鲁棒的识别模型,进而推动视频理解技术的发展,对智能视频分析、内容审核等领域产生了深远影响。
衍生相关工作
基于ActivityNet v1.3数据集,学术界衍生出了许多经典工作,如时空动作检测、原子视觉动作的定位等。这些工作进一步拓展了视频理解的研究边界,促进了视频分析技术的进步。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务