five

ActivityNet v1.3, Kinetics-600, Moments in Time, AVA, UCF101, HMDB51, Charades, Kinetics, Sports-1M, YouTube-8M, FCVID, Something-Something, Moments in Time, SLAC, THUMOS2014, ActivityNet(v1.3), Broad Video Highlights, AVA, Jester, MPII-MD, MSR-VTT, Charades, Densevid, MovieQA, MarioQA

收藏
github2020-01-06 更新2024-05-31 收录
下载链接:
https://github.com/tian-ux543/video-understanding-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ActivityNet v1.3: 包含约20,000个人类活动的视频数据集,由ActivityNet组织。 Kinetics-600: 包含约500,000个关于人类动作的视频数据集,由DeepMind组织。 Moments in Time: 包含约100万个关于动作或活动的视频数据集,由MIT-IBM Watson组织。 AVA: 包含57.6k个视频片段,涉及80个类别,由Google & Berkeley组织。 UCF101: 包含13,320个关于人类动作的视频,涉及101个类别,由UCF组织。 HMDB51: 包含6,766个关于人类动作的视频,涉及51个类别,由Brown组织。 Charades: 包含9,848个关于日常人类活动的视频,涉及157个类别,由AI2组织。 Sports-1M: 包含约100万个关于体育的视频,涉及478个类别,由Google & Stanford组织。 YouTube-8M: 包含约700万个关于视觉内容的视频,涉及4716个类别,由Google Cloud组织。 FCVID: 包含91,223个关于视觉内容的视频,涉及239个类别,由Fudan-Columbia组织。 Something-Something: 包含108,499个关于使用物体的动作的视频,涉及174个类别,由TwentyBN组织。 SLAC: 包含520K个视频片段,涉及200个类别,用于识别和定位,由MIT和Facebook组织。 THUMOS2014: 包含9,682个视频片段,由UCF组织。 Broad Video Highlights: 包含18,000个视频片段,由Baidu组织。 Jester: 包含148,092个关于手势的视频,涉及27个类别,由TwentyBN组织。 MPII-MD: 包含68,337个电影片段,涉及68,375个句子,由MPII组织。 MSR-VTT: 包含10,000个视频片段,涉及200,000个句子,由MSR组织。 Densevid: 包含20k个视频片段和100k个句子,用于事件描述,由Stanford, ActivityNet组织。 MovieQA: 包含408部电影和14,944个问答对,用于电影中的问答,由UToronto组织。 MarioQA: 包含187,757个示例和92,874个问答对,用于游戏视频中的事件推理,由POSTECH组织。

ActivityNet v1.3:此数据集汇聚了约20,000个视频片段,记录了人类多样的活动,由ActivityNet组织精心构建。 Kinetics-600:本数据集汇集了约500,000个视频,捕捉了人类动作的多样性,由DeepMind组织倾力打造。 Moments in Time:此数据集囊括了约100万个视频,记录了动作与活动的瞬间,由MIT-IBM Watson组织联合出品。 AVA:该数据集包含57.6k个视频片段,覆盖了80个类别,由Google与Berkeley联手打造。 UCF101:此数据集收录了13,320个视频,涵盖了101个类别的人类动作,由UCF组织编制。 HMDB51:该数据集汇聚了6,766个视频片段,涉及51个类别,由Brown组织编制。 Charades:本数据集包含了9,848个关于日常人类活动的视频,涵盖了157个类别,由AI2组织制作。 Sports-1M:此数据集汇集了约100万个体育视频,覆盖了478个类别,由Google与Stanford共同出品。 YouTube-8M:该数据集包含了约700万个关于视觉内容的视频,涵盖了4716个类别,由Google Cloud组织编制。 FCVID:此数据集包含了91,223个关于视觉内容的视频,涉及239个类别,由Fudan-Columbia组织构建。 Something-Something:本数据集汇聚了108,499个关于使用物体的动作的视频,涵盖了174个类别,由TwentyBN组织制作。 SLAC:此数据集包含了520K个视频片段,涉及200个类别,旨在视频识别与定位,由MIT与Facebook共同出品。 THUMOS2014:该数据集包含了9,682个视频片段,由UCF组织编制。 Broad Video Highlights:本数据集包含了18,000个视频片段,由Baidu组织制作。 Jester:此数据集包含了148,092个关于手势的视频,涉及27个类别,由TwentyBN组织制作。 MPII-MD:该数据集包含了68,337个电影片段,涉及68,375个句子,由MPII组织编制。 MSR-VTT:此数据集包含了10,000个视频片段,涉及200,000个句子,由MSR组织制作。 Densevid:本数据集包含了20k个视频片段和100k个句子,用于事件描述,由Stanford与ActivityNet共同出品。 MovieQA:该数据集包含了408部电影和14,944个问答对,用于电影中的问答,由UToronto组织编制。 MarioQA:本数据集包含了187,757个示例和92,874个问答对,用于游戏视频中的事件推理,由POSTECH组织制作。
创建时间:
2020-01-06
原始信息汇总

数据集概述

视频分类数据集

数据集 类别 示例数量 类别数量 持续时间 组织者 SOTA性能
UCF101 人类动作 13,320 101 <10s UCF 98% (DeepMind I3D)
HMDB51 人类动作 6,766 51 <10s Brown 80.7% (DeepMind I3D)
ActivityNet v1.3 人类活动 ~20,000 200 - ActivityNet 8.83% err (iBUG)
Charades 日常人类活动 9,848 157 - AI2 0.3441 mAP (DeepMind I3D)
Kinetics 人类动作 ~500,000 600 10s DeepMind -
Sports-1M 体育 ~1 million 478 5m36s Google & Stanford -
YouTube-8M 视觉内容 ~7 million 4716 120-500s Google Cloud 85% GAP (WILLOW)
FCVID 视觉内容 91,223 239 100s+ Fudan-Columbia -
Something-Something 物体动作 108,499 174 ~4s TwentyBN -
Moments in Time 动作或活动 ~1 million 339 3s MIT-IBM Watson -
SLAC 识别与定位 520K 200 ~30.6s MIT & Facebook -

时间动作检测数据集

数据集 示例数量 组织者 SOTA性能
THUMOS2014 9.682 UCF -
ActivityNet(v1.3) ~20,000 ActivityNet 0.344(SJTU & Columbia)
Broad Video Highlights 18000 Baidu -

时空本地化原子视觉动作数据集

数据集 示例数量 类别数量 组织者 SOTA性能
AVA 57.6k 80 Google & Berkeley -

视频中的手势数据集

数据集 示例数量 类别数量 组织者 SOTA性能
Jester 148,092 27 TwentyBN 95.34%(Ke Yang, NUDT_PDL)

视频字幕数据集

数据集 上下文 示例数量 组织者 SOTA性能
MPII-MD 电影 68,337 clips with 68,375 sentences MPII -
MSR-VTT 20类别 10,000 clips wth 200,000 sentences MSR -
Charades 人类活动 9,848 clips wth 27,847 sentences AI2 -
Densevid 事件 20k clips and 100k sentences Stanford, ActivityNet -

视频问答数据集

数据集 任务 示例数量 组织者 SOTA性能
MovieQA 电影中的问答 408 movies & 14944 QAs UToronto -
MarioQA 游戏视频中的事件推理 187,757 examples with 92,874 QAs POSTECH -
搜集汇总
数据集介绍
main_image_url
构建方式
ActivityNet v1.3数据集是通过收集互联网上的视频片段,并对其进行标注和分类,以构建一个大规模的人类活动视频数据集。该数据集包含了多样化的活动类别,旨在为视频理解领域的研究提供丰富的数据资源。
使用方法
用户可以通过数据集的官方网站获取数据集和相关工具。数据集通常以压缩文件的形式提供,用户需要解压后使用。数据集包含了视频文件和相应的标注文件,研究者可以利用这些数据进行模型训练、验证和测试。
背景与挑战
背景概述
ActivityNet v1.3数据集,由ActivityNet团队创建,旨在推动人类活动视频理解的研究。该数据集于2015年首次发布,包含了约200个类别的近20,000个视频样本,涵盖了日常生活中的人类活动。ActivityNet v1.3数据集对视频分类、动作识别等领域产生了深远的影响,成为了该领域内的一个重要基准。其主要研究人员来自加州大学圣地亚哥分校,该数据集的发布极大地促进了视频理解技术的发展,提高了相关任务的研究水平。
当前挑战
在构建ActivityNet v1.3数据集的过程中,研究人员面临着多方面的挑战。首先,如何准确标注视频中的复杂活动是一个难题。其次,由于数据集规模庞大,数据收集和标注过程中的一致性和准确性保障也是一大挑战。此外,数据集的多样性、不平衡性以及如何有效利用这些数据进行模型训练和评估,都是研究界需要解决的挑战。
常用场景
经典使用场景
在视频理解领域中,ActivityNet v1.3数据集作为一项重要的资源,其经典使用场景主要在于对人类活动进行分类。该数据集提供了约20,000个视频示例,涵盖了200种不同的活动类别,为研究者提供了丰富的标注数据,以训练和评估深度学习模型在视频内容理解方面的性能。
解决学术问题
ActivityNet v1.3数据集解决了学术研究中对于大规模、多样化人类活动视频分类的需求,它的出现极大地推动了视频理解领域的发展。通过对该数据集的分析和模型训练,研究者可以提升算法对复杂活动类型的识别能力,降低错误率,从而提高视频分类的准确性和鲁棒性。
实际应用
在实际应用中,ActivityNet v1.3数据集的应用场景广泛,包括但不限于智能视频监控、人机交互、内容推荐系统等。例如,智能监控系统可以利用该数据集训练出的模型,实现对公共场合异常行为的实时识别和预警,提升安全性。
数据集最近研究
最新研究方向
当前视频理解领域的研究方向主要集中在视频分类、时空动作检测、特定动作识别、视频描述和视频问答等方面。例如,ActivityNet v1.3数据集在活动识别方面的研究取得了显著进展,其在ActivityNet挑战赛中的表现引人注目。同时, Kinetics数据集作为深度学习研究中的一项重要资源,推动了人类动作识别的发展。另一方面,视频描述和视频问答等任务也取得了新的突破,如MovieQA和MarioQA数据集的提出,为视频内容理解提供了新的研究方向和评估标准。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务