five

AVA Dataset

收藏
github2024-03-30 更新2024-05-31 收录
下载链接:
https://github.com/JiqiangZhou/google-AVA-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AVA数据集密集标注了80种原子视觉动作在57.6k电影片段中,实现了空间和时间上的动作定位,共产生210k动作标签,每个视频片段中频繁出现多个人物标签。与现有视频数据集的主要区别在于:1. 定义了原子视觉动作,避免收集每个复杂动作的数据;2. 精确的空间-时间标注,可能对每个人物进行多次标注;3. 使用多样化的、真实的视频材料(电影)。

The AVA dataset densely annotates 80 atomic visual actions across 57.6k movie clips, achieving spatial and temporal action localization, resulting in a total of 210k action labels. Multiple character labels frequently appear in each video clip. The main differences from existing video datasets are: 1. It defines atomic visual actions, avoiding the need to collect data for each complex action; 2. Precise spatio-temporal annotations, potentially annotating each character multiple times; 3. The use of diverse, real-world video materials (movies).
创建时间:
2017-10-23
原始信息汇总

数据集概述

数据集名称: Google AVA Dataset

数据集内容:

  • 训练和测试annotations
  • 所有视频的Youtube IDs
  • action_id
  • 部分因版权原因无法下载的视频的下载方法

数据集特点:

  1. 原子视觉动作定义:避免收集每个复杂动作的数据。
  2. 精确时空标注:可能对每个人进行多次标注。
  3. 多样化的真实视频材料:使用电影作为视频来源。

数据集结构:

  • 视频数量:192个视频,分为154个训练视频和38个测试视频。
  • 标注方式:每视频15分钟,以3秒间隔标注,共300个标注段。
  • 标注文件:ava_train_v1.0.csv 和 ava_test_v1.0.csv。
  • 标注格式:video_id, middle_frame_timestamp, person_box, action_id。

下载方式:

  • 百度云链接:https://pan.baidu.com/s/1LZX-xBHqFbKGkqr-iBM2MA,提取码:stij。
  • 微信点对点分享:添加微信“smartporridge”,备注ava数据下载。

版权信息:

  • 使用许可:Creative Commons Attribution 4.0 International (CC BY 4.0)。

额外信息:

  • 部分视频因版权问题可能无法在某些地区访问
  • 学术用途下载:需在此处注册。
搜集汇总
数据集介绍
main_image_url
构建方式
AVA数据集通过密集标注80种原子视觉动作,涵盖了57.6k个电影片段,实现了时空上的精确动作定位,产生了210k个动作标签。数据集的构建基于电影视频,每段视频被分为15分钟的片段,并以3秒为间隔进行标注,确保每个片段包含300个标注段。标注信息通过两个CSV文件(ava_train_v1.0.csv和ava_test_v1.0.csv)提供,每个文件记录了视频ID、中间帧时间戳、人物框和动作ID等详细信息。
特点
AVA数据集的主要特点在于其对原子视觉动作的定义,避免了复杂动作数据的收集,同时提供了精确的时空标注,允许多个标注同时存在于同一人身上。此外,数据集使用了多样且现实的视频材料,增强了数据的真实性和应用广泛性。每个视频的标注信息通过CSV文件详细记录,便于后续的数据处理和分析。
使用方法
使用AVA数据集时,用户可以通过提供的CSV文件获取视频ID、时间戳、人物框和动作ID等信息,进行训练和测试。数据集的下载可以通过YouTube-dl工具进行,部分因版权问题无法下载的视频可通过特定学术途径获取。用户需注意,部分视频可能因地域限制无法访问,需通过特定渠道获取。数据集适用于视频动作识别、时空动作定位等研究领域。
背景与挑战
背景概述
AVA数据集由Google Inc.于2017年发布,旨在推动视频动作识别领域的研究。该数据集通过密集标注80种原子视觉动作,覆盖了57.6k个电影片段,提供了210k个动作标签,且每个动作在时间和空间上均被精确标注。AVA数据集的核心创新在于其对原子视觉动作的定义,避免了复杂动作数据的收集,同时通过多样化的电影素材,增强了数据的真实性和多样性。该数据集的发布对视频动作识别、时空定位等领域的研究产生了深远影响,为研究人员提供了丰富的资源和挑战。
当前挑战
AVA数据集在构建过程中面临多项挑战。首先,精确的时空标注需要大量的人力和时间投入,确保每个动作在视频中的定位准确无误。其次,由于使用了多样化的电影素材,部分视频因版权问题在某些地区无法访问,这增加了数据获取的难度。此外,数据集中包含多个动作标签,且每个动作可能涉及多个人的行为,这为动作识别算法的设计和实现带来了复杂性。最后,如何有效利用这些密集标注的数据进行模型训练,以提高动作识别的准确性和鲁棒性,是当前研究面临的主要挑战。
常用场景
经典使用场景
AVA数据集在视频动作识别领域具有经典应用场景,主要用于训练和测试模型以识别和定位电影片段中的原子视觉动作。通过密集标注的80种原子动作,该数据集支持时空动作定位,适用于开发和验证视频理解算法,特别是在多标签动作识别和复杂场景下的动作检测任务中表现突出。
衍生相关工作
基于AVA数据集,研究者们开发了多种视频动作识别和时空定位算法,如基于深度学习的动作识别模型和时空卷积网络。此外,AVA数据集还激发了关于多标签动作识别、动作关系建模等方向的研究,推动了视频理解技术的进步,并在多个国际竞赛中取得了优异成绩。
数据集最近研究
最新研究方向
在视频理解领域,AVA数据集因其对原子视觉动作的精确时空标注而备受关注。最新研究方向主要集中在利用AVA数据集进行多标签动作识别和时空动作定位,探索如何通过深度学习模型更准确地解析复杂场景中的多重动作。此外,随着视频内容的多样性和复杂性增加,研究者们也在探索如何结合多模态信息,如音频和文本,以提升动作识别的准确性和鲁棒性。这些研究不仅推动了视频理解技术的发展,也为智能监控、人机交互等领域提供了重要的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作