AVA Dataset

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/JiqiangZhou/google-AVA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AVA数据集密集标注了80种原子视觉动作在57.6k电影片段中，实现了空间和时间上的动作定位，共产生210k动作标签，每个视频片段中频繁出现多个人物标签。与现有视频数据集的主要区别在于：1. 定义了原子视觉动作，避免收集每个复杂动作的数据；2. 精确的空间-时间标注，可能对每个人物进行多次标注；3. 使用多样化的、真实的视频材料（电影）。

The AVA dataset densely annotates 80 atomic visual actions across 57.6k movie clips, achieving spatial and temporal action localization, resulting in a total of 210k action labels. Multiple character labels frequently appear in each video clip. The main differences from existing video datasets are: 1. It defines atomic visual actions, avoiding the need to collect data for each complex action; 2. Precise spatio-temporal annotations, potentially annotating each character multiple times; 3. The use of diverse, real-world video materials (movies).

创建时间：

2017-10-23

原始信息汇总

数据集概述

数据集名称： Google AVA Dataset

数据集内容：

训练和测试annotations
所有视频的Youtube IDs
action_id
部分因版权原因无法下载的视频的下载方法

数据集特点：

原子视觉动作定义：避免收集每个复杂动作的数据。
精确时空标注：可能对每个人进行多次标注。
多样化的真实视频材料：使用电影作为视频来源。

数据集结构：

视频数量：192个视频，分为154个训练视频和38个测试视频。
标注方式：每视频15分钟，以3秒间隔标注，共300个标注段。
标注文件：ava_train_v1.0.csv 和 ava_test_v1.0.csv。
标注格式：video_id, middle_frame_timestamp, person_box, action_id。

下载方式：

百度云链接：https://pan.baidu.com/s/1LZX-xBHqFbKGkqr-iBM2MA，提取码：stij。
微信点对点分享：添加微信“smartporridge”，备注ava数据下载。

版权信息：

使用许可：Creative Commons Attribution 4.0 International (CC BY 4.0)。

额外信息：

部分视频因版权问题可能无法在某些地区访问。
学术用途下载：需在此处注册。

搜集汇总

数据集介绍

构建方式

AVA数据集通过密集标注80种原子视觉动作，涵盖了57.6k个电影片段，实现了时空上的精确动作定位，产生了210k个动作标签。数据集的构建基于电影视频，每段视频被分为15分钟的片段，并以3秒为间隔进行标注，确保每个片段包含300个标注段。标注信息通过两个CSV文件（ava_train_v1.0.csv和ava_test_v1.0.csv）提供，每个文件记录了视频ID、中间帧时间戳、人物框和动作ID等详细信息。

特点

AVA数据集的主要特点在于其对原子视觉动作的定义，避免了复杂动作数据的收集，同时提供了精确的时空标注，允许多个标注同时存在于同一人身上。此外，数据集使用了多样且现实的视频材料，增强了数据的真实性和应用广泛性。每个视频的标注信息通过CSV文件详细记录，便于后续的数据处理和分析。

使用方法

使用AVA数据集时，用户可以通过提供的CSV文件获取视频ID、时间戳、人物框和动作ID等信息，进行训练和测试。数据集的下载可以通过YouTube-dl工具进行，部分因版权问题无法下载的视频可通过特定学术途径获取。用户需注意，部分视频可能因地域限制无法访问，需通过特定渠道获取。数据集适用于视频动作识别、时空动作定位等研究领域。

背景与挑战

背景概述

AVA数据集由Google Inc.于2017年发布，旨在推动视频动作识别领域的研究。该数据集通过密集标注80种原子视觉动作，覆盖了57.6k个电影片段，提供了210k个动作标签，且每个动作在时间和空间上均被精确标注。AVA数据集的核心创新在于其对原子视觉动作的定义，避免了复杂动作数据的收集，同时通过多样化的电影素材，增强了数据的真实性和多样性。该数据集的发布对视频动作识别、时空定位等领域的研究产生了深远影响，为研究人员提供了丰富的资源和挑战。

当前挑战

AVA数据集在构建过程中面临多项挑战。首先，精确的时空标注需要大量的人力和时间投入，确保每个动作在视频中的定位准确无误。其次，由于使用了多样化的电影素材，部分视频因版权问题在某些地区无法访问，这增加了数据获取的难度。此外，数据集中包含多个动作标签，且每个动作可能涉及多个人的行为，这为动作识别算法的设计和实现带来了复杂性。最后，如何有效利用这些密集标注的数据进行模型训练，以提高动作识别的准确性和鲁棒性，是当前研究面临的主要挑战。

常用场景

经典使用场景

AVA数据集在视频动作识别领域具有经典应用场景，主要用于训练和测试模型以识别和定位电影片段中的原子视觉动作。通过密集标注的80种原子动作，该数据集支持时空动作定位，适用于开发和验证视频理解算法，特别是在多标签动作识别和复杂场景下的动作检测任务中表现突出。

衍生相关工作

基于AVA数据集，研究者们开发了多种视频动作识别和时空定位算法，如基于深度学习的动作识别模型和时空卷积网络。此外，AVA数据集还激发了关于多标签动作识别、动作关系建模等方向的研究，推动了视频理解技术的进步，并在多个国际竞赛中取得了优异成绩。

数据集最近研究