AVA Dataset

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/JiqiangZhou/google-AVA-Dataset-downloader

下载链接

链接失效反馈

官方服务：

资源简介：

AVA数据集密集注释了80个原子视觉动作在57.6k电影片段中，动作在空间和时间上被定位，产生了210k动作标签，每个视频片段中经常有多个人被标记。与现有视频数据集的主要区别在于：1. 原子视觉动作的定义，避免了为每个复杂动作收集数据的需要；2. 精确的时空注释，可能对每个人进行多次注释；3. 使用多样化的、真实的视频材料（电影）。

The AVA dataset densely annotates 80 atomic visual actions across 57.6k movie clips, with actions localized both spatially and temporally, resulting in 210k action labels. Frequently, multiple individuals are tagged within each video clip. The primary distinctions from existing video datasets include: 1. The definition of atomic visual actions, which eliminates the need to collect data for each complex action; 2. Precise spatiotemporal annotations, potentially annotating each individual multiple times; 3. The use of diverse, real-world video materials (movies).

创建时间：

2017-10-23

原始信息汇总

数据集概述

数据集名称

Google AVA Dataset

数据集内容

训练和测试annotations
所有视频的Youtube IDs
action_id
部分因版权原因无法下载的视频的下载方法

数据集特点

密集标注80种原子视觉动作
57.6k电影片段，210k动作标签
时空定位精确，多人多标签
使用多样、真实的电影材料

数据集结构

192个视频，分为154个训练视频和38个测试视频
每个视频15分钟，以3秒间隔标注，共300个标注段
两个CSV文件：ava_train_v1.0.csv和ava_test_v1.0.csv
每行包含一个动作执行者的标注信息

数据格式

每行包含：video_id, middle_frame_timestamp, person_box, action_id
- video_id: YouTube标识符
- middle_frame_timestamp: 从视频开始计算的时间（秒）
- person_box: 人物框的坐标，归一化处理
- action_id: 动作类别标识符

下载方式

通过百度云链接或微信点对点分享
部分视频需通过特定操作下载

版权信息

数据集遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可

搜集汇总

数据集介绍

构建方式

AVA数据集通过从YouTube公开视频中选取57.6k个电影片段，对这些片段中的80种原子视觉动作进行了密集标注。每个动作在空间和时间上进行了精确定位，共产生了210k个动作标签。数据集中的视频被分为154个训练视频和38个测试视频，每个视频的15分钟内容以3秒为间隔进行标注，生成了300个标注片段。标注信息通过两个CSV文件（ava_train_v1.0.csv和ava_test_v1.0.csv）提供，每行记录一个人在某个时间间隔内执行的动作，并与中间帧相关联。

特点

AVA数据集的特点在于其定义的原子视觉动作，避免了为每个复杂动作收集数据的繁琐过程。数据集提供了精确的时空标注，每个人类个体可能对应多个动作标签。此外，数据集使用了多样化的现实视频素材（电影），确保了数据的丰富性和实用性。数据集还包含了所有视频的YouTube ID，方便用户下载和使用。部分视频因版权问题可能无法从特定地区访问，但谷歌提供了高速缓存供学术用途下载。

使用方法

使用AVA数据集时，用户可以通过提供的YouTube ID下载视频，并使用youtube-dl工具进行下载。数据集中的标注信息以CSV文件形式提供，每行包含视频ID、中间帧时间戳、人物框坐标和动作ID。用户可以根据这些信息进行视频分析和动作识别。对于因版权问题无法访问的视频，用户可以通过注册学术用途账号，获取高速缓存下载权限。数据集的使用遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可协议，确保合法合规的使用。

背景与挑战

背景概述

AVA数据集由Google Inc.于2017年发布，旨在为视频分析领域提供高质量的时空动作标注数据。该数据集涵盖了57.6k个电影片段，标注了80种原子视觉动作，生成了210k个动作标签。与现有视频数据集相比，AVA的独特之处在于其定义了原子视觉动作，避免了为每个复杂动作收集数据，同时提供了精确的时空标注，并使用了多样化的现实视频素材（电影）。该数据集的研究背景主要围绕视频动作识别与时空定位，推动了计算机视觉领域在复杂场景下的动作理解与识别技术的发展。

当前挑战

AVA数据集在解决视频动作识别问题时面临多重挑战。首先，视频中的动作通常具有多样性和复杂性，如何在多人物、多动作的复杂场景中精确标注每个动作是一个难题。其次，数据集的构建过程中，由于视频素材来自YouTube，部分视频因版权或地域限制无法访问，这增加了数据获取的难度。此外，时空标注的精确性要求高，标注过程中需要确保每个动作在时间和空间上的准确定位，这对标注人员的专业性和耐心提出了较高要求。这些挑战共同构成了AVA数据集在推动视频动作识别研究中的关键障碍。

常用场景

经典使用场景

AVA数据集在计算机视觉领域中被广泛用于视频动作识别和时空动作定位的研究。其独特的时空标注方式使得研究者能够精确分析视频中人物的动作，尤其是在电影片段中，这种标注方式为复杂动作的识别提供了丰富的数据支持。通过使用AVA数据集，研究者可以训练和测试模型，以识别和定位视频中的80种原子动作，如走路、踢、握手等。

衍生相关工作

AVA数据集催生了许多经典的研究工作，特别是在视频动作识别和时空动作定位领域。例如，基于AVA数据集的研究提出了多种深度学习模型，如时空卷积神经网络（ST-CNN）和时空图卷积网络（ST-GCN），这些模型在动作识别任务中取得了显著的效果。此外，AVA数据集还被用于评估和比较不同算法的性能，推动了视频分析技术的发展。

数据集最近研究