AVA Dataset

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/SmartPorridge/google-AVA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AVA数据集密集注释了80种原子视觉动作在57.6k电影片段中，时间空间上定位动作，产生了210k动作标签，每个视频片段中经常有多个人被标记。与现有视频数据集的主要区别在于：1. 原子视觉动作的定义，避免了为每个复杂动作收集数据；2. 精确的时空注释，可能对每个人进行多次注释；3. 使用多样化的、真实的视频材料（电影）。

The AVA dataset densely annotates 80 atomic visual actions across 57.6k movie clips, with actions localized both temporally and spatially, resulting in 210k action labels. It is common for multiple individuals to be tagged within each video clip. The primary distinctions from existing video datasets are: 1. The definition of atomic visual actions, which circumvents the need to collect data for each complex action; 2. Precise spatiotemporal annotations, potentially annotating each individual multiple times; 3. The use of diverse, real-world video materials (movies).

创建时间：

2017-10-23

原始信息汇总

数据集概述

数据集名称： Google AVA Dataset

数据集内容：

训练和测试annotations
所有视频的Youtube ID
action_id
部分因版权原因无法下载的视频的下载方法

数据集特点：

定义了80个原子视觉动作，避免收集每个复杂动作的数据。
提供精确的时空标注，可能对每个人进行多次标注。
使用多样化的现实视频材料（电影）。

数据集结构：

视频数量： 192个视频，分为154个训练视频和38个测试视频。
标注方式： 每视频15分钟，以3秒间隔标注，共300个标注段。
标注文件： 两个CSV文件，ava_train_v1.0.csv 和 ava_test_v1.0.csv。
标注格式： 每行包含一个动作执行者的标注，包括视频ID、中间帧时间戳、人物框和动作ID。

数据集下载：

下载链接： 通过百度云链接或微信点对点分享获取。
特殊视频下载： 部分视频因版权问题在某些地区无法访问，需通过特定流程下载。

数据集使用许可： Creative Commons Attribution 4.0 International (CC BY 4.0)

搜集汇总

数据集介绍

构建方式

AVA数据集通过从YouTube公开视频中提取57.6k个电影片段，对这些片段中的80种原子视觉动作进行了密集标注。每个动作在时间和空间上都有精确的定位，共产生了210k个动作标签。数据集中的视频被分为154个训练视频和38个测试视频，每个视频的15分钟内容以3秒为间隔进行标注，形成了300个标注片段。这些标注信息通过两个CSV文件进行存储，分别对应训练和测试数据。

特点

AVA数据集的特点在于其定义了原子视觉动作，避免了为每个复杂动作收集数据的繁琐过程。数据集提供了精确的时空标注，每个人类个体可能对应多个动作标签。此外，数据集采用了多样化的现实视频材料（电影），确保了数据的丰富性和实用性。每个标注行包含视频ID、中间帧时间戳、人物框坐标和动作ID，格式清晰且易于解析。

使用方法

使用AVA数据集时，首先需要下载包含训练和测试标注的CSV文件，以及所有视频的YouTube ID。通过YouTube-dl工具，可以根据提供的视频ID下载相应的视频文件。部分视频可能因版权问题无法直接下载，但可以通过注册学术用途获取高速缓存下载权限。数据集的使用需遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可协议，确保在非商业用途下进行研究和开发。

背景与挑战

背景概述

AVA数据集由Google Inc.于2017年发布，旨在为视频分析领域提供丰富的动作标注数据。该数据集通过对57.6k个电影片段进行密集标注，涵盖了80种原子视觉动作，生成了210k个动作标签。与现有视频数据集相比，AVA的独特之处在于其定义了原子视觉动作，避免了为每个复杂动作收集数据的繁琐过程，并提供了精确的时空标注，每个人类个体可能对应多个标注。AVA数据集的研究背景源于对视频中人类行为理解的深入需求，其影响力在于推动了视频动作识别、行为分析等领域的发展，为相关研究提供了高质量的基准数据。

当前挑战

AVA数据集在解决视频动作识别问题时面临多重挑战。首先，视频中的动作通常具有多样性和复杂性，如何准确标注原子动作并避免混淆是一个关键问题。其次，由于视频素材来源于电影，场景和光照条件的变化较大，增加了动作识别的难度。在数据集构建过程中，研究人员需要处理大量视频数据，并确保标注的准确性和一致性，这对标注团队提出了极高的要求。此外，部分视频因版权限制无法直接下载，研究者需要通过特定渠道获取数据，这在一定程度上增加了数据获取的复杂性。这些挑战共同构成了AVA数据集在应用和研究中的主要难点。

常用场景

经典使用场景

AVA数据集在计算机视觉领域中被广泛用于视频动作识别和时空动作定位的研究。其独特的原子视觉动作定义和精确的时空标注，使得研究者能够深入分析复杂视频中的人类行为。通过该数据集，研究人员可以训练和测试模型，以识别和定位视频中的多种动作，从而推动动作识别技术的发展。

实际应用

在实际应用中，AVA数据集被广泛用于智能监控、人机交互和视频内容分析等领域。例如，在智能监控系统中，基于AVA数据集训练的模型可以实时识别和定位视频中的异常行为，从而提高安全性和响应速度。此外，该数据集还为人机交互系统提供了丰富的动作数据，使得机器能够更准确地理解和响应人类的动作指令。

衍生相关工作

AVA数据集自发布以来，已衍生出多项经典研究工作。例如，基于该数据集的动作识别模型在多个国际竞赛中取得了优异成绩，推动了动作识别算法的进步。此外，许多研究者利用AVA数据集开发了新的时空动作定位方法，进一步提升了视频分析的精度和效率。这些研究成果不仅丰富了计算机视觉领域的理论体系，也为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集