AVA Actions Dataset

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/cvdfoundation/ava-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AVA数据集密集标注了430个电影片段中的80种原子视觉动作，动作在空间和时间上被局部化，产生了1.62M的动作标签，其中频繁出现每个人的多个标签。片段来自电影的15分钟连续段落，为活动的时间推理打开了大门。数据集被分为235个视频用于训练，64个视频用于验证，131个视频用于测试。

The AVA Dataset contains dense annotations of 80 atomic visual actions across 430 movie clips. Each action is localized both spatially and temporally, resulting in 1.62 million action labels, where multiple labels per individual frequently appear. Each clip is derived from a 15-minute continuous segment of a movie, which paves the way for temporal reasoning of activities. The dataset is split into 235 videos for training, 64 videos for validation, and 131 videos for testing.

创建时间：

2018-02-17

原始信息汇总

AVA Actions Dataset

Description: The AVA dataset annotates 80 atomic visual actions in 430 movie clips, resulting in 1.62M action labels.
Data Splits: 235 videos for training, 64 videos for validation, and 131 videos for test.
Video Download URLs:
- Train/Validation: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
- Test: https://s3.amazonaws.com/ava-dataset/test/[file_name]
File Name Lists:
- Training/Validation: ava_file_names_trainval_v2.1.txt
- Test: ava_file_names_test_v2.1.txt
Annotation Download: ava_v2.2.zip

AVA ActiveSpeaker Dataset

Description: The dataset labels speaking activity with visible faces on AVA v1.0 videos, totaling 3.65 million frames.
Video Download URL: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
File Name List: ava_speech_file_names_v1.txt
Annotation Downloads:
- Training: ava_activespeaker_train_v1.0.tar.bz2
- Validation: ava_activespeaker_val_v1.0.tar.bz2

AVA Speech Dataset

Description: The AVA-Speech dataset annotates speech activity with 3 background noise conditions, totaling ~40K labeled segments.
Video Download URL: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
File Name List: ava_speech_file_names_v1.txt
Annotation Download: ava_speech_labels_v1.csv

搜集汇总

数据集介绍

构建方式

AVA Actions Dataset通过密集标注430部电影片段中的80种原子视觉动作，构建了一个时空本地化的动作数据集。该数据集从电影的15分钟连续片段中提取，确保了时间推理的可能性。数据集包含162万个动作标签，且每个视频中常出现多个标签。数据集被划分为235个训练视频、64个验证视频和131个测试视频，以支持不同阶段的模型训练与评估。

使用方法

用户可通过提供的URL下载训练、验证和测试视频，并获取相应的标注文件。标注文件包含了每个视频片段中的动作标签及其时空位置信息。用户可以根据这些标注进行模型训练、验证和测试，以实现动作识别、行为分析等任务。数据集的下载和使用方法详见其官方项目页面。

背景与挑战

背景概述

AVA Actions Dataset是由Google Research团队创建的一个大规模视觉动作数据集，旨在推动视频动作识别和时空定位的研究。该数据集密集标注了430部电影片段中的80种原子视觉动作，生成了162万个动作标签，且每个片段中多个动作标签频繁出现。数据集的构建基于15分钟的电影连续片段，旨在为时间推理活动提供可能性。AVA Actions Dataset的发布为视频分析领域提供了丰富的资源，特别是在动作识别和时空定位方面，极大地推动了相关研究的发展。

当前挑战

AVA Actions Dataset在构建过程中面临了多重挑战。首先，密集标注80种视觉动作并进行时空定位，需要大量的人力和时间投入，确保标注的准确性和一致性。其次，数据集中的动作标签频繁出现，增加了模型训练的复杂性，要求算法能够有效处理多标签分类问题。此外，电影片段的多样性和复杂性，以及背景噪声和光照变化等因素，都对模型的鲁棒性提出了更高的要求。这些挑战不仅推动了数据集的构建，也为后续的研究提供了丰富的探索空间。

常用场景

经典使用场景

AVA Actions Dataset 的经典使用场景主要集中在视频动作识别与时空定位任务中。该数据集通过密集标注80种原子视觉动作，提供了丰富的动作标签和时空信息，使得研究者能够在电影片段中精确识别和定位人类行为。这种密集的时空标注为动作识别模型提供了高质量的训练数据，特别适用于需要复杂时空推理的任务，如视频监控、体育分析和电影内容理解等领域。

解决学术问题

AVA Actions Dataset 解决了视频动作识别领域中的多个关键学术问题，特别是时空动作定位的挑战。通过提供密集的动作标注和时空信息，该数据集为研究者提供了一个标准化的基准，用于评估和改进动作识别算法的性能。此外，数据集的多样性和大规模标注为探索多标签动作识别、动作共现分析等复杂问题提供了有力支持，推动了视频理解领域的研究进展。

实际应用

AVA Actions Dataset 在实际应用中具有广泛的应用前景。例如，在智能监控系统中，该数据集可用于训练模型以识别和定位异常行为，从而提高公共安全。在体育分析领域，数据集的时空动作标注可用于自动分析运动员的技术动作，辅助教练进行训练优化。此外，在电影和视频内容分析中，AVA Actions Dataset 可用于自动生成视频摘要、内容推荐等应用，提升用户体验。

数据集最近研究