AVA Actions Dataset, AVA ActiveSpeaker Dataset, AVA Speech Dataset

github2023-02-23 更新2024-05-31 收录

下载链接：

https://github.com/github-zbx/ava_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

AVA Actions Dataset密集标注了430部电影片段中的80种原子视觉动作，空间和时间上都有动作定位，产生了1.62M的动作标签，每个视频中频繁出现多个人物标签。数据集分为235个训练视频、64个验证视频和131个测试视频。AVA ActiveSpeaker数据集关联了可见面部的说话活动，在AVA v1.0视频上标记了3.65百万帧，覆盖了约39K的面轨迹。AVA-Speech数据集密集标注了AVA v1.0数据集中电影片段的语音活动，明确标记了3种背景噪声条件，产生了约40K的标记段，涵盖40小时的数据。

AVA 动作数据集对430部电影的片段进行了密集标注，涵盖80种原子视觉动作，同时提供了空间和时间上的动作定位，并产生了共计1.62百万个动作标签。数据集中，每个视频均频繁出现多个人物标签。数据集被划分为235个训练视频、64个验证视频以及131个测试视频。AVA 活跃演讲者数据集与可见面部说话活动相关联，对AVA v1.0视频进行了标记，总计3.65百万帧，覆盖了大约39,000个面轨迹。AVA-语音数据集对AVA v1.0数据集中的电影片段语音活动进行了密集标注，明确标记了三种背景噪声条件，并产生了约40,000个标记段，涵盖了40小时的数据。

创建时间：

2020-05-07

原始信息汇总

AVA Actions Dataset

Description: Densely annotates 80 atomic visual actions in 430 movie clips, resulting in 1.62M action labels with multiple labels per human.
Video Splits: 235 videos for training, 64 videos for validation, and 131 videos for test.
Video Download URLs:
- Train/Validation: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
- Test: https://s3.amazonaws.com/ava-dataset/test/[file_name]
File Names:
- Train/Validation: Download Link
- Test: Download Link
Annotations: Download Link

AVA ActiveSpeaker Dataset

Description: Associates speaking activity with visible faces, resulting in 3.65 million frames labeled across ~39K face tracks.
Video Download URLs: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
File Names: Download Link
Annotations:
- Train: Download Link
- Validation: Download Link

AVA Speech Dataset

Description: Densely annotates speech activity, labeling 3 background noise conditions, resulting in ~40K labeled segments spanning 40 hours of data.
Video Download URLs: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
File Names: Download Link
Annotations: Download Link

搜集汇总

数据集介绍

构建方式

AVA Actions Dataset的构建基于对430部电影片段中80种原子视觉动作的密集标注，这些动作在空间和时间上被精确定位，生成了162万个动作标签。数据集从电影的15分钟连续片段中提取，旨在支持对活动的时间推理。AVA ActiveSpeaker Dataset则在AVA v1.0视频的基础上，将说话活动与可见的面部关联，标注了约39K个面部轨迹的365万帧。AVA Speech Dataset进一步在AVA v1.0数据集的基础上，对电影片段中的语音活动进行密集标注，特别标注了三种背景噪音条件下的语音活动。

使用方法

使用AVA数据集时，用户需从CVDF提供的URL下载视频文件和相应的标注文件。视频文件按训练、验证和测试集划分，标注文件包含动作、说话者和语音活动的详细标注。用户可通过访问项目页面获取更多数据集细节，并利用提供的标注数据进行模型训练和评估。

背景与挑战

背景概述

AVA数据集系列由Google Research于2017年推出，旨在推动视频理解领域的研究。该系列包括AVA Actions、AVA ActiveSpeaker和AVA Speech三个子数据集，分别专注于原子视觉动作识别、说话者检测以及语音活动分析。AVA Actions数据集通过对430个电影片段中的80种原子动作进行密集标注，提供了1.62百万个动作标签，支持时空推理研究。AVA ActiveSpeaker和AVA Speech则分别针对视频中的说话者检测和语音活动分类任务，提供了数百万帧的标注数据。这些数据集为视频分析、多模态学习以及人机交互等领域提供了重要的研究基础。

当前挑战

AVA数据集在解决视频理解领域的复杂问题时面临多重挑战。首先，原子动作识别任务需要模型在复杂的背景和多变的场景中准确捕捉细微的动作变化，这对模型的时空建模能力提出了极高要求。其次，说话者检测任务不仅需要识别说话者的面部特征，还需结合语音信号进行多模态融合，这对数据标注的精度和模型的跨模态学习能力提出了挑战。此外，语音活动分类任务需区分不同背景噪声条件下的语音信号，这对模型的鲁棒性和泛化能力提出了更高要求。在数据集构建过程中，如何确保标注的一致性和覆盖多样性，以及如何处理大规模视频数据的存储与分发，也是亟待解决的技术难题。

常用场景

经典使用场景

AVA Actions Dataset 在计算机视觉领域中被广泛用于动作识别和时空动作定位的研究。通过对电影片段中的80种原子动作进行密集标注，该数据集为研究者提供了丰富的时空信息，使得模型能够在复杂的场景中识别和定位多个同时发生的动作。这种密集标注的方式特别适合用于训练和评估多标签动作识别模型，推动了动作识别技术的发展。

解决学术问题

AVA Actions Dataset 解决了动作识别领域中多标签动作分类和时空动作定位的难题。传统的动作识别数据集通常只标注单一动作，而AVA通过密集标注多个动作，使得模型能够处理复杂的多标签场景。此外，该数据集还提供了连续的电影片段，支持时间推理研究，为动作识别和时间序列分析提供了重要的数据支持。

实际应用

AVA Actions Dataset 在实际应用中具有广泛的价值，尤其是在视频监控、智能家居和自动驾驶等领域。通过训练基于该数据集的模型，系统能够实时识别和定位视频中的多个动作，提升监控系统的智能化水平。此外，该数据集还可用于电影和视频内容分析，帮助自动生成视频摘要或进行内容推荐。

数据集最近研究