AVA-Dataset

github2023-02-04 更新2024-05-31 收录

下载链接：

https://github.com/sibofeng/AVA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AVA数据集包含192个视频，分为154个训练视频和38个测试视频。每个视频有15分钟的时间被3秒间隔标注，产生300个标注段。这些标注由两个CSV文件指定：ava_train_v1.0.csv和ava_test_v1.0.csv。每个记录包含一个人在一个间隔内执行动作的标注，该标注与中间帧相关联。不同的人和多个动作标签在单独的行中描述。

The AVA dataset comprises 192 videos, divided into 154 training videos and 38 testing videos. Each video is annotated at 3-second intervals over a 15-minute duration, resulting in 300 annotated segments. These annotations are specified in two CSV files: ava_train_v1.0.csv and ava_test_v1.0.csv. Each record includes an annotation of a person performing an action within an interval, which is associated with the middle frame. Different individuals and multiple action labels are described in separate rows.

创建时间：

2017-11-03

原始信息汇总

AVA-Dataset概述

数据集组成

视频数量: 192个视频，分为154个训练视频和38个测试视频。
标注时长: 每个视频有15分钟被标注，以3秒间隔进行，共300个标注段。

文件描述

标注文件: 包含两个CSV文件：
- ./ava_train_v1.0.csv
- ./ava_test_v1.0.csv 这些文件包含以下关键字段：
- video_id: YouTube视频标识符。
- middle_frame_timestamp: 视频开始后的中间帧时间戳（秒）。
- person_box(x1, y1, x2, y2): 人物框的坐标，左上角和右下角，坐标值归一化至帧大小。
- action_id: 动作类别的标识符。
- status: 视频可用状态。
动作列表文件: ./ava_action_list_v1.0.pbtxt，定义了动作类别及其标识。

不可用视频列表

训练集: 包含多个视频ID，如2XeFK-DTSZk等。
测试集: 包含视频ID，如XIx-C22Ewk4等。

标签变更

训练集: 部分视频ID因问题被更改，如-FaXLcSFjUI更改为issue-FaXLcSFjUI。

搜集汇总

数据集介绍

构建方式

AVA数据集构建于192个视频片段之上，这些视频被划分为154个训练视频和38个测试视频。每个视频的15分钟内容被以3秒为间隔进行标注，共生成300个标注片段。标注信息通过两个CSV文件（ava_train_v1.0.csv和ava_test_v1.0.csv）进行存储，每个标注行对应一个时间间隔内某个人物的动作，且标注信息与中间帧相关联。

使用方法

使用AVA数据集时，用户可通过提供的CSV文件获取视频的标注信息。每个CSV文件包含视频ID、时间戳、人物边界框坐标、动作类别ID以及视频可用状态等关键信息。用户可根据这些信息提取特定时间点的动作数据，并结合视频文件进行动作识别模型的训练与测试。此外，数据集还提供了动作类别列表文件（ava_action_list_v1.0.pbtxt），便于用户快速查阅动作类别及其对应的ID。

背景与挑战

背景概述

AVA数据集由Google Research于2017年推出，旨在为视频中的人类行为识别提供高质量的标注数据。该数据集包含192个视频，分为154个训练视频和38个测试视频，每个视频的15分钟内容以3秒为间隔进行标注，共生成300个标注片段。每个标注片段对应视频中的中间帧，标注内容包括人物边界框和行为类别。AVA数据集的核心研究问题是多标签行为识别，尤其是在复杂场景中同时识别多个行为的能力。该数据集在视频行为识别领域具有重要影响力，推动了基于深度学习的视频分析技术的发展。

当前挑战

AVA数据集在解决视频行为识别问题时面临诸多挑战。首先，视频中的行为通常具有多样性和复杂性，尤其是在多人交互的场景中，行为类别之间的界限模糊，导致标注难度增加。其次，视频数据的时空特性使得行为识别模型需要同时处理空间和时间信息，这对模型的架构设计和计算效率提出了更高要求。在数据集构建过程中，研究人员还面临视频来源的多样性和标注一致性的挑战。部分视频由于版权或可用性问题无法获取，且标注过程中可能存在误差，这些因素都对数据集的完整性和准确性提出了挑战。

常用场景

经典使用场景

AVA数据集在视频动作识别领域具有广泛的应用，特别是在复杂场景下的多人动作识别任务中。该数据集通过提供精确的时间标注和空间标注，使得研究者能够对视频中的每一个动作进行细致的分析。其经典使用场景包括训练和评估深度学习模型，尤其是在时空动作检测和分类任务中，模型能够通过学习视频中的动作序列，提升对复杂动作的理解和识别能力。

解决学术问题

AVA数据集解决了视频动作识别中的多个关键学术问题，尤其是在多人动作识别和复杂场景下的动作分类方面。通过提供详细的时空标注，研究者能够更好地理解动作的上下文关系，从而提升模型的泛化能力。此外，该数据集还支持多标签动作识别，使得模型能够同时识别多个动作，解决了传统单标签识别方法的局限性。

实际应用

在实际应用中，AVA数据集被广泛应用于智能监控、视频内容分析和人机交互等领域。例如，在智能监控系统中，该数据集可以帮助识别异常行为或特定动作，从而提升系统的安全性和响应速度。在视频内容分析中，AVA数据集能够用于自动生成视频摘要或标签，提升视频检索和推荐的准确性。

数据集最近研究