AVA Actions Dataset|动作识别数据集|计算机视觉数据集

github2024-05-10 更新2024-05-31 收录

动作识别

计算机视觉

下载链接：

https://github.com/cvdfoundation/ava-dataset

下载链接

链接失效反馈

资源简介：

AVA数据集密集标注了430个电影片段中的80种原子视觉动作，动作在空间和时间上被局部化，产生了1.62M的动作标签，其中频繁出现每个人的多个标签。片段来自电影的15分钟连续段落，为活动的时间推理打开了大门。数据集被分为235个视频用于训练，64个视频用于验证，131个视频用于测试。

创建时间：

2018-02-17

原始信息汇总

AVA Actions Dataset

Description: The AVA dataset annotates 80 atomic visual actions in 430 movie clips, resulting in 1.62M action labels.
Data Splits: 235 videos for training, 64 videos for validation, and 131 videos for test.
Video Download URLs:
- Train/Validation: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
- Test: https://s3.amazonaws.com/ava-dataset/test/[file_name]
File Name Lists:
- Training/Validation: ava_file_names_trainval_v2.1.txt
- Test: ava_file_names_test_v2.1.txt
Annotation Download: ava_v2.2.zip

AVA ActiveSpeaker Dataset

Description: The dataset labels speaking activity with visible faces on AVA v1.0 videos, totaling 3.65 million frames.
Video Download URL: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
File Name List: ava_speech_file_names_v1.txt
Annotation Downloads:
- Training: ava_activespeaker_train_v1.0.tar.bz2
- Validation: ava_activespeaker_val_v1.0.tar.bz2

AVA Speech Dataset

Description: The AVA-Speech dataset annotates speech activity with 3 background noise conditions, totaling ~40K labeled segments.
Video Download URL: https://s3.amazonaws.com/ava-dataset/trainval/[file_name]
File Name List: ava_speech_file_names_v1.txt
Annotation Download: ava_speech_labels_v1.csv

AI搜集汇总

数据集介绍

构建方式

AVA Actions Dataset通过密集标注430部电影片段中的80种原子视觉动作，构建了一个时空本地化的动作数据集。该数据集从电影的15分钟连续片段中提取，确保了时间推理的可能性。数据集包含162万个动作标签，且每个视频中常出现多个标签。数据集被划分为235个训练视频、64个验证视频和131个测试视频，以支持不同阶段的模型训练与评估。

使用方法

用户可通过提供的URL下载训练、验证和测试视频，并获取相应的标注文件。标注文件包含了每个视频片段中的动作标签及其时空位置信息。用户可以根据这些标注进行模型训练、验证和测试，以实现动作识别、行为分析等任务。数据集的下载和使用方法详见其官方项目页面。

背景与挑战

背景概述

AVA Actions Dataset是由Google Research团队创建的一个大规模视觉动作数据集，旨在推动视频动作识别和时空定位的研究。该数据集密集标注了430部电影片段中的80种原子视觉动作，生成了162万个动作标签，且每个片段中多个动作标签频繁出现。数据集的构建基于15分钟的电影连续片段，旨在为时间推理活动提供可能性。AVA Actions Dataset的发布为视频分析领域提供了丰富的资源，特别是在动作识别和时空定位方面，极大地推动了相关研究的发展。

当前挑战

AVA Actions Dataset在构建过程中面临了多重挑战。首先，密集标注80种视觉动作并进行时空定位，需要大量的人力和时间投入，确保标注的准确性和一致性。其次，数据集中的动作标签频繁出现，增加了模型训练的复杂性，要求算法能够有效处理多标签分类问题。此外，电影片段的多样性和复杂性，以及背景噪声和光照变化等因素，都对模型的鲁棒性提出了更高的要求。这些挑战不仅推动了数据集的构建，也为后续的研究提供了丰富的探索空间。

常用场景

经典使用场景

AVA Actions Dataset 的经典使用场景主要集中在视频动作识别与时空定位任务中。该数据集通过密集标注80种原子视觉动作，提供了丰富的动作标签和时空信息，使得研究者能够在电影片段中精确识别和定位人类行为。这种密集的时空标注为动作识别模型提供了高质量的训练数据，特别适用于需要复杂时空推理的任务，如视频监控、体育分析和电影内容理解等领域。

解决学术问题

AVA Actions Dataset 解决了视频动作识别领域中的多个关键学术问题，特别是时空动作定位的挑战。通过提供密集的动作标注和时空信息，该数据集为研究者提供了一个标准化的基准，用于评估和改进动作识别算法的性能。此外，数据集的多样性和大规模标注为探索多标签动作识别、动作共现分析等复杂问题提供了有力支持，推动了视频理解领域的研究进展。

实际应用

AVA Actions Dataset 在实际应用中具有广泛的应用前景。例如，在智能监控系统中，该数据集可用于训练模型以识别和定位异常行为，从而提高公共安全。在体育分析领域，数据集的时空动作标注可用于自动分析运动员的技术动作，辅助教练进行训练优化。此外，在电影和视频内容分析中，AVA Actions Dataset 可用于自动生成视频摘要、内容推荐等应用，提升用户体验。

数据集最近研究

最新研究方向

在视频理解领域，AVA Actions Dataset因其对时空动作的密集标注而备受瞩目。最新的研究方向主要集中在利用深度学习模型进行复杂动作识别和时序推理。研究者们致力于开发能够处理多标签任务的模型，以应对视频中频繁出现的多个动作标签。此外，随着多模态学习的兴起，结合音频和视觉信息的跨模态分析也成为研究热点，旨在提升动作识别的准确性和鲁棒性。这些研究不仅推动了视频理解技术的发展，也为电影分析、智能监控等领域提供了强有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息，涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Interaction Dataset

Interaction Dataset是一个用于处理和可视化交通场景的数据集，支持轨迹预测挑战，包括三个不同的预测模型训练和测试轨道。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录