AVA-Dataset|视频分析数据集|动作识别数据集

github2023-02-04 更新2024-05-31 收录

视频分析

动作识别

下载链接：

https://github.com/sibofeng/AVA-Dataset

下载链接

链接失效反馈

资源简介：

AVA数据集包含192个视频，分为154个训练视频和38个测试视频。每个视频有15分钟的时间被3秒间隔标注，产生300个标注段。这些标注由两个CSV文件指定：ava_train_v1.0.csv和ava_test_v1.0.csv。每个记录包含一个人在一个间隔内执行动作的标注，该标注与中间帧相关联。不同的人和多个动作标签在单独的行中描述。

The AVA dataset comprises 192 videos, divided into 154 training videos and 38 testing videos. Each video is annotated at 3-second intervals over a 15-minute duration, resulting in 300 annotated segments. These annotations are specified in two CSV files: ava_train_v1.0.csv and ava_test_v1.0.csv. Each record includes an annotation of a person performing an action within an interval, which is associated with the middle frame. Different individuals and multiple action labels are described in separate rows.

创建时间：

2017-11-03

原始信息汇总

AVA-Dataset概述

数据集组成

视频数量: 192个视频，分为154个训练视频和38个测试视频。
标注时长: 每个视频有15分钟被标注，以3秒间隔进行，共300个标注段。

文件描述

标注文件: 包含两个CSV文件：
- ./ava_train_v1.0.csv
- ./ava_test_v1.0.csv 这些文件包含以下关键字段：
- video_id: YouTube视频标识符。
- middle_frame_timestamp: 视频开始后的中间帧时间戳（秒）。
- person_box(x1, y1, x2, y2): 人物框的坐标，左上角和右下角，坐标值归一化至帧大小。
- action_id: 动作类别的标识符。
- status: 视频可用状态。
动作列表文件: ./ava_action_list_v1.0.pbtxt，定义了动作类别及其标识。

不可用视频列表

训练集: 包含多个视频ID，如2XeFK-DTSZk等。
测试集: 包含视频ID，如XIx-C22Ewk4等。

标签变更

训练集: 部分视频ID因问题被更改，如-FaXLcSFjUI更改为issue-FaXLcSFjUI。

AI搜集汇总

数据集介绍

构建方式

AVA数据集构建于192个视频片段之上，这些视频被划分为154个训练视频和38个测试视频。每个视频的15分钟内容被以3秒为间隔进行标注，共生成300个标注片段。标注信息通过两个CSV文件（ava_train_v1.0.csv和ava_test_v1.0.csv）进行存储，每个标注行对应一个时间间隔内某个人物的动作，且标注信息与中间帧相关联。

使用方法

使用AVA数据集时，用户可通过提供的CSV文件获取视频的标注信息。每个CSV文件包含视频ID、时间戳、人物边界框坐标、动作类别ID以及视频可用状态等关键信息。用户可根据这些信息提取特定时间点的动作数据，并结合视频文件进行动作识别模型的训练与测试。此外，数据集还提供了动作类别列表文件（ava_action_list_v1.0.pbtxt），便于用户快速查阅动作类别及其对应的ID。

背景与挑战

背景概述

AVA数据集由Google Research于2017年推出，旨在为视频中的人类行为识别提供高质量的标注数据。该数据集包含192个视频，分为154个训练视频和38个测试视频，每个视频的15分钟内容以3秒为间隔进行标注，共生成300个标注片段。每个标注片段对应视频中的中间帧，标注内容包括人物边界框和行为类别。AVA数据集的核心研究问题是多标签行为识别，尤其是在复杂场景中同时识别多个行为的能力。该数据集在视频行为识别领域具有重要影响力，推动了基于深度学习的视频分析技术的发展。

当前挑战

AVA数据集在解决视频行为识别问题时面临诸多挑战。首先，视频中的行为通常具有多样性和复杂性，尤其是在多人交互的场景中，行为类别之间的界限模糊，导致标注难度增加。其次，视频数据的时空特性使得行为识别模型需要同时处理空间和时间信息，这对模型的架构设计和计算效率提出了更高要求。在数据集构建过程中，研究人员还面临视频来源的多样性和标注一致性的挑战。部分视频由于版权或可用性问题无法获取，且标注过程中可能存在误差，这些因素都对数据集的完整性和准确性提出了挑战。

常用场景

经典使用场景

AVA数据集在视频动作识别领域具有广泛的应用，特别是在复杂场景下的多人动作识别任务中。该数据集通过提供精确的时间标注和空间标注，使得研究者能够对视频中的每一个动作进行细致的分析。其经典使用场景包括训练和评估深度学习模型，尤其是在时空动作检测和分类任务中，模型能够通过学习视频中的动作序列，提升对复杂动作的理解和识别能力。

解决学术问题

AVA数据集解决了视频动作识别中的多个关键学术问题，尤其是在多人动作识别和复杂场景下的动作分类方面。通过提供详细的时空标注，研究者能够更好地理解动作的上下文关系，从而提升模型的泛化能力。此外，该数据集还支持多标签动作识别，使得模型能够同时识别多个动作，解决了传统单标签识别方法的局限性。

实际应用

在实际应用中，AVA数据集被广泛应用于智能监控、视频内容分析和人机交互等领域。例如，在智能监控系统中，该数据集可以帮助识别异常行为或特定动作，从而提升系统的安全性和响应速度。在视频内容分析中，AVA数据集能够用于自动生成视频摘要或标签，提升视频检索和推荐的准确性。

数据集最近研究

最新研究方向

AVA数据集作为视频行为识别领域的重要资源，近年来在深度学习与计算机视觉研究中备受关注。其独特的标注方式，以3秒为间隔对视频中的人物行为进行精细标注，为复杂场景下的多人物行为识别提供了丰富的数据支持。当前研究热点主要集中在基于时空特征的行为识别模型优化，尤其是结合图神经网络（GNN）和自注意力机制（Self-Attention）的算法设计，以提升对多人交互行为的捕捉能力。此外，随着多模态学习的兴起，AVA数据集也被广泛应用于视频与文本、音频等多模态数据的联合分析，推动了跨模态行为理解技术的发展。这些研究不仅提升了行为识别的精度，也为智能监控、人机交互等实际应用场景提供了技术支撑。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录