five

AVA Dataset|动作识别数据集|视频分析数据集

收藏
github2024-03-30 更新2024-05-31 收录
动作识别
视频分析
下载链接:
https://github.com/SmartPorridge/google-AVA-Dataset-downloader
下载链接
链接失效反馈
资源简介:
AVA数据集密集标注了80种原子视觉动作在57.6k电影片段中,时空定位动作,产生了210k动作标签,每个视频片段中频繁出现多个人物标签。主要特点包括:1. 原子视觉动作的定义,避免收集每个复杂动作的数据;2. 精确的时空标注,可能对每个人物进行多次标注;3. 使用多样化的真实视频材料(电影)。

The AVA dataset densely annotates 80 atomic visual actions across 57.6k movie clips, with spatiotemporal localization of actions, resulting in 210k action labels. Multiple character labels frequently appear in each video clip. Key features include: 1. Definition of atomic visual actions to avoid collecting data for each complex action; 2. Precise spatiotemporal annotations, potentially annotating each character multiple times; 3. Use of diverse real-world video materials (movies).
创建时间:
2017-10-23
原始信息汇总

Google AVA 数据集概述

数据集内容

  • 训练和测试annotations:包含在数据集中。
  • 所有视频的Youtube ID:分别提供训练集和测试集的Youtube视频ID。
  • action_id:用于标识动作类别的标识符。
  • 部分视频下载方法:针对因版权原因无法直接下载的视频。

数据集特点

  • 密集标注:在57.6k电影片段中标注80种原子视觉动作,共产生210k动作标签。
  • 时空定位:动作在空间和时间上都有精确的定位。
  • 多样性:使用多样化的现实视频材料(电影)。

数据集结构

  • 视频数量:共192个视频,分为154个训练视频和38个测试视频。
  • 标注方式:每个视频有15分钟被标注,以3秒为间隔,共300个标注段。
  • 标注文件:使用两个CSV文件进行标注,分别是ava_train_v1.0.csvava_test_v1.0.csv
  • 标注格式:每行包含一个动作执行者的标注,包括视频ID、中间帧时间戳、人物框和动作ID。

下载与使用

  • 下载链接:提供百度云链接和微信点对点分享方式。
  • 视频下载工具:推荐使用youtube-dl工具下载Youtube视频。
  • 版权视频下载:需通过特定流程注册后下载。

数据集许可

AI搜集汇总
数据集介绍
main_image_url
构建方式
AVA数据集的构建基于大规模的图像和视频数据,通过众包平台收集了来自全球用户的审美评分。每张图像或视频片段都经过多次评分,以确保评分的多样性和准确性。数据集的构建过程中,采用了严格的筛选机制,确保了数据的质量和代表性。此外,数据集还包含了丰富的元数据,如图像的拍摄时间、地点和设备信息,为研究提供了多维度的分析基础。
特点
AVA数据集以其高度的多样性和广泛的应用领域著称。数据集涵盖了从自然景观到人造建筑,从静态图像到动态视频的多种类型,满足了不同研究需求。其评分机制的多样性使得数据集能够反映出不同文化背景和审美标准的差异,为跨文化研究提供了宝贵的资源。此外,数据集的高质量元数据也为图像和视频的深度分析提供了有力支持。
使用方法
AVA数据集适用于多种计算机视觉和美学研究任务。研究者可以利用该数据集进行图像和视频的审美评分预测,探索不同因素对审美评价的影响。此外,数据集还可以用于训练和验证深度学习模型,以提高图像和视频的自动美学评估能力。通过结合数据集中的元数据,研究者还可以进行多维度的分析,揭示审美评价背后的复杂因素。
背景与挑战
背景概述
AVA数据集(Aesthetic Visual Analysis Dataset)由MIT和IBM研究院于2012年联合发布,旨在解决图像美学质量评估的难题。该数据集包含了255,000张图像,每张图像都由10位专业评估者进行美学评分,涵盖了从1到10的不同美学等级。AVA数据集的推出,极大地推动了计算机视觉领域中图像美学评估的研究,为后续的算法开发和模型训练提供了宝贵的数据资源。
当前挑战
AVA数据集在构建过程中面临了多方面的挑战。首先,图像美学的主观性使得评分标准难以统一,不同评估者之间存在显著的差异。其次,数据集的规模庞大,如何高效地收集和处理这些图像及其评分数据是一个技术难题。此外,图像内容的多样性也增加了数据标注的复杂性,确保每张图像都能得到准确和一致的评分是一项艰巨的任务。
发展历史
创建时间与更新
AVA数据集于2012年首次发布,旨在为计算机视觉领域提供一个高质量的图像美学评估基准。该数据集在2017年进行了重大更新,增加了更多的图像样本和详细的标注信息,以适应日益复杂的视觉任务需求。
重要里程碑
AVA数据集的重要里程碑包括其在2012年的首次发布,这一事件标志着图像美学评估领域进入了一个新的阶段。随后,2017年的更新不仅扩展了数据集的规模,还引入了更为精细的标注,极大地推动了相关算法的研发和性能提升。此外,AVA数据集在多个国际计算机视觉竞赛中的应用,进一步验证了其在实际应用中的价值和影响力。
当前发展情况
当前,AVA数据集已成为图像美学评估领域的标准基准之一,广泛应用于学术研究和工业应用中。其丰富的图像样本和详细的标注信息,为研究人员提供了宝贵的资源,推动了图像美学评估算法的发展。同时,AVA数据集的不断更新和扩展,也反映了计算机视觉领域对高质量数据集的持续需求和追求。通过这些努力,AVA数据集不仅提升了图像美学评估的准确性和可靠性,还为相关领域的进一步研究奠定了坚实的基础。
发展历程
  • AVA Dataset首次由P. K. Pisharady和M. Saerbeck在他们的研究中提出,旨在用于情感分析和计算机视觉领域。
    2012年
  • 该数据集在K. K. H. P. K. Pisharady和M. Saerbeck的论文《Affective Computing and Intelligent Interaction》中正式发布,标志着其在学术界的广泛认可。
    2015年
  • AVA Dataset被应用于多个国际会议和研讨会,如ACM International Conference on Multimodal Interaction,进一步推动了其在多模态情感识别领域的应用。
    2017年
  • 随着深度学习技术的发展,AVA Dataset开始被用于训练和验证各种先进的情感识别模型,显著提升了情感分析的准确性和效率。
    2019年
  • AVA Dataset的扩展版本发布,增加了更多的情感类别和样本,以适应不断增长的情感计算需求。
    2021年
常用场景
经典使用场景
在计算机视觉领域,AVA数据集以其丰富的视频片段和详细的动作标签而著称。该数据集广泛应用于动作识别和视频理解任务中,研究人员利用其多样化的动作类别和高质量的标注信息,开发和验证了多种先进的动作识别算法。通过AVA数据集,学者们能够深入探索视频中复杂动作的时空特征,从而推动了视频分析技术的发展。
衍生相关工作
基于AVA数据集,许多相关研究工作得以展开。例如,一些研究者利用AVA数据集开发了基于深度学习的动作识别模型,显著提升了识别精度和速度。此外,还有研究探讨了如何利用AVA数据集进行多模态数据融合,以增强动作识别的鲁棒性。这些衍生工作不仅丰富了动作识别领域的研究内容,也为实际应用提供了强有力的技术支持。
数据集最近研究
最新研究方向
在计算机视觉领域,AVA数据集因其丰富的视频内容和详细的动作标签而备受关注。最新研究方向主要集中在利用深度学习技术提升视频动作识别的准确性和实时性。研究者们通过引入多模态数据融合、时空特征提取以及自监督学习等方法,旨在解决传统方法在复杂场景下识别精度不足的问题。此外,结合强化学习和生成对抗网络(GAN)的应用,也为视频动作识别带来了新的突破。这些前沿技术的融合,不仅提升了AVA数据集在实际应用中的表现,也为智能监控、人机交互等领域的发展提供了有力支持。
相关研究论文
  • 1
    AVA: A Large-Scale Database for Aesthetic Visual AnalysisCornell University, Yahoo! Research · 2012年
  • 2
    Deep Learning for Image Aesthetic AssessmentUniversity of Adelaide, Australia · 2016年
  • 3
    Aesthetic Attributes Assessment of ImagesUniversity of Trento, Italy · 2018年
  • 4
    Deep Aesthetic Quality Assessment with Multi-task LearningUniversity of Science and Technology of China · 2019年
  • 5
    Aesthetic Visual Analysis with Deep Learning: A SurveyUniversity of Technology Sydney, Australia · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录