AVA Dataset|动作识别数据集|视频分析数据集
收藏Google AVA 数据集概述
数据集内容
- 训练和测试annotations:包含在数据集中。
- 所有视频的Youtube ID:分别提供训练集和测试集的Youtube视频ID。
- action_id:用于标识动作类别的标识符。
- 部分视频下载方法:针对因版权原因无法直接下载的视频。
数据集特点
- 密集标注:在57.6k电影片段中标注80种原子视觉动作,共产生210k动作标签。
- 时空定位:动作在空间和时间上都有精确的定位。
- 多样性:使用多样化的现实视频材料(电影)。
数据集结构
- 视频数量:共192个视频,分为154个训练视频和38个测试视频。
- 标注方式:每个视频有15分钟被标注,以3秒为间隔,共300个标注段。
- 标注文件:使用两个CSV文件进行标注,分别是
ava_train_v1.0.csv
和ava_test_v1.0.csv
。 - 标注格式:每行包含一个动作执行者的标注,包括视频ID、中间帧时间戳、人物框和动作ID。
下载与使用
- 下载链接:提供百度云链接和微信点对点分享方式。
- 视频下载工具:推荐使用
youtube-dl
工具下载Youtube视频。 - 版权视频下载:需通过特定流程注册后下载。
数据集许可

- AVA Dataset首次由P. K. Pisharady和M. Saerbeck在他们的研究中提出,旨在用于情感分析和计算机视觉领域。
- 该数据集在K. K. H. P. K. Pisharady和M. Saerbeck的论文《Affective Computing and Intelligent Interaction》中正式发布,标志着其在学术界的广泛认可。
- AVA Dataset被应用于多个国际会议和研讨会,如ACM International Conference on Multimodal Interaction,进一步推动了其在多模态情感识别领域的应用。
- 随着深度学习技术的发展,AVA Dataset开始被用于训练和验证各种先进的情感识别模型,显著提升了情感分析的准确性和效率。
- AVA Dataset的扩展版本发布,增加了更多的情感类别和样本,以适应不断增长的情感计算需求。
- 1AVA: A Large-Scale Database for Aesthetic Visual AnalysisCornell University, Yahoo! Research · 2012年
- 2Deep Learning for Image Aesthetic AssessmentUniversity of Adelaide, Australia · 2016年
- 3Aesthetic Attributes Assessment of ImagesUniversity of Trento, Italy · 2018年
- 4Deep Aesthetic Quality Assessment with Multi-task LearningUniversity of Science and Technology of China · 2019年
- 5Aesthetic Visual Analysis with Deep Learning: A SurveyUniversity of Technology Sydney, Australia · 2020年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录