five

yangwang825/audioset|音频分类数据集|音频事件识别数据集

收藏
hugging_face2023-09-18 更新2024-03-04 收录
音频分类
音频事件识别
下载链接:
https://hf-mirror.com/datasets/yangwang825/audioset
下载链接
链接失效反馈
资源简介:
AudioSet包含一个不断扩展的527个音频事件类别的本体论,以及从YouTube中提取的200万个人工标记的10秒音频剪辑集合。由于部分剪辑在YouTube上缺失,因此下载的文件数量会有所不同。该仓库包含了平衡训练集的20550/22160个文件,非平衡训练集的1913637/2041789个文件(分为41部分),以及评估集的18887/20371个文件。为了提高训练效率,还添加了一个稍微更平衡的子集AudioSet500K。
提供机构:
yangwang825
原始信息汇总

AudioSet 数据集概述

数据集配置

AudioSet 数据集包含多个配置,每个配置对应不同的数据文件和分割:

  • audioset500k:

    • 训练集: audioset500k.json
  • balanced_train:

    • 训练集: balanced_train.json
  • eval:

    • 测试集: eval.json
  • unbalanced_train_part00unbalanced_train_part40:

    • 每个部分对应一个 JSON 文件,例如 unbalanced_train_part00.jsonunbalanced_train_part40.json

数据集描述

AudioSet 包含 527 个音频事件类别的扩展本体和从 YouTube 抽取的 200 万个 10 秒长的人工标注声音片段。部分片段在 YouTube 上缺失,因此下载的文件数量会有所不同。

该数据集包括:

  • 平衡训练集的 20550 / 22160 个文件
  • 不平衡训练集的 1913637 / 2041789 个文件(分为 41 个部分)
  • 评估集的 18887 / 20371 个文件

为了提高训练效率,增加了稍微更平衡的子集 AudioSet500K。

参考文献

  1. Gemmeke, Jort F., et al., Audio set: An ontology and human-labeled dataset for audio events, 2017
  2. Kong, Qiuqiang, et al., Panns: Large-scale pretrained audio neural networks for audio pattern recognition, 2020
  3. Nagrani, Arsha, et al., Attention bottlenecks for multimodal fusion, 2021
AI搜集汇总
数据集介绍
main_image_url
构建方式
AudioSet数据集的构建,是基于YouTube平台上的2M个人工标注的10秒音频片段,涵盖了527个音频事件类别。数据集分为平衡训练集、不平衡训练集以及评估集,其中不平衡训练集进一步细分为41个部分,以适应不同训练需求和计算资源限制。该数据集的构建旨在为音频事件识别提供广泛而全面的基准资源。
使用方法
使用AudioSet数据集时,用户可以根据不同的训练需求选择平衡或是不平衡的训练集。数据集提供了JSON格式的文件,可以通过相应的预处理脚本加载。对于评估,用户可以使用提供的评估集来测试模型的性能。此外,数据集的构建者还提供了相关的预处理脚本和预训练模型,以帮助研究者和开发者更高效地进行音频识别任务的研究和开发。
背景与挑战
背景概述
AudioSet数据集,创建于2017年,是由Jort F. Gemmeke等研究人员构建的,包含了一个不断扩展的527个音频事件类别的本体和一个由人类标注的2M个10秒声音片段组成的集合,这些片段主要来源于YouTube。该数据集在音频事件识别领域具有重大影响力,为研究者提供了一个丰富的资源,以促进音频理解和分类技术的进步。
当前挑战
AudioSet数据集在构建和应用过程中面临诸多挑战。首先,由于YouTube上部分音频片段的缺失,导致可下载的文件数量不定,这为数据集的完整性带来了挑战。其次,数据集的规模巨大,包含多个不平衡的训练部分,如何有效管理和处理这些数据,以及如何在不平衡的数据上实现准确的模型训练是另一个挑战。此外,为了提高训练效率,数据集还引入了一个稍微更平衡的子集AudioSet500K,如何在保持数据集代表性的同时,提高训练效率和模型性能,也是研究者和工程师需要克服的问题。
常用场景
经典使用场景
在音频事件分类领域,AudioSet数据集的经典使用场景是对音频片段进行标注和识别,以实现对527种不同音频事件的分类。该数据集提供了大量经过人类标注的音频片段,为构建和训练音频识别模型提供了丰富的资源。
解决学术问题
AudioSet数据集解决了音频事件分类中的标注不均衡、数据量不足以及标注质量等问题,为学术研究提供了高质量、大规模的标注数据,有助于提升音频识别算法的性能和泛化能力。
实际应用
在实际应用中,AudioSet数据集广泛应用于智能语音助手、智能家居、环境监测等领域,通过对环境声音的实时识别,为用户提供更加智能和个性化的服务。
数据集最近研究
最新研究方向
在音频事件识别领域,AudioSet数据集以其庞大的标注音频事件类别和精细的标注质量成为研究的热点。近期研究集中于提升模型对于音频事件识别的准确性和效率,如通过神经网络模型对音频片段进行精确分类。AudioSet500K子集的提出,进一步促进了大规模预训练模型的发展,使得音频模式识别研究得以深入。此外,注意力瓶颈技术被应用于多模态融合研究中,显著提升了音频与视频信息联合处理的效果,为智能音频处理领域带来了新的研究视角和技术突破。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

ECNU-SEA/SEA_data

该数据集包含四种类型的文件:原始PDF格式的论文、通过Nougat解析后的mmd文件、爬取的原始评审文本以及处理后的评审JSON文件。数据集来源于OpenReview,包括NeurIPS-2023和ICLR-2024的最新论文及其评审。

hugging_face 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

PRAMS

Jamie Daw, jrd2199@cumc.columbia.edu

DataCite Commons 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录