five

MAFAR Dataset

收藏
github2024-09-11 更新2024-09-12 收录
下载链接:
https://github.com/Voltmeter00/MAFAR
下载链接
链接失效反馈
官方服务:
资源简介:
MAFAR数据集是一个由10位专业标注者标注的声音事件数据集,包含10组标注结果。数据集包括原始数据、原始音频、标注结果、前景事件标注和经过处理的标签数据。标注文件包含音频片段的名称、事件开始和结束时间、语义标签以及Audioset标签。

The MAFAR dataset is an audio event dataset annotated by 10 professional annotators, containing 10 sets of annotation results. The dataset includes raw data, raw audio files, annotation results, foreground event annotations and processed label data. The annotation files contain the names of audio clips, event start and end times, semantic tags as well as Audioset tags.
创建时间:
2024-09-06
原始信息汇总

MAFAR 数据集概述

数据集描述

MAFAR 数据集是一个由10名专业标注者标注的声音事件数据集,包含10组标注结果。

数据集内容

  • raw_data: 由10名专业标注者标注的未处理数据。
  • raw_audio: 对应片段的原始音频。
  • result: 包含各个标注者的标注结果。
  • foreground: 标注者认为对应片段的前景事件的标注。
  • tagged_data: 经过处理并与 Audioset 分类对应的标注。

标注格式

原始数据标注格式

每个标注文件是一个 TXT 文件,结构如下:

Name_of_audio_segment start_time end_time semantic_label
DJI_20231202102104_0001_D_01.wav 0.08 2.36 两个人的说话声
DJI_20231202102104_0001_D_02.wav 25.67 33.84 广播员播报的声音
DJI_20231202102104_0001_D_03.wav 34.17 37.65 人说话的声音

处理后数据标注格式

每个标注文件是一个 TXT 文件,结构如下:

Name_of_audio_segment start_time end_time Audioset_label
DJI_20231202102104_0001_D_01.wav 0.08 2.36 Conversation
DJI_20231202102104_0001_D_02.wav 25.67 33.84 Narration, monologue
DJI_20231202102104_0001_D_03.wav 34.17 37.65 Speech

数据集提取与使用

1. 提取数据集

首先,提取 human_label_and_model_inference.zip 文件。提取后,您将找到两个主要文件夹:

  • label: 包含由10名专家标注的声音事件数据,这些标注通过 GPT-4 对齐到 AudioSet 的86个类别。
  • predictions_10s: 包含应用于相同音频片段的六个 AudioSet 预训练模型的推理结果。

2. 运行脚本

按照以下步骤复制结果:

  1. 运行标注读取脚本
    该脚本读取人工标注的数据: bash python 1_read_all_label.py

  2. 运行标注对齐脚本
    该脚本使用对齐技术对齐标注: bash python 2_label_alignment.py

  3. 运行多类分析脚本
    该脚本对对齐的标注和模型预测进行多类分析: bash python 3_multi_class_analysis.py

环境要求

  • Python 3.x
  • numpy
  • sklearn
搜集汇总
数据集介绍
main_image_url
构建方式
MAFAR数据集的构建基于10位专业标注者的细致工作,他们为音频事件提供了10组标签结果。原始数据和标签可通过提供的链接下载。数据集包括未处理的原始数据、原始音频文件、个体标注结果、前景事件标注以及经过Audioset分类处理的标签数据。每个标注文件以TXT格式存储,包含音频片段名称、事件开始和结束时间、语义标签以及Audioset标签。这种多层次的标注结构确保了数据集的丰富性和多样性,为后续研究提供了坚实的基础。
特点
MAFAR数据集的显著特点在于其多重标注和细致分类。通过10位专业标注者的独立工作,数据集包含了10组不同的标签结果,这不仅增加了数据的多样性,也提供了对同一音频事件的多角度理解。此外,数据集中的标签经过Audioset分类处理,确保了标签的标准化和一致性。这种多层次的标注和分类方式,使得MAFAR数据集在音频事件识别领域具有较高的应用价值和研究潜力。
使用方法
使用MAFAR数据集进行研究时,首先需下载并解压数据集文件。随后,按照提供的脚本步骤进行操作,包括运行标签读取脚本、标签对齐脚本以及多类分析脚本。这些脚本帮助用户读取和处理标注数据,进行标签对齐,并对齐后的标签和模型预测结果进行多类分析。通过这些步骤,用户可以复现研究结果,并在此基础上进行进一步的分析和模型训练。数据集的详细使用说明确保了用户能够高效地利用其丰富的标注信息。
背景与挑战
背景概述
MAFAR数据集是一个由10位专业标注者标记的声音事件数据集,包含10组标签结果。该数据集的创建旨在探索人类感知与模型推断在音频事件识别中的差异,主要研究人员通过论文《Exploring Differences between Human Perception and Model Inference in Audio Event Recognition》进行了详细阐述。MAFAR数据集的发布不仅为音频事件识别领域提供了丰富的标注数据,还为研究人类与机器在音频理解上的差异提供了宝贵的资源。
当前挑战
MAFAR数据集在构建过程中面临多项挑战。首先,如何确保10位标注者的一致性和准确性是一个重要问题,因为不同标注者对音频事件的理解可能存在差异。其次,将标注结果与Audioset分类体系对齐,需要复杂的处理和校准过程,以确保标签的语义一致性。此外,数据集的多样性和覆盖范围也是一个挑战,确保数据集能够代表广泛的声音事件,以提高模型的泛化能力。
常用场景
经典使用场景
MAFAR数据集在音频事件识别领域中被广泛用于探索人类感知与模型推断之间的差异。通过对比10位专业标注者的标签与6种预训练模型的推断结果,研究者能够深入分析模型在音频事件识别中的表现与人类感知之间的异同。这种对比分析不仅有助于改进现有模型的性能,还能为开发更符合人类感知习惯的音频识别系统提供理论依据。
解决学术问题
MAFAR数据集解决了音频事件识别领域中一个关键的学术问题,即模型推断与人类感知之间的差异。通过提供多样的标注结果和模型推断数据,该数据集为研究者提供了一个理想的平台,用以探讨和量化这种差异。这不仅有助于提升模型的准确性和鲁棒性,还为理解人类听觉系统的复杂性提供了宝贵的数据支持。
衍生相关工作
MAFAR数据集的发布催生了一系列相关研究工作,特别是在音频事件识别和人类听觉感知领域。例如,有研究利用该数据集进行多模态融合分析,以提升音频识别的准确性;还有研究通过对比不同模型的推断结果,提出了新的模型优化策略。此外,MAFAR数据集还被用于开发新的标注方法和评估标准,进一步推动了音频事件识别技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作