LEAD dataset

Name: LEAD dataset
Creator: 日本同志社大学，日本国立先进工业科学技术研究所
Published: 2024-10-13 16:40:52
License: 暂无描述

arXiv2024-10-13 更新2024-10-16 收录

下载链接：

https://github.com/KeisukeImoto/LEAD

下载链接

链接失效反馈

官方服务：

资源简介：

LEAD数据集是由日本同志社大学和日本国立先进工业科学技术研究所创建的，用于研究声音事件检测（SED）中强标签的变异性。该数据集包含20个标注者对TUT Sound Events 2016/2017、TUT Acoustic Scenes 2016和URBAN-SED数据集中的音频片段进行的强标签标注。数据集的创建过程包括为每个音频片段分配声音事件类别和时间起止点的置信度评分。LEAD数据集的应用领域主要是声音事件检测模型的训练和评估，旨在解决由于标注者差异导致的模型偏差问题。

LEAD Dataset was developed by Doshisha University (Japan) and the National Institute of Advanced Industrial Science and Technology (AIST, Japan) to investigate the variability of strong labels in sound event detection (SED). This dataset includes strong label annotations from 20 annotators on audio clips sourced from the TUT Sound Events 2016/2017, TUT Acoustic Scenes 2016, and URBAN-SED datasets. The dataset creation process involves assigning confidence scores for both sound event categories and their temporal onset and offset points to each audio clip. The primary application scenarios of the LEAD Dataset are the training and evaluation of sound event detection models, aiming to address model bias caused by annotator variability.

提供机构：

日本同志社大学，日本国立先进工业科学技术研究所

创建时间：

2024-10-13

搜集汇总

数据集介绍

构建方式

LEAD数据集的构建基于TUT Sound Events 2016/2017、TUT Acoustic Scenes 2016和URBAN-SED的音频片段，由20名不同的标注者为每个片段分配强标签。这些标注者不仅为每个声音事件分配类别标签，还提供了事件的起始和结束时间，并附带了两个置信度评分：一个是针对声音事件类别的置信度，另一个是针对起始和结束时间的置信度。这些置信度评分采用五点量表，从1（非常不确定）到5（非常确定）。标注过程中，标注者被要求至少完整听取一次音频片段，并在必要时参考波形图或频谱图。此外，标注者被指示将间隔超过1秒的声音事件视为不同的声音事件。

特点

LEAD数据集的主要特点在于其多样性和复杂性。首先，数据集包含了来自多个标注者的强标签，这些标签在声音事件的类别和时间起始/结束上存在显著差异，反映了不同标注者的主观判断和听觉感知。其次，数据集提供了详细的置信度评分，这有助于研究人员评估标注质量并开发对标注变化具有鲁棒性的模型。此外，数据集的音频片段来自不同类型的环境，包括城市、自然和人工合成场景，这使得数据集在声音事件检测的研究中具有广泛的应用价值。

使用方法

LEAD数据集适用于研究声音事件检测（SED）模型在面对标注者间差异时的表现。研究人员可以使用该数据集来训练和评估SED模型，通过比较不同标注者的标签来分析模型的鲁棒性。此外，数据集中的置信度评分可以用于开发更智能的标注选择算法，以提高模型的训练效果。研究人员还可以利用数据集中的时间变化信息，探索如何改进SED模型的评估指标，使其对标注时间的变化更加鲁棒。总之，LEAD数据集为SED领域的研究提供了丰富的资源和挑战，有助于推动该领域的发展。

背景与挑战

背景概述

在环境声音分析领域，声音事件检测（Sound Event Detection, SED）是一项基础任务，旨在识别音频片段中包含的声音事件的类型、起始和结束时间。随着深度神经网络（DNN）在强监督学习中的应用，SED技术得到了显著发展，并在住宅街道监控和基于音频与视觉内容的语义视频搜索等实际应用中展现出巨大潜力。LEAD数据集由日本同志社大学和国家先进工业科学技术研究所的研究团队创建，旨在研究声音事件检测中强标签的变异性。该数据集包含了20位标注者对TUT声音事件2016/2017、TUT声学场景2016和URBAN-SED数据集的音频片段的强标签标注，为研究标注者间强标签的变异性提供了宝贵的资源。

当前挑战

LEAD数据集面临的挑战主要集中在强标签的变异性上。首先，不同标注者对声音事件的分类和时间起止点的标注存在显著差异，这可能导致训练出的SED模型产生偏差。其次，标注者在训练数据和评估数据中的不一致性可能影响模型的正确评估。此外，构建过程中遇到的挑战包括如何处理标注者间的意见分歧，以及如何确保标注的一致性和可靠性。这些挑战不仅影响了SED模型的训练和评估，也对SED领域的研究提出了新的要求，即开发能够适应标注变异性的鲁棒模型。

常用场景

经典使用场景

LEAD数据集在声学事件检测（SED）领域中被广泛用于研究标注者之间强标签的变异性。通过提供由20位不同标注者对同一音频片段的强标签，该数据集使研究者能够深入分析标注者间的差异，从而开发出对标注变异性具有鲁棒性的SED模型。这种研究不仅有助于理解标注过程中的不确定性，还能为SED模型的训练和评估提供更为可靠的基础。

实际应用

在实际应用中，LEAD数据集为声学事件检测系统的设计和优化提供了宝贵的资源。例如，在住宅街道监控和基于音频与视觉内容的语义视频搜索等应用中，SED系统的准确性和鲁棒性至关重要。LEAD数据集通过揭示标注者间的变异性，帮助开发者在设计SED系统时考虑到这些变量，从而提高系统的实际性能和可靠性。

衍生相关工作

LEAD数据集的发布催生了多项相关研究工作，特别是在声学事件检测和标注变异性分析领域。例如，研究者利用该数据集开发了新的评估指标，如多标注者能力估计（MACE）和多音声检测分数（PSDS），以提高SED模型的鲁棒性。此外，LEAD数据集还激发了对标注过程和标注者行为更深入的探索，推动了声学事件检测技术的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集