five

LEAD dataset|声音事件检测数据集|数据标注数据集

收藏
arXiv2024-10-13 更新2024-10-16 收录
声音事件检测
数据标注
下载链接:
https://github.com/KeisukeImoto/LEAD
下载链接
链接失效反馈
资源简介:
LEAD数据集是由日本同志社大学和日本国立先进工业科学技术研究所创建的,用于研究声音事件检测(SED)中强标签的变异性。该数据集包含20个标注者对TUT Sound Events 2016/2017、TUT Acoustic Scenes 2016和URBAN-SED数据集中的音频片段进行的强标签标注。数据集的创建过程包括为每个音频片段分配声音事件类别和时间起止点的置信度评分。LEAD数据集的应用领域主要是声音事件检测模型的训练和评估,旨在解决由于标注者差异导致的模型偏差问题。
提供机构:
日本同志社大学,日本国立先进工业科学技术研究所
创建时间:
2024-10-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
LEAD数据集的构建基于TUT Sound Events 2016/2017、TUT Acoustic Scenes 2016和URBAN-SED的音频片段,由20名不同的标注者为每个片段分配强标签。这些标注者不仅为每个声音事件分配类别标签,还提供了事件的起始和结束时间,并附带了两个置信度评分:一个是针对声音事件类别的置信度,另一个是针对起始和结束时间的置信度。这些置信度评分采用五点量表,从1(非常不确定)到5(非常确定)。标注过程中,标注者被要求至少完整听取一次音频片段,并在必要时参考波形图或频谱图。此外,标注者被指示将间隔超过1秒的声音事件视为不同的声音事件。
特点
LEAD数据集的主要特点在于其多样性和复杂性。首先,数据集包含了来自多个标注者的强标签,这些标签在声音事件的类别和时间起始/结束上存在显著差异,反映了不同标注者的主观判断和听觉感知。其次,数据集提供了详细的置信度评分,这有助于研究人员评估标注质量并开发对标注变化具有鲁棒性的模型。此外,数据集的音频片段来自不同类型的环境,包括城市、自然和人工合成场景,这使得数据集在声音事件检测的研究中具有广泛的应用价值。
使用方法
LEAD数据集适用于研究声音事件检测(SED)模型在面对标注者间差异时的表现。研究人员可以使用该数据集来训练和评估SED模型,通过比较不同标注者的标签来分析模型的鲁棒性。此外,数据集中的置信度评分可以用于开发更智能的标注选择算法,以提高模型的训练效果。研究人员还可以利用数据集中的时间变化信息,探索如何改进SED模型的评估指标,使其对标注时间的变化更加鲁棒。总之,LEAD数据集为SED领域的研究提供了丰富的资源和挑战,有助于推动该领域的发展。
背景与挑战
背景概述
在环境声音分析领域,声音事件检测(Sound Event Detection, SED)是一项基础任务,旨在识别音频片段中包含的声音事件的类型、起始和结束时间。随着深度神经网络(DNN)在强监督学习中的应用,SED技术得到了显著发展,并在住宅街道监控和基于音频与视觉内容的语义视频搜索等实际应用中展现出巨大潜力。LEAD数据集由日本同志社大学和国家先进工业科学技术研究所的研究团队创建,旨在研究声音事件检测中强标签的变异性。该数据集包含了20位标注者对TUT声音事件2016/2017、TUT声学场景2016和URBAN-SED数据集的音频片段的强标签标注,为研究标注者间强标签的变异性提供了宝贵的资源。
当前挑战
LEAD数据集面临的挑战主要集中在强标签的变异性上。首先,不同标注者对声音事件的分类和时间起止点的标注存在显著差异,这可能导致训练出的SED模型产生偏差。其次,标注者在训练数据和评估数据中的不一致性可能影响模型的正确评估。此外,构建过程中遇到的挑战包括如何处理标注者间的意见分歧,以及如何确保标注的一致性和可靠性。这些挑战不仅影响了SED模型的训练和评估,也对SED领域的研究提出了新的要求,即开发能够适应标注变异性的鲁棒模型。
常用场景
经典使用场景
LEAD数据集在声学事件检测(SED)领域中被广泛用于研究标注者之间强标签的变异性。通过提供由20位不同标注者对同一音频片段的强标签,该数据集使研究者能够深入分析标注者间的差异,从而开发出对标注变异性具有鲁棒性的SED模型。这种研究不仅有助于理解标注过程中的不确定性,还能为SED模型的训练和评估提供更为可靠的基础。
实际应用
在实际应用中,LEAD数据集为声学事件检测系统的设计和优化提供了宝贵的资源。例如,在住宅街道监控和基于音频与视觉内容的语义视频搜索等应用中,SED系统的准确性和鲁棒性至关重要。LEAD数据集通过揭示标注者间的变异性,帮助开发者在设计SED系统时考虑到这些变量,从而提高系统的实际性能和可靠性。
衍生相关工作
LEAD数据集的发布催生了多项相关研究工作,特别是在声学事件检测和标注变异性分析领域。例如,研究者利用该数据集开发了新的评估指标,如多标注者能力估计(MACE)和多音声检测分数(PSDS),以提高SED模型的鲁棒性。此外,LEAD数据集还激发了对标注过程和标注者行为更深入的探索,推动了声学事件检测技术的整体进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录