five

renumics/dcase23-task2-enriched|异常声音检测数据集|机器状态监测数据集

收藏
hugging_face2023-06-06 更新2024-03-04 收录
异常声音检测
机器状态监测
下载链接:
https://hf-mirror.com/datasets/renumics/dcase23-task2-enriched
下载链接
链接失效反馈
资源简介:
该数据集是DCASE 2023挑战赛任务2的增强版数据集,专注于音频分类任务,如异常检测、异常声音检测和机器状态监测。该数据集通过预训练的音频频谱变换器生成的嵌入和官方挑战基准实施的结果进行了增强,旨在促进无监督学习和域泛化领域的研究。数据集基于MIMII DG和ToyADMOS2数据集,用于DCASE2023挑战赛中的无监督异常声音检测。

该数据集是DCASE 2023挑战赛任务2的增强版数据集,专注于音频分类任务,如异常检测、异常声音检测和机器状态监测。该数据集通过预训练的音频频谱变换器生成的嵌入和官方挑战基准实施的结果进行了增强,旨在促进无监督学习和域泛化领域的研究。数据集基于MIMII DG和ToyADMOS2数据集,用于DCASE2023挑战赛中的无监督异常声音检测。
提供机构:
renumics
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: Enriched DCASE 2023 Challenge Task 2 Dataset
  • 类别: 音频分类
  • 大小: 1K<n<10K
  • 标签: 异常检测, 异常声音检测, 声学条件监控, 声音机器故障诊断, 机器学习, 无监督学习, 声学场景分类, 声学事件检测, 声学信号处理, 音频域转移, 域泛化
  • 许可证: cc-by-4.0

数据集结构

数据实例

  • 音频: 单声道,时长10秒
  • 路径: 音频文件路径
  • 部分: 整数,表示部分
  • d1p: 参数名称
  • d1v: 参数值
  • : 整数,0表示源域,1表示目标域
  • 类别: 整数,表示机器类型
  • 标签: 整数,0表示正常,1表示异常
  • 异常指标: 整数,基于本地异常因子算法
  • 异常分数: 浮点数,基于本地异常因子算法
  • 嵌入: 音频嵌入,由音频频谱变换器生成

数据分割

  • 开发数据集: 包含训练和测试分割
    • 训练: 7000个实例
    • 测试: 1400个实例
  • 额外训练数据集: 仅包含训练分割,7000个实例
  • 评估数据集: 仅包含测试分割,1400个实例

数据集创建

来源数据

  • 包含七种机器类型的正常和异常操作声音
  • 每个机器类型提供一个部分,包含训练和测试数据
  • 录音包括机器操作声音和环境噪音

支持的任务和排行榜

  • 任务: 异常声音检测,用于机器条件监控
  • 要求: 无监督学习,域泛化,新机器类型模型训练,单机类型数据训练

使用数据集的考虑

社会影响

  • 待补充

偏见讨论

  • 待补充

其他已知限制

  • 待补充

附加信息

基线系统

  • 基线系统可在GitHub上找到,为入门级研究人员提供合理的性能起点

许可证信息

  • 原始数据集由Hitachi, Ltd.和NTT Corporation创建,使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是基于DCASE 2023挑战赛任务2的异常声音检测任务构建的,旨在监测机器状态。原始数据集包括七种真实和玩具机器的正常和异常操作声音,每段录音为10秒的单通道音频。数据集的构建过程中,使用了MIMII DG和ToyADMOS2数据集,并通过添加预训练的音频频谱变换器生成的嵌入和官方挑战基线实现的结果进行丰富。这些丰富内容有助于研究人员快速理解数据集,并推广数据中心AI原则和工具。
使用方法
使用该数据集时,研究人员可以通过HuggingFace的datasets库加载数据,并使用Renumics Spotlight工具进行数据探索。首先,安装必要的库并加载数据集,然后使用Spotlight工具可视化数据。研究人员还可以添加自定义模型的嵌入和异常分数,以进一步分析数据集和模型行为。通过Spotlight工具,用户可以交互式地配置数据视图,并根据具体任务(如模型比较、调试或异常检测)利用不同的丰富内容和元数据。
背景与挑战
背景概述
在工业4.0的背景下,机器状态监测和异常声音检测(Anomalous Sound Detection, ASD)成为确保设备正常运行和预防故障的关键技术。renumics/dcase23-task2-enriched数据集由Renumics公司发布,作为DCASE 2023挑战赛任务2的一部分,专注于无监督的异常声音检测。该数据集基于MIMII DG和ToyADMOS2数据集,包含了七种机器类型的正常和异常操作声音,旨在解决领域泛化和新机器类型检测的挑战。通过引入预训练的音频频谱变换器生成的嵌入和官方挑战基线实现的结果,该数据集不仅提供了丰富的音频数据,还促进了数据中心AI原则在机器学习社区中的普及。
当前挑战
该数据集面临的挑战主要集中在领域泛化和无监督学习上。首先,由于机器操作状态和环境噪声的变化,数据集需要处理领域偏移问题,这要求模型具备领域泛化能力。其次,数据集仅包含正常声音进行训练,模型需在无异常样本的情况下检测未知类型的异常声音,这对无监督学习提出了高要求。此外,数据集还要求模型能够在新机器类型上进行训练,且无需额外超参数调整,这增加了模型的适应性和鲁棒性要求。最后,数据集的构建过程中,如何确保音频数据的多样性和代表性,以及如何处理多通道录音的单通道化,也是重要的技术挑战。
常用场景
经典使用场景
在声学事件检测与分类领域,renumics/dcase23-task2-enriched数据集的经典使用场景主要集中在异常声音检测(Anomalous Sound Detection, ASD)和机器状态监测(Machine Condition Monitoring)。该数据集通过提供丰富的音频特征和预训练模型的嵌入,使得研究人员能够在无监督学习框架下,开发和评估能够识别机器异常声音的模型。此外,数据集还支持领域泛化任务,帮助模型在不同操作环境和机器状态下保持检测性能。
解决学术问题
该数据集解决了在实际工业环境中,由于异常事件罕见且多样,难以收集全面异常样本的问题。通过仅使用正常声音进行训练,模型能够检测出训练数据中未见过的异常类型,满足了无监督学习的需求。此外,数据集还解决了领域偏移问题,通过提供不同域的数据,帮助模型在面对操作状态变化和环境噪声变化时,仍能有效检测异常,推动了领域泛化技术的发展。
实际应用
在实际应用中,renumics/dcase23-task2-enriched数据集被广泛用于工业设备的预测性维护。通过分析机器运行时的声音,系统可以及时发现潜在的故障,减少停机时间和维修成本。此外,该数据集还被用于开发智能家居和消费电子产品中的异常声音检测功能,如婴儿监视器和智能音箱,以提高用户体验和设备安全性。
数据集最近研究
最新研究方向
在异常声音检测(ASD)领域,renumics/dcase23-task2-enriched数据集的前沿研究方向主要集中在无监督学习和领域泛化技术的结合。该数据集通过引入预训练的音频频谱变换器生成的嵌入,以及官方挑战基线实现的结果,为研究人员提供了一个丰富的数据环境。这种数据增强方法不仅有助于新研究人员快速理解数据集,还促进了数据中心AI原则和工具在机器学习社区中的普及。此外,该数据集的发布与DCASE 2023挑战赛紧密相关,推动了异常声音检测技术在工业机器状态监测中的应用,特别是在处理域偏移和仅使用正常声音训练模型的场景下,具有重要的实际意义和研究价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

中国1km分辨率逐月NDVI数据集(2001-2023年)

中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。

国家地球系统科学数据中心 收录