five

MIMII数据集

收藏
arXiv2019-09-20 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/3384388
下载链接
链接失效反馈
资源简介:
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。

The MIMII Dataset was created by the Research & Development Group of Hitachi, Ltd., as a specialized dataset for industrial machine abnormal sound detection. It contains 26,092 audio files collected under normal operating conditions, covering four types of machinery: valves, pumps, fans, and slide rails. During the dataset's development, sound acquisition was performed using the TAMAGO-03 microphone array, and background noise from multiple real factory environments was mixed to simulate actual operational scenarios. The MIMII Dataset is primarily intended for the machine learning and signal processing communities to develop automated facility maintenance systems, especially for detecting abnormal machine sounds in unsupervised learning scenarios.
提供机构:
日立有限公司研究与开发集团
创建时间:
2019-09-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMII数据集的构建基于真实工厂环境中的工业机器声音采集。研究团队使用了一种由八个独立麦克风组成的圆形麦克风阵列,距离机器50厘米(阀门为10厘米)进行录音。每个10秒的声音片段均以16位音频信号、16 kHz采样率在混响环境中录制。为了模拟真实环境,背景噪声在多个工厂中连续录制,并与目标机器声音混合。数据集涵盖了四种机器类型(阀门、泵、风扇和滑轨),每种机器包含七个不同型号,共记录了26,092个正常声音片段和6,065个异常声音片段。
使用方法
MIMII数据集主要用于无监督异常检测任务。研究人员可以使用正常声音片段进行模型训练,并在测试阶段区分正常与异常声音。数据集支持基于自动编码器的无监督学习方法,通过计算重构误差来检测异常。此外,数据集的多通道录音可用于评估不同噪声条件下的模型性能。研究团队已提供基于自动编码器的基准实验结果,为后续研究提供了参考。数据集还可用于跨模型和跨领域的适应性研究,进一步推动工业机器声音异常检测技术的发展。
背景与挑战
背景概述
MIMII数据集是由日立公司研发团队于2019年发布的一个专注于工业机器声音的公开数据集,旨在通过声音检测和分类技术来监控工业设备的运行状态。该数据集包含了四种类型的工业机器(阀门、泵、风扇和滑轨)在正常和异常操作条件下的声音记录,共计26,092个正常声音文件和6,065个异常声音文件。这些数据是在真实工厂环境中采集的,涵盖了多种异常情况,如污染、泄漏、旋转不平衡和轨道损坏等。MIMII数据集的发布填补了工业机器声音数据集的空白,为机器学习和信号处理领域的研究者提供了一个宝贵的资源,推动了自动化设备维护技术的发展。
当前挑战
MIMII数据集面临的挑战主要集中在两个方面。首先,工业机器声音的复杂性和多样性使得异常检测任务极具挑战性。不同机器的声音特征差异显著,且异常声音通常与背景噪声混合,增加了检测的难度。其次,数据集的构建过程中也面临诸多挑战。例如,如何在真实工厂环境中采集高质量的声音数据,如何模拟各种异常情况以覆盖实际应用中的多样化场景,以及如何处理和标注大量的声音数据以确保其准确性和可用性。这些挑战不仅考验了数据采集和处理的技术能力,也对后续的机器学习模型提出了更高的要求。
常用场景
经典使用场景
MIMII数据集在工业机器故障检测领域具有重要应用,尤其是在无监督学习场景中。该数据集通过记录工厂环境中不同类型工业机器(如阀门、泵、风扇和滑轨)在正常和异常状态下的声音,为研究人员提供了一个真实且多样化的声音样本库。其经典使用场景包括基于声音信号的异常检测和分类,特别是在无监督学习框架下,仅使用正常声音数据进行训练,以识别测试阶段的异常声音。
解决学术问题
MIMII数据集解决了工业机器故障检测中的关键学术问题,尤其是在无监督学习场景下的异常声音检测。传统方法依赖于专家经验,而该数据集通过提供大量真实工厂环境中的声音样本,使得基于机器学习的自动化检测成为可能。它不仅填补了工业机器声音数据集的空白,还为研究人员提供了基准测试平台,推动了无监督异常检测算法的发展。
实际应用
在实际应用中,MIMII数据集被广泛用于工业设备的预测性维护。通过分析机器运行时的声音信号,企业可以提前发现潜在的故障,从而减少停机时间和维修成本。例如,在制造工厂中,该数据集可用于实时监控泵、风扇等关键设备的声音变化,及时检测泄漏、污染或机械不平衡等异常情况,确保生产线的稳定运行。
数据集最近研究
最新研究方向
在工业物联网(IoT)和智能制造领域,MIMII数据集为工业设备的异常声音检测提供了重要的研究基础。该数据集涵盖了阀门、泵、风扇和滑轨等四种工业设备在正常和异常状态下的声音数据,模拟了真实工厂环境中的复杂噪声条件。近年来,基于MIMII数据集的研究主要集中在无监督学习框架下的异常检测方法,特别是自编码器(Autoencoder)及其变体的应用。这些方法通过重构误差来识别异常声音,但由于工业设备声音的非平稳性和噪声干扰,检测精度仍有提升空间。此外,多通道声音信号处理和深度学习模型的结合也成为研究热点,旨在提高对复杂工业环境中异常声音的识别能力。MIMII数据集的发布不仅推动了工业设备健康监测技术的发展,还为跨领域研究提供了宝贵的数据资源,具有重要的学术和工业应用价值。
相关研究论文
  • 1
    MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection日立有限公司研究与开发集团 · 2019年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作