five

MIMII数据集|工业异常声音检测数据集|机器学习数据集

收藏
arXiv2019-09-20 更新2024-06-21 收录
工业异常声音检测
机器学习
下载链接:
https://zenodo.org/record/3384388
下载链接
链接失效反馈
资源简介:
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
提供机构:
日立有限公司研究与开发集团
创建时间:
2019-09-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMII数据集的构建基于真实工厂环境中的工业机器声音采集。研究团队使用了一种由八个独立麦克风组成的圆形麦克风阵列,距离机器50厘米(阀门为10厘米)进行录音。每个10秒的声音片段均以16位音频信号、16 kHz采样率在混响环境中录制。为了模拟真实环境,背景噪声在多个工厂中连续录制,并与目标机器声音混合。数据集涵盖了四种机器类型(阀门、泵、风扇和滑轨),每种机器包含七个不同型号,共记录了26,092个正常声音片段和6,065个异常声音片段。
使用方法
MIMII数据集主要用于无监督异常检测任务。研究人员可以使用正常声音片段进行模型训练,并在测试阶段区分正常与异常声音。数据集支持基于自动编码器的无监督学习方法,通过计算重构误差来检测异常。此外,数据集的多通道录音可用于评估不同噪声条件下的模型性能。研究团队已提供基于自动编码器的基准实验结果,为后续研究提供了参考。数据集还可用于跨模型和跨领域的适应性研究,进一步推动工业机器声音异常检测技术的发展。
背景与挑战
背景概述
MIMII数据集是由日立公司研发团队于2019年发布的一个专注于工业机器声音的公开数据集,旨在通过声音检测和分类技术来监控工业设备的运行状态。该数据集包含了四种类型的工业机器(阀门、泵、风扇和滑轨)在正常和异常操作条件下的声音记录,共计26,092个正常声音文件和6,065个异常声音文件。这些数据是在真实工厂环境中采集的,涵盖了多种异常情况,如污染、泄漏、旋转不平衡和轨道损坏等。MIMII数据集的发布填补了工业机器声音数据集的空白,为机器学习和信号处理领域的研究者提供了一个宝贵的资源,推动了自动化设备维护技术的发展。
当前挑战
MIMII数据集面临的挑战主要集中在两个方面。首先,工业机器声音的复杂性和多样性使得异常检测任务极具挑战性。不同机器的声音特征差异显著,且异常声音通常与背景噪声混合,增加了检测的难度。其次,数据集的构建过程中也面临诸多挑战。例如,如何在真实工厂环境中采集高质量的声音数据,如何模拟各种异常情况以覆盖实际应用中的多样化场景,以及如何处理和标注大量的声音数据以确保其准确性和可用性。这些挑战不仅考验了数据采集和处理的技术能力,也对后续的机器学习模型提出了更高的要求。
常用场景
经典使用场景
MIMII数据集在工业机器故障检测领域具有重要应用,尤其是在无监督学习场景中。该数据集通过记录工厂环境中不同类型工业机器(如阀门、泵、风扇和滑轨)在正常和异常状态下的声音,为研究人员提供了一个真实且多样化的声音样本库。其经典使用场景包括基于声音信号的异常检测和分类,特别是在无监督学习框架下,仅使用正常声音数据进行训练,以识别测试阶段的异常声音。
解决学术问题
MIMII数据集解决了工业机器故障检测中的关键学术问题,尤其是在无监督学习场景下的异常声音检测。传统方法依赖于专家经验,而该数据集通过提供大量真实工厂环境中的声音样本,使得基于机器学习的自动化检测成为可能。它不仅填补了工业机器声音数据集的空白,还为研究人员提供了基准测试平台,推动了无监督异常检测算法的发展。
实际应用
在实际应用中,MIMII数据集被广泛用于工业设备的预测性维护。通过分析机器运行时的声音信号,企业可以提前发现潜在的故障,从而减少停机时间和维修成本。例如,在制造工厂中,该数据集可用于实时监控泵、风扇等关键设备的声音变化,及时检测泄漏、污染或机械不平衡等异常情况,确保生产线的稳定运行。
数据集最近研究
最新研究方向
在工业物联网(IoT)和智能制造领域,MIMII数据集为工业设备的异常声音检测提供了重要的研究基础。该数据集涵盖了阀门、泵、风扇和滑轨等四种工业设备在正常和异常状态下的声音数据,模拟了真实工厂环境中的复杂噪声条件。近年来,基于MIMII数据集的研究主要集中在无监督学习框架下的异常检测方法,特别是自编码器(Autoencoder)及其变体的应用。这些方法通过重构误差来识别异常声音,但由于工业设备声音的非平稳性和噪声干扰,检测精度仍有提升空间。此外,多通道声音信号处理和深度学习模型的结合也成为研究热点,旨在提高对复杂工业环境中异常声音的识别能力。MIMII数据集的发布不仅推动了工业设备健康监测技术的发展,还为跨领域研究提供了宝贵的数据资源,具有重要的学术和工业应用价值。
相关研究论文
  • 1
    MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection日立有限公司研究与开发集团 · 2019年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录

SHHS Sleep Heart Health Study Dataset

SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。

sleepdata.org 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录