five

MIMII数据集|工业异常声音检测数据集|机器学习数据集

收藏
arXiv2019-09-20 更新2024-06-21 收录
工业异常声音检测
机器学习
下载链接:
https://zenodo.org/record/3384388
下载链接
链接失效反馈
资源简介:
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
提供机构:
日立有限公司研究与开发集团
创建时间:
2019-09-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMII数据集的构建基于真实工厂环境中的工业机器声音采集。研究团队使用了一种由八个独立麦克风组成的圆形麦克风阵列,距离机器50厘米(阀门为10厘米)进行录音。每个10秒的声音片段均以16位音频信号、16 kHz采样率在混响环境中录制。为了模拟真实环境,背景噪声在多个工厂中连续录制,并与目标机器声音混合。数据集涵盖了四种机器类型(阀门、泵、风扇和滑轨),每种机器包含七个不同型号,共记录了26,092个正常声音片段和6,065个异常声音片段。
使用方法
MIMII数据集主要用于无监督异常检测任务。研究人员可以使用正常声音片段进行模型训练,并在测试阶段区分正常与异常声音。数据集支持基于自动编码器的无监督学习方法,通过计算重构误差来检测异常。此外,数据集的多通道录音可用于评估不同噪声条件下的模型性能。研究团队已提供基于自动编码器的基准实验结果,为后续研究提供了参考。数据集还可用于跨模型和跨领域的适应性研究,进一步推动工业机器声音异常检测技术的发展。
背景与挑战
背景概述
MIMII数据集是由日立公司研发团队于2019年发布的一个专注于工业机器声音的公开数据集,旨在通过声音检测和分类技术来监控工业设备的运行状态。该数据集包含了四种类型的工业机器(阀门、泵、风扇和滑轨)在正常和异常操作条件下的声音记录,共计26,092个正常声音文件和6,065个异常声音文件。这些数据是在真实工厂环境中采集的,涵盖了多种异常情况,如污染、泄漏、旋转不平衡和轨道损坏等。MIMII数据集的发布填补了工业机器声音数据集的空白,为机器学习和信号处理领域的研究者提供了一个宝贵的资源,推动了自动化设备维护技术的发展。
当前挑战
MIMII数据集面临的挑战主要集中在两个方面。首先,工业机器声音的复杂性和多样性使得异常检测任务极具挑战性。不同机器的声音特征差异显著,且异常声音通常与背景噪声混合,增加了检测的难度。其次,数据集的构建过程中也面临诸多挑战。例如,如何在真实工厂环境中采集高质量的声音数据,如何模拟各种异常情况以覆盖实际应用中的多样化场景,以及如何处理和标注大量的声音数据以确保其准确性和可用性。这些挑战不仅考验了数据采集和处理的技术能力,也对后续的机器学习模型提出了更高的要求。
常用场景
经典使用场景
MIMII数据集在工业机器故障检测领域具有重要应用,尤其是在无监督学习场景中。该数据集通过记录工厂环境中不同类型工业机器(如阀门、泵、风扇和滑轨)在正常和异常状态下的声音,为研究人员提供了一个真实且多样化的声音样本库。其经典使用场景包括基于声音信号的异常检测和分类,特别是在无监督学习框架下,仅使用正常声音数据进行训练,以识别测试阶段的异常声音。
解决学术问题
MIMII数据集解决了工业机器故障检测中的关键学术问题,尤其是在无监督学习场景下的异常声音检测。传统方法依赖于专家经验,而该数据集通过提供大量真实工厂环境中的声音样本,使得基于机器学习的自动化检测成为可能。它不仅填补了工业机器声音数据集的空白,还为研究人员提供了基准测试平台,推动了无监督异常检测算法的发展。
实际应用
在实际应用中,MIMII数据集被广泛用于工业设备的预测性维护。通过分析机器运行时的声音信号,企业可以提前发现潜在的故障,从而减少停机时间和维修成本。例如,在制造工厂中,该数据集可用于实时监控泵、风扇等关键设备的声音变化,及时检测泄漏、污染或机械不平衡等异常情况,确保生产线的稳定运行。
数据集最近研究
最新研究方向
在工业物联网(IoT)和智能制造领域,MIMII数据集为工业设备的异常声音检测提供了重要的研究基础。该数据集涵盖了阀门、泵、风扇和滑轨等四种工业设备在正常和异常状态下的声音数据,模拟了真实工厂环境中的复杂噪声条件。近年来,基于MIMII数据集的研究主要集中在无监督学习框架下的异常检测方法,特别是自编码器(Autoencoder)及其变体的应用。这些方法通过重构误差来识别异常声音,但由于工业设备声音的非平稳性和噪声干扰,检测精度仍有提升空间。此外,多通道声音信号处理和深度学习模型的结合也成为研究热点,旨在提高对复杂工业环境中异常声音的识别能力。MIMII数据集的发布不仅推动了工业设备健康监测技术的发展,还为跨领域研究提供了宝贵的数据资源,具有重要的学术和工业应用价值。
相关研究论文
  • 1
    MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection日立有限公司研究与开发集团 · 2019年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录