five

MIMII数据集|工业异常声音检测数据集|机器学习数据集

收藏
arXiv2019-09-20 更新2024-06-21 收录
工业异常声音检测
机器学习
下载链接:
https://zenodo.org/record/3384388
下载链接
链接失效反馈
资源简介:
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
提供机构:
日立有限公司研究与开发集团
创建时间:
2019-09-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMII数据集的构建基于真实工厂环境中的工业机器声音采集。研究团队使用了一种由八个独立麦克风组成的圆形麦克风阵列,距离机器50厘米(阀门为10厘米)进行录音。每个10秒的声音片段均以16位音频信号、16 kHz采样率在混响环境中录制。为了模拟真实环境,背景噪声在多个工厂中连续录制,并与目标机器声音混合。数据集涵盖了四种机器类型(阀门、泵、风扇和滑轨),每种机器包含七个不同型号,共记录了26,092个正常声音片段和6,065个异常声音片段。
使用方法
MIMII数据集主要用于无监督异常检测任务。研究人员可以使用正常声音片段进行模型训练,并在测试阶段区分正常与异常声音。数据集支持基于自动编码器的无监督学习方法,通过计算重构误差来检测异常。此外,数据集的多通道录音可用于评估不同噪声条件下的模型性能。研究团队已提供基于自动编码器的基准实验结果,为后续研究提供了参考。数据集还可用于跨模型和跨领域的适应性研究,进一步推动工业机器声音异常检测技术的发展。
背景与挑战
背景概述
MIMII数据集是由日立公司研发团队于2019年发布的一个专注于工业机器声音的公开数据集,旨在通过声音检测和分类技术来监控工业设备的运行状态。该数据集包含了四种类型的工业机器(阀门、泵、风扇和滑轨)在正常和异常操作条件下的声音记录,共计26,092个正常声音文件和6,065个异常声音文件。这些数据是在真实工厂环境中采集的,涵盖了多种异常情况,如污染、泄漏、旋转不平衡和轨道损坏等。MIMII数据集的发布填补了工业机器声音数据集的空白,为机器学习和信号处理领域的研究者提供了一个宝贵的资源,推动了自动化设备维护技术的发展。
当前挑战
MIMII数据集面临的挑战主要集中在两个方面。首先,工业机器声音的复杂性和多样性使得异常检测任务极具挑战性。不同机器的声音特征差异显著,且异常声音通常与背景噪声混合,增加了检测的难度。其次,数据集的构建过程中也面临诸多挑战。例如,如何在真实工厂环境中采集高质量的声音数据,如何模拟各种异常情况以覆盖实际应用中的多样化场景,以及如何处理和标注大量的声音数据以确保其准确性和可用性。这些挑战不仅考验了数据采集和处理的技术能力,也对后续的机器学习模型提出了更高的要求。
常用场景
经典使用场景
MIMII数据集在工业机器故障检测领域具有重要应用,尤其是在无监督学习场景中。该数据集通过记录工厂环境中不同类型工业机器(如阀门、泵、风扇和滑轨)在正常和异常状态下的声音,为研究人员提供了一个真实且多样化的声音样本库。其经典使用场景包括基于声音信号的异常检测和分类,特别是在无监督学习框架下,仅使用正常声音数据进行训练,以识别测试阶段的异常声音。
解决学术问题
MIMII数据集解决了工业机器故障检测中的关键学术问题,尤其是在无监督学习场景下的异常声音检测。传统方法依赖于专家经验,而该数据集通过提供大量真实工厂环境中的声音样本,使得基于机器学习的自动化检测成为可能。它不仅填补了工业机器声音数据集的空白,还为研究人员提供了基准测试平台,推动了无监督异常检测算法的发展。
实际应用
在实际应用中,MIMII数据集被广泛用于工业设备的预测性维护。通过分析机器运行时的声音信号,企业可以提前发现潜在的故障,从而减少停机时间和维修成本。例如,在制造工厂中,该数据集可用于实时监控泵、风扇等关键设备的声音变化,及时检测泄漏、污染或机械不平衡等异常情况,确保生产线的稳定运行。
数据集最近研究
最新研究方向
在工业物联网(IoT)和智能制造领域,MIMII数据集为工业设备的异常声音检测提供了重要的研究基础。该数据集涵盖了阀门、泵、风扇和滑轨等四种工业设备在正常和异常状态下的声音数据,模拟了真实工厂环境中的复杂噪声条件。近年来,基于MIMII数据集的研究主要集中在无监督学习框架下的异常检测方法,特别是自编码器(Autoencoder)及其变体的应用。这些方法通过重构误差来识别异常声音,但由于工业设备声音的非平稳性和噪声干扰,检测精度仍有提升空间。此外,多通道声音信号处理和深度学习模型的结合也成为研究热点,旨在提高对复杂工业环境中异常声音的识别能力。MIMII数据集的发布不仅推动了工业设备健康监测技术的发展,还为跨领域研究提供了宝贵的数据资源,具有重要的学术和工业应用价值。
相关研究论文
  • 1
    MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection日立有限公司研究与开发集团 · 2019年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FinEval

FinEval数据集由上海财经大学创建,包含4661个高质量的多项选择题,覆盖金融、经济、会计和证书四大领域,共涉及34个不同的学术科目。数据主要来源于公开渠道的模拟考试题目,旨在评估大型语言模型在金融领域的知识和应用能力。该数据集适用于金融领域知识评估,特别是在中国语境下的应用,如金融虚拟助手和金融犯罪检测等。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录