MIMII DG
收藏arXiv2022-11-22 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/6529888
下载链接
链接失效反馈资源简介:
MIMII DG数据集是由日立制作所研究开发集团创建,专注于工业机器异常声音检测的领域泛化任务。该数据集包含五种机器类型,每种机器类型对应三种领域转移场景,总计990条数据。数据集通过模拟不同参数值引起的领域转移和难以检测的背景噪音变化,旨在解决实际应用中难以预知的领域转移问题。创建过程中,研究人员通过损坏机器或错误操作机器来录制异常声音,并使用TAMAGO-03麦克风进行录音。该数据集适用于评估和改进异常声音检测系统在未知领域转移条件下的性能。
MIMII DG Dataset was created by the Research and Development Group of Hitachi, Ltd., focusing on domain generalization tasks for industrial machine abnormal sound detection. The dataset covers five types of industrial machines, with three domain shift scenarios corresponding to each machine type, totaling 990 data samples. It simulates domain shifts caused by different parameter values and hard-to-detect background noise variations, aiming to address the issue of unpredictable domain shifts in real-world applications. During the dataset construction, researchers recorded abnormal sounds by damaging machines or operating them incorrectly, using the TAMAGO-03 microphone for audio capture. This dataset is suitable for evaluating and improving the performance of abnormal sound detection systems under unknown domain shift conditions.
提供机构:
日立制作所研究开发集团
创建时间:
2022-05-27
AI搜集汇总
数据集介绍

构建方式
MIMII DG数据集的构建旨在模拟工业机器在发生故障时产生的声音,并测试域泛化技术在异常声音检测(ASD)中的性能。该数据集由五种不同类型的机器(风扇、变速箱、轴承、滑轨和阀门)的声音数据组成,每种机器类型包含三个部分,每个部分对应一种域转移场景。数据集包含源域数据和目标域数据,用于泛化模型和评估域泛化性能。源域具有至少两组导致域转移的不同值,以泛化模型。此外,还引入了难以检测的域转移,例如背景噪声中的变化。
特点
MIMII DG数据集的特点在于其包含多种工业机器的异常和正常操作声音,以及多种域转移场景。数据集的设计考虑到了域泛化技术的需求,如增加域转移参数的取值数量,引入难以检测的域转移,以及使域转移参数易于访问和利用。这些特点使得MIMII DG数据集成为测试和评估域泛化技术在ASD中的性能的理想选择。
使用方法
MIMII DG数据集的使用方法包括以下步骤:首先,根据需要选择合适的机器类型和域转移场景。其次,使用源域数据训练模型,并使用目标域数据评估模型的域泛化性能。可以使用两种基线系统(基于自动编码器和MobileNetV2的系统)进行测试,并使用AUC作为评价指标。通过分析测试结果,可以评估模型的域泛化能力,并进一步优化模型设计。
背景与挑战
背景概述
在工业生产环境中,异常声音检测系统(ASD)被广泛应用于自动识别机器发出的异常声音,以实现无需接触的机器内部异常检查。随着ASD系统在现实世界中的应用日益广泛,研究者们主要面临两大挑战:一是实际案例中异常样本数量有限,且提供的异常样本可能无法涵盖所有可能的异常类型,因此,无监督异常检测方法常被采用,以便系统能够仅通过正常样本进行训练来检测异常。二是由于正常声音分布的变化(即领域偏移),系统的检测性能会下降。领域偏移对于ASD任务可以分为两类:由机器状态变化引起的操作领域偏移和由背景噪声或录音环境变化引起的环境领域偏移。为了应对这些挑战,研究者们开发了MIMII DG数据集,这是一个用于异常声音检测领域泛化技术基准的机器声音数据集。
当前挑战
MIMII DG数据集面临的主要挑战包括:1)领域偏移的处理。由于数据分布的差异,领域偏移可能会降低检测性能,而处理这些偏移是ASD系统应用中的主要问题。目前,现有的ASD数据集假设领域偏移的发生是已知的,但在实际应用中,这些偏移可能难以检测。为了处理这些领域偏移,需要研究无论在哪个领域都能表现良好的领域泛化技术。2)数据集构建过程中的挑战。为了实现领域泛化,数据集需要包含多个不同参数值引起的领域偏移,并引入难以检测的领域偏移,如背景噪声的变化。这要求数据集在构建过程中必须精心设计,以确保包含足够多样的领域偏移场景,以供领域泛化技术研究。
常用场景
经典使用场景
MIMII DG 数据集专为异常声音检测(ASD)的领域泛化技术而设计。在工业环境中,ASD 系统是自动检测机器异常声音的检查系统。MIMII DG 数据集包含五种机器类型,每种类型都有三种领域转换场景,涵盖了操作领域转换和环境领域转换。数据集通过引入多种不同的参数值来模拟领域转换,并包含了难以检测的领域转换,例如背景噪音的变化。这些特点使得 MIMII DG 成为评估领域泛化技术在 ASD 任务中的性能的理想选择。
解决学术问题
MIMII DG 数据集旨在解决领域转换问题,这是 ASD 系统在实际应用中面临的主要挑战之一。领域转换是指正常声音分布的变化,这会降低系统的检测性能。MIMII DG 通过提供多种领域转换场景,包括操作领域转换和环境领域转换,帮助研究人员评估和改进领域泛化技术在 ASD 任务中的性能。此外,MIMII DG 还包含难以检测的领域转换,例如背景噪音的变化,这有助于研究人员开发能够处理难以检测的领域转换的领域泛化技术。
衍生相关工作
MIMII DG 数据集的发布推动了领域泛化技术在 ASD 任务中的研究进展。基于 MIMII DG 数据集,研究人员可以开发新的领域泛化算法和模型,并评估它们在 ASD 任务中的性能。此外,MIMII DG 还可以作为其他领域泛化数据集的参考,帮助研究人员更好地理解领域泛化技术在 ASD 任务中的挑战和机遇。
以上内容由AI搜集并总结生成



