ToyADMOS dataset
收藏github2019-09-27 更新2024-05-31 收录
下载链接:
https://github.com/stmsy/ToyADMOS-dataset
下载链接
链接失效反馈官方服务:
资源简介:
ToyADMOS数据集是一个机器操作声音数据集,包含约540小时的正常机器操作声音和超过12,000个异常声音样本,由NTT媒体智能实验室的Yuma Koizumi及其团队使用四个麦克风以48kHz采样率收集。该数据集专为机器操作声音的异常检测(ADMOS)研究设计,通过故意损坏微型机器的组件来收集正常和异常的操作声音。它适用于ADMOS的三个任务:产品检验(玩具车)、固定机器的故障诊断(玩具输送带)和移动机器的故障诊断(玩具火车)。
The ToyADMOS dataset is a machine operation sound dataset, comprising approximately 540 hours of normal machine operation sounds and over 12,000 anomalous sound samples. It was collected by Yuma Koizumi and his team at the NTT Media Intelligence Laboratories using four microphones at a sampling rate of 48 kHz. Specifically designed for research in Anomaly Detection in Machine Operation Sounds (ADMOS), this dataset captures both normal and abnormal operation sounds by intentionally damaging components of miniature machines. It is suitable for three ADMOS tasks: product inspection (toy cars), fault diagnosis in stationary machines (toy conveyor belts), and fault diagnosis in mobile machines (toy trains).
创建时间:
2019-09-11
原始信息汇总
ToyADMOS 数据集概述
数据集描述
- 类型: 机器操作声音数据集
- 时长: 约540小时正常机器操作声音,超过12,000个异常声音样本
- 采样率: 48kHz
- 麦克风数量: 4个
- 目的: 用于机器操作声音异常检测(ADMOS)研究
- 应用场景:
- 产品检查(玩具车)
- 固定机器故障诊断(玩具输送带)
- 移动机器故障诊断(玩具火车)
数据集组成
- 数据收集方式: 通过故意损坏微型机器组件收集正常和异常操作声音
- 数据大小: 压缩后约180GB,每个子数据集约60GB
- 文件格式: 7z格式,分为7-9个文件
使用示例
- Python代码: 提供数据生成、训练和测试的Python代码示例
- 环境要求:
- Python: 3.6.8
- Chainer: 4.5.0
- NumPy: 1.16.2
- CuPy:
- 版本: 4.1.0
- CUDA构建版本: 9000
- CUDA驱动版本: 10000
- CUDA运行时版本: 9000
- cuDNN构建版本: 7104
- cuDNN版本: 7600
数据集下载
引用信息
- 论文: Yuma Koizumi, Shoichiro Saito, Noboru Harada, Hisashi Uematsu and Keisuke Imoto, "ToyADMOS: A Dataset of Miniature-Machine Operating Sounds for Anomalous Sound Detection," in Proc of Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2019.
- 论文URL: https://arxiv.org/abs/1908.03299
版权信息
- 许可证: 参见名为LICENSE.pdf的文件
搜集汇总
数据集介绍

构建方式
ToyADMOS数据集由NTT Media Intelligence Laboratories的Yuma Koizumi及其团队精心构建,旨在为机器操作声音异常检测(ADMOS)研究提供丰富的数据支持。该数据集通过四麦克风系统以48kHz的采样率收集了约540小时的正常机器操作声音和超过12,000个异常声音样本。构建过程中,研究团队特意损坏微型机器的组件,以获取异常操作声音,从而确保数据集在产品检测(玩具车)、固定机器故障诊断(玩具传送带)和移动机器故障诊断(玩具火车)三个ADMOS任务中的实用性。
特点
ToyADMOS数据集以其大规模和多样性著称,涵盖了广泛的操作声音和异常声音,适用于多种机器类型的异常检测研究。其特点在于数据的精细分类和高质量录音,确保了研究结果的可靠性和准确性。此外,数据集的构建过程中考虑了实际应用场景,使得研究成果能够直接应用于工业环境中的机器健康监测和故障诊断。
使用方法
使用ToyADMOS数据集进行研究时,用户可从Zenodo平台下载数据集,并根据需要解压缩相应的子数据集文件。数据集提供了详细的Python代码示例,涵盖数据生成、模型训练和测试等环节,帮助用户快速上手。用户需根据自身环境调整代码中的路径设置,并确保使用兼容的Python和Chainer版本进行开发。通过这些步骤,用户可以有效地利用ToyADMOS数据集进行机器操作声音异常检测的研究和应用。
背景与挑战
背景概述
在机器操作声音异常检测(ADMOS)领域,ToyADMOS数据集的创建标志着对微型机器异常声音检测研究的重要进展。该数据集由NTT Media Intelligence Laboratories的Yuma Koizumi及其团队于2019年开发,旨在为产品检测(玩具车)、固定机器故障诊断(玩具传送带)和移动机器故障诊断(玩具火车)提供丰富的声音数据。通过故意损坏微型机器组件,研究人员收集了约540小时的正常操作声音和超过12,000个异常声音样本,这些数据通过四个麦克风以48kHz的采样率记录。ToyADMOS数据集的发布,不仅为ADMOS研究提供了宝贵的资源,也为机器声音分析技术的进步奠定了基础。
当前挑战
尽管ToyADMOS数据集在ADMOS研究中具有重要价值,但其构建和应用过程中仍面临诸多挑战。首先,数据集的庞大规模(超过440GB)和复杂结构(分为多个7-zip压缩文件)增加了数据处理和存储的难度。其次,异常声音样本的收集依赖于人为损坏机器,这可能导致样本的多样性和代表性受限。此外,数据集的应用需要高性能计算环境的支持,如特定的Python版本和深度学习框架,这对研究者的技术能力和计算资源提出了较高要求。最后,数据集的广泛应用还需解决跨平台兼容性和数据隐私保护等问题,以确保其在不同研究环境中的有效性和安全性。
常用场景
经典使用场景
ToyADMOS数据集在机器操作声音异常检测(ADMOS)研究中具有经典应用。该数据集通过收集约540小时的正常机器操作声音和超过12,000个异常声音样本,为产品检测(如玩具车)、固定机器故障诊断(如玩具传送带)以及移动机器故障诊断(如玩具火车)提供了丰富的数据支持。研究者可以利用这些数据训练和测试异常检测模型,从而在实际应用中实现对机器运行状态的实时监控和故障预警。
解决学术问题
ToyADMOS数据集解决了机器操作声音异常检测领域中的关键学术问题。通过提供大规模的正常和异常声音样本,该数据集为研究者提供了丰富的实验数据,有助于深入探索和验证各种异常检测算法。这不仅推动了ADMOS研究的发展,还为相关领域的算法优化和模型改进提供了坚实的基础。其意义在于,通过模拟真实环境中的机器操作声音,为学术界提供了一个标准化的测试平台,促进了新方法的开发和评估。
衍生相关工作
基于ToyADMOS数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集开发了基于深度学习的异常检测模型,显著提高了检测的准确性和效率。此外,还有学者通过对比不同算法的性能,提出了新的优化策略,进一步推动了ADMOS领域的发展。这些衍生工作不仅丰富了数据集的应用场景,还为后续研究提供了宝贵的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



