Predictive Maintenance Dataset

github2024-09-28 更新2024-10-17 收录

下载链接：

https://github.com/jaysri125278/Predictive-Maintenance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自工业机器的传感器读数和操作参数，目标是预测故障类型。数据集包含10,000个数据点，每个数据点有14个特征，包括空气温度、过程温度、转速、扭矩、工具磨损等，以及一个目标变量，指示机器是否在此特定数据点发生故障。

This dataset comprises sensor readings and operational parameters from industrial machinery, with the core objective of predicting fault types. It includes 10,000 data points, each containing 14 features such as air temperature, process temperature, rotational speed, torque, tool wear and other relevant metrics, alongside a target variable indicating whether a machine fault occurred for that specific data point.

创建时间：

2024-09-23

原始信息汇总

数据集概述

数据集描述

名称: Predictive Maintenance for Manufacturing Equipment
目标: 预测工业制造设备故障类型
数据来源: 工业机械的传感器读数和操作参数
数据点数量: 10,000
特征数量: 14

特征说明

UID: 唯一标识符，范围从1到10,000
productID: 产品标识，包含字母L、M或H，分别表示低、中、高产品品质变体，以及变体特定的序列号
air temperature [K]: 空气温度，使用随机游走过程生成，标准差为2 K，均值为300 K
process temperature [K]: 加工温度，使用随机游走过程生成，标准差为1 K，加上空气温度再加10 K
rotational speed [rpm]: 转速，从2860 W的功率计算得出，叠加正态分布噪声
torque [Nm]: 扭矩，正态分布，均值为40 Nm，标准差为10 Nm，无负值
tool wear [min]: 工具磨损时间，品质变体H/M/L分别增加5/3/2分钟的工具磨损
Target: 故障或非故障，故障类型：故障类型（有两个目标，不要将其视为特征）

技术栈

编程语言: Python
数据库: MongoDB
工具: Jupyter Notebook

使用的Python库

Pandas & NumPy: 数据操作和数值计算
Matplotlib & Seaborn: 数据可视化
Scikit-learn: 预处理、模型训练和评估
XGBoost: 高性能分类器
Imbalanced-learn (SMOTENC): 处理不平衡数据
PyMongo: MongoDB集成
Pickle: 保存/加载模型
Isolation Forest: 异常检测

模型与算法

Random Forest Classifier: 用于分类任务的稳健模型
XGBoost: 优化的梯度提升算法
Multilayer Perceptron (MLP): 用于复杂模式识别的深度学习模型
KMeans Clustering: 用于无监督学习和聚类分析

评估指标

Accuracy: 准确率
ROC-AUC Score: ROC-AUC评分
F1 Score: F1评分
Confusion Matrix: 混淆矩阵
Silhouette Score: 用于聚类评估的轮廓评分

搜集汇总

数据集介绍

构建方式

在制造业的背景下，预测性维护数据集的构建旨在通过分析工业设备的传感器读数和操作参数，实现对设备故障类型的预测。该数据集包含10,000个数据点，每个数据点代表设备在特定时刻的状态快照。数据集的特征包括设备的唯一标识符、产品ID、空气温度、过程温度、旋转速度、扭矩、工具磨损等，以及一个指示设备是否发生故障的目标标签。这些数据通过随机游走过程和正态分布噪声生成，确保了数据的多样性和真实性。

特点

预测性维护数据集的显著特点在于其丰富的特征集和多样的故障类型分类。数据集不仅涵盖了设备的物理参数，如温度和速度，还包括了操作过程中的关键变量，如工具磨损和扭矩。此外，数据集通过引入不同质量等级的产品ID，增加了数据的复杂性和实际应用的广泛性。目标标签的设置使得数据集适用于多种机器学习任务，特别是分类和异常检测。

使用方法

使用预测性维护数据集时，首先需克隆GitHub仓库并安装所需的依赖库。接着，配置MongoDB数据库以存储和管理数据。数据集的预处理阶段包括数据清洗、特征选择和标准化，以确保数据质量。随后，可采用多种机器学习模型，如随机森林、XGBoost和多层感知器，进行模型训练和评估。通过SMOTENC处理数据不平衡问题，并使用PCA进行降维，以提升模型性能。最终，通过评估指标如准确率、ROC-AUC分数和F1分数，对模型效果进行全面评估。

背景与挑战

背景概述

预测性维护数据集（Predictive Maintenance Dataset）聚焦于工业制造设备的故障预测，由Jaysri Saravanan主导开发。该数据集旨在通过分析传感器读数和机器运行数据，提前预测设备故障类型，从而优化维护计划，减少停机时间，降低成本，并防止重大故障。数据集包含从工业机械设备中记录的传感器读数和操作参数，每条记录代表设备在某一时刻的状态。目标是通过分类识别不同类型的潜在故障。该数据集的开发对于提升工业设备的运行效率和可靠性具有重要意义，特别是在智能制造和工业4.0的背景下，预测性维护技术被视为关键技术之一。

当前挑战

预测性维护数据集在构建和应用过程中面临多项挑战。首先，数据集中的故障类型分布不均，导致模型训练时面临类别不平衡问题，需采用SMOTENC等技术进行合成过采样。其次，传感器数据的高维性和噪声特性增加了数据预处理的复杂性，需要通过PCA等方法进行降维和特征提取。此外，工业环境的动态变化和设备状态的多样性使得模型需要具备较强的泛化能力和鲁棒性。最后，实时数据处理和模型更新要求高效的算法和计算资源支持，以确保预测的准确性和及时性。

常用场景

经典使用场景

在制造业中，预测性维护数据集的经典应用场景主要集中在通过分析传感器数据和机器运行参数来预测设备故障。该数据集通过收集工业机械在运行过程中的传感器读数和操作参数，为每台设备提供了一个时间序列的快照。通过这些数据，研究人员和工程师可以训练机器学习模型，以识别潜在的故障模式，从而实现故障的提前预测和预防性维护。这种应用不仅有助于减少设备停机时间，还能显著降低维护成本，提高生产效率。

衍生相关工作

预测性维护数据集的发布催生了一系列相关研究和工作。例如，研究人员利用该数据集开发了多种先进的机器学习模型，如随机森林、XGBoost和多层感知器，以提高故障预测的准确性。此外，该数据集还促进了异常检测算法的发展，如隔离森林（Isolation Forest），用于识别设备运行中的异常行为。在工业界，基于该数据集的解决方案已被应用于多个领域，推动了智能制造和工业4.0的发展。

数据集最近研究