Secom-Dataset
收藏github2021-03-15 更新2024-05-31 收录
下载链接:
https://github.com/LakshmiNakshatra/Predictive-Models-for-Equipment-Fault-Detection---Secom-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Secom数据集包含一个独特的罕见事件场景,其中输出类别高度不平衡。数据集由1567个观测值和590个变量(特征)组成,每个数据记录代表一个单一的生产实体及其相关的测量特征。secom_labels.data表示内部生产线测试的简单通过/失败产量和相关数据时间戳,其中-1对应通过,1对应失败,时间戳对应特定测试点。
The Secom dataset encompasses a distinctive scenario of rare events, characterized by a highly imbalanced distribution of output categories. Comprising 1567 observations and 590 variables (features), each data entry represents a singular production entity along with its associated measurement attributes. The secom_labels.data file delineates the straightforward pass/fail yield of internal production line tests, accompanied by relevant data timestamps, where -1 signifies a pass and 1 denotes a failure, with timestamps corresponding to specific test points.
创建时间:
2017-12-21
原始信息汇总
数据集概述
数据集名称
Predictive-Models-for-Equipment-Fault-Detection---Secom-Dataset
数据组成
- secom.data: 包含1567个观测,590个变量(特征)。
- secom_labels.data: 包含分类标签(通过/失败)和时间戳。
数据描述
- secom.data: 每个数据记录代表一个生产实体,包含一系列测量的特征。
- secom_labels.data: 通过/失败的简单产量分类,其中-1代表通过,1代表失败,时间戳对应特定测试点。
数据应用
- 应用多种机器学习模型进行拟合,分析模型性能,选择最优模型预测半导体制造过程的产量。
特殊情况
- 数据涉及罕见事件统计场景,特定响应变量类别的发生频率极低,因此在数据预处理阶段采用采样技术。
搜集汇总
数据集介绍

构建方式
Secom-Dataset的构建基于半导体制造过程中的实际生产数据,包含了1567个观测值和590个变量。每个数据记录代表一个生产实体,并附有相关的测量特征。数据集中的标签数据(secom_labels.data)则提供了每个生产实体的通过/失败分类以及对应的时间戳,其中-1表示通过,1表示失败。数据集的构建过程中,特别考虑了稀有事件统计场景,即响应变量的某一类别出现频率极低的情况,因此在数据预处理阶段采用了采样技术。
特点
Secom-Dataset的特点在于其高维度和稀有事件的统计特性。数据集中的590个变量涵盖了半导体制造过程中的多个测量特征,能够全面反映生产实体的状态。标签数据中的通过/失败分类为二分类问题,且失败类别的出现频率极低,这为机器学习模型的训练带来了挑战。时间戳的加入使得数据集能够支持时间序列分析,进一步扩展了其应用场景。
使用方法
Secom-Dataset的使用方法主要围绕半导体制造过程中的故障检测展开。用户可以通过加载secom.data和secom_labels.data文件,获取生产实体的测量特征和对应的分类标签。在数据预处理阶段,建议采用采样技术以应对稀有事件问题。随后,可以应用各种机器学习模型进行训练和性能分析,选择最优模型以预测半导体制造过程的良率。时间戳信息可用于时间序列分析,进一步提升模型的预测能力。
背景与挑战
背景概述
Secom-Dataset是一个专注于半导体制造过程中设备故障预测的数据集,由1567个观测样本和590个特征变量组成。该数据集由半导体制造领域的专家团队创建,旨在通过机器学习模型预测生产线的良率。数据集的核心研究问题在于如何通过分析生产过程中的特征变量,准确预测设备的故障情况,从而提高生产效率和产品质量。Secom-Dataset在半导体制造领域具有重要影响力,为设备故障检测和预防性维护提供了宝贵的数据支持。
当前挑战
Secom-Dataset面临的主要挑战包括其特有的稀有事件统计场景,即故障类别的发生频率极低,这导致模型训练过程中类别不平衡问题显著。此外,数据集中包含大量特征变量,如何有效选择和提取关键特征以提升模型性能,是另一个重要挑战。在数据预处理阶段,研究者需要采用特殊的采样技术来应对稀有事件问题,同时还需处理时间戳数据的复杂性,以确保模型的预测准确性和鲁棒性。
常用场景
经典使用场景
Secom-Dataset在半导体制造领域中被广泛用于设备故障检测和预测性维护。该数据集通过记录生产过程中的1567个观测值和590个特征变量,为研究人员提供了一个丰富的实验平台。通过分析这些数据,可以构建机器学习模型来预测生产线的良率,从而优化生产流程。
实际应用
在实际应用中,Secom-Dataset被用于半导体工厂的生产线监控和预测性维护。通过实时分析生产数据,工厂可以提前识别潜在的设备故障,从而减少停机时间和生产损失。这种基于数据的预测性维护策略不仅提高了生产效率,还显著降低了维护成本。
衍生相关工作
Secom-Dataset的发布催生了一系列关于设备故障检测和预测性维护的研究工作。许多学者基于该数据集开发了多种机器学习模型,如支持向量机、随机森林和深度学习网络,进一步推动了该领域的技术进步。这些衍生工作不仅在学术界产生了广泛影响,也为工业界的实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成



