Secom-Dataset

github2021-03-15 更新2024-05-31 收录

下载链接：

https://github.com/LakshmiNakshatra/Predictive-Models-for-Equipment-Fault-Detection---Secom-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Secom数据集包含一个独特的罕见事件场景，其中输出类别高度不平衡。数据集由1567个观测值和590个变量（特征）组成，每个数据记录代表一个单一的生产实体及其相关的测量特征。secom_labels.data表示内部生产线测试的简单通过/失败产量和相关数据时间戳，其中-1对应通过，1对应失败，时间戳对应特定测试点。

The Secom dataset encompasses a distinctive scenario of rare events, characterized by a highly imbalanced distribution of output categories. Comprising 1567 observations and 590 variables (features), each data entry represents a singular production entity along with its associated measurement attributes. The secom_labels.data file delineates the straightforward pass/fail yield of internal production line tests, accompanied by relevant data timestamps, where -1 signifies a pass and 1 denotes a failure, with timestamps corresponding to specific test points.

创建时间：

2017-12-21

原始信息汇总

数据集概述

数据集名称

Predictive-Models-for-Equipment-Fault-Detection---Secom-Dataset

数据组成

secom.data: 包含1567个观测，590个变量（特征）。
secom_labels.data: 包含分类标签（通过/失败）和时间戳。

数据描述

secom.data: 每个数据记录代表一个生产实体，包含一系列测量的特征。
secom_labels.data: 通过/失败的简单产量分类，其中-1代表通过，1代表失败，时间戳对应特定测试点。

数据应用

应用多种机器学习模型进行拟合，分析模型性能，选择最优模型预测半导体制造过程的产量。

特殊情况

数据涉及罕见事件统计场景，特定响应变量类别的发生频率极低，因此在数据预处理阶段采用采样技术。

搜集汇总

数据集介绍

构建方式

Secom-Dataset的构建基于半导体制造过程中的实际生产数据，包含了1567个观测值和590个变量。每个数据记录代表一个生产实体，并附有相关的测量特征。数据集中的标签数据（secom_labels.data）则提供了每个生产实体的通过/失败分类以及对应的时间戳，其中-1表示通过，1表示失败。数据集的构建过程中，特别考虑了稀有事件统计场景，即响应变量的某一类别出现频率极低的情况，因此在数据预处理阶段采用了采样技术。

特点

Secom-Dataset的特点在于其高维度和稀有事件的统计特性。数据集中的590个变量涵盖了半导体制造过程中的多个测量特征，能够全面反映生产实体的状态。标签数据中的通过/失败分类为二分类问题，且失败类别的出现频率极低，这为机器学习模型的训练带来了挑战。时间戳的加入使得数据集能够支持时间序列分析，进一步扩展了其应用场景。

使用方法

Secom-Dataset的使用方法主要围绕半导体制造过程中的故障检测展开。用户可以通过加载secom.data和secom_labels.data文件，获取生产实体的测量特征和对应的分类标签。在数据预处理阶段，建议采用采样技术以应对稀有事件问题。随后，可以应用各种机器学习模型进行训练和性能分析，选择最优模型以预测半导体制造过程的良率。时间戳信息可用于时间序列分析，进一步提升模型的预测能力。

背景与挑战

背景概述

Secom-Dataset是一个专注于半导体制造过程中设备故障预测的数据集，由1567个观测样本和590个特征变量组成。该数据集由半导体制造领域的专家团队创建，旨在通过机器学习模型预测生产线的良率。数据集的核心研究问题在于如何通过分析生产过程中的特征变量，准确预测设备的故障情况，从而提高生产效率和产品质量。Secom-Dataset在半导体制造领域具有重要影响力，为设备故障检测和预防性维护提供了宝贵的数据支持。

当前挑战

Secom-Dataset面临的主要挑战包括其特有的稀有事件统计场景，即故障类别的发生频率极低，这导致模型训练过程中类别不平衡问题显著。此外，数据集中包含大量特征变量，如何有效选择和提取关键特征以提升模型性能，是另一个重要挑战。在数据预处理阶段，研究者需要采用特殊的采样技术来应对稀有事件问题，同时还需处理时间戳数据的复杂性，以确保模型的预测准确性和鲁棒性。

常用场景

经典使用场景

Secom-Dataset在半导体制造领域中被广泛用于设备故障检测和预测性维护。该数据集通过记录生产过程中的1567个观测值和590个特征变量，为研究人员提供了一个丰富的实验平台。通过分析这些数据，可以构建机器学习模型来预测生产线的良率，从而优化生产流程。

实际应用

在实际应用中，Secom-Dataset被用于半导体工厂的生产线监控和预测性维护。通过实时分析生产数据，工厂可以提前识别潜在的设备故障，从而减少停机时间和生产损失。这种基于数据的预测性维护策略不仅提高了生产效率，还显著降低了维护成本。

衍生相关工作

Secom-Dataset的发布催生了一系列关于设备故障检测和预测性维护的研究工作。许多学者基于该数据集开发了多种机器学习模型，如支持向量机、随机森林和深度学习网络，进一步推动了该领域的技术进步。这些衍生工作不仅在学术界产生了广泛影响，也为工业界的实际应用提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集