SCANIA Component X Dataset

Name: SCANIA Component X Dataset
Creator: 斯德哥尔摩大学
Published: 2024-01-27 04:51:55
License: 暂无描述

arXiv2024-01-27 更新2024-06-21 收录

下载链接：

https://ida2024.org/industrial-challenge/

下载链接

链接失效反馈

官方服务：

资源简介：

SCANIA Component X Dataset是由瑞典SCANIA公司创建的一个真实世界多变量时间序列数据集，专注于预测性维护。该数据集包含从匿名引擎组件（称为Component X）收集的详细操作数据、维修记录和卡车规格，适用于多种机器学习应用，如分类、回归、生存分析和异常检测。数据集的创建涉及从卡车传感器收集操作数据、从车间获取维修记录以及收集卡车规格信息。此数据集特别适用于预测性维护领域，旨在通过数据分析和机器学习预测车辆组件的故障，从而实现及时维护和成本优化。

The SCANIA Component X Dataset is a real-world multivariate time series dataset developed by Swedish SCANIA for predictive maintenance purposes. It comprises detailed operational data, maintenance records and truck specifications collected from anonymized engine components (referred to as Component X), and supports a diverse array of machine learning applications including classification, regression, survival analysis and anomaly detection. The dataset's development entails collecting operational data via truck sensors, acquiring maintenance records from service workshops and compiling truck specification information. This resource is particularly well-suited for the predictive maintenance domain, with the goal of forecasting vehicle component failures through data analysis and machine learning to facilitate timely maintenance and cost optimization.

提供机构：

斯德哥尔摩大学

创建时间：

2024-01-27

搜集汇总

数据集介绍

构建方式

SCANIA Component X Dataset 乃是一项源自瑞典 SCANIA 卡车车队真实世界多元时间序列数据集，旨在推动预测性维护领域的进步。该数据集涵盖卡车发动机组件的运行数据、维修记录和规格参数，通过匿名化处理确保数据隐私。构建过程中，数据科学家、工程师和领域专家紧密合作，克服了数据收集过程中的诸多挑战，如设备断连、数据丢失、维修记录不完整等问题。数据集的发布为研究人员提供了与国际知名企业合作的机会，并引入了预测性维护领域的标准基准，促进了可复现研究的开展。

特点

SCANIA Component X Dataset 的独特之处在于其丰富的特征和时间序列数据。数据集包含大量卡车发动机组件的运行数据，以直方图和数值计数器的形式呈现，并包含时间信息，使其在预测性维护任务中具有广泛的应用潜力。此外，数据集还包含了卡车规格参数和维修记录，为决策者提供了维护策略、资源分配和车队管理方面的有力支持。数据集经过精心筛选，确保了数据的完整性和可用性，为机器学习模型的开发提供了宝贵资源。

使用方法

SCANIA Component X Dataset 提供了训练集、验证集和测试集，分别包含不同的数据文件。训练集包含运行数据、时间到事件数据和规格参数数据，可用于模型训练和评估。验证集模拟了现实场景下的数据收集情况，其中运行数据不完整，仅包含部分观测数据，可用于模型验证。测试集不包含故障时间或标签信息，旨在预测组件的剩余使用寿命或故障时间。研究人员可以利用该数据集进行回归、异常检测、生存分析和分类等任务，以推动预测性维护领域的研究和发展。

背景与挑战

背景概述

在汽车工业中，预测性维护（PdM）技术正在经历一场革命。PdM 利用高级分析、传感器技术和机器学习预测车辆组件何时可能失效，以便及时进行成本效益高的维护干预。然而，缺乏公开的真实世界数据集一直是 PdM 领域的主要挑战。Scania 公司发布的 Scania Component X Dataset 是一个例外，它为研究人员提供了来自国际知名公司的真实世界数据，并引入了一个标准基准，促进了可重复的研究。该数据集由 Scania CV 公司和瑞典斯德哥尔摩大学的研究人员合作创建，收集了来自瑞典卡车队匿名发动机组件（称为组件 X）的多元时间序列数据，包括详细的操作数据、维修记录和卡车规格。数据集的创建旨在为研究人员提供使用真实世界数据的机会，并促进 PdM 领域的发展。该数据集的独特之处在于它考虑了时间信息，并以时间序列读数的形式展示了设备的逐渐退化。数据集的发布对于开发能够预测实际工业设备故障的鲁棒模型至关重要，因为它提供了真实世界数据的复杂性，包括不平衡的标签、截断的读数、噪声和信号之间的复杂关系。

当前挑战

Scania Component X Dataset 面临着一些挑战。首先，数据集的构建过程中遇到了数据收集的挑战，包括与收集数据的设备断开连接、数据计数器重置以及从维修记录中获取完整服务历史记录的限制。其次，数据集中存在不平衡的标签，即大量健康组件和少量故障组件，这可能导致模型对健康组件的预测过于准确而对故障组件的预测不够准确。此外，数据集中存在缺失值，需要进行缺失值处理。最后，数据集的隐私保护是一个挑战，需要对数据进行匿名化处理以保护隐私和商业机密。

常用场景

经典使用场景

在车辆预测性维护领域，SCANKA Component X 数据集扮演着至关重要的角色。该数据集提供了来自瑞典斯堪尼亚卡车车队的一个匿名发动机组件（称为组件X）的多元时间序列数据，包括详细的操作数据、维修记录和卡车规格。这些数据对于机器学习应用，如分类、回归、生存分析和异常检测特别适用，尤其是在预测性维护场景中。数据集的多样性和规模，以及包括时间信息的特性，使其成为该领域独一无二的资源。

解决学术问题

SCANKA Component X 数据集解决了预测性维护领域缺乏公开现实世界数据集的挑战。原始设备制造商（OEM）通常保留数据，不与公司外部人员共享。这种做法限制了研究人员开发能够预测实际行业设备故障的稳健模型的能力。SCANKA 数据集的发布为研究人员提供了使用来自国际知名公司现实世界数据的机会，并引入了预测性维护领域的标准基准，促进了可重复的研究。

衍生相关工作

SCANKA Component X 数据集衍生了与预测性维护相关的一系列经典工作。例如，研究人员使用该数据集开发低维合成数据生成方法，以改进数据驱动预测模型。其他研究使用该数据集进行异常检测、故障预测和分类。这些工作展示了 SCANKA 数据集在推动预测性维护领域研究和创新方面的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集