Rare Event Classification in Multivariate Time Series
收藏arXiv2019-06-01 更新2024-07-25 收录
下载链接:
https://docs.google.com/forms/d/e/1FAIpQLSdyUk3lfDl7I5KYK_pw285LCApc-_RcoC0Tf9cnDnZ_TWzPAw/viewform
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为‘Rare Event Classification in Multivariate Time Series’,由ProcessMiner, Inc.创建,主要用于预测纸张生产中的罕见事件——纸张断裂。数据集包含18,398条记录,涵盖了61个预测变量和1个二元响应变量。数据来源于纸浆和纸张制造行业的多传感器实时监测,旨在通过机器学习模型提前预测并防止纸张断裂事件。创建过程中,数据经过中心化处理,确保了数据的质量和适用性。该数据集主要应用于工业生产优化,特别是纸张制造过程中的故障预测和维护策略优化。
This dataset is named *Rare Event Classification in Multivariate Time Series*, and was developed by ProcessMiner, Inc. It is primarily designed for predicting the rare event of paper breakage during paper production. The dataset consists of 18,398 records, including 61 predictor variables and 1 binary response variable. Derived from real-time multi-sensor monitoring data in the pulp and paper manufacturing industry, it aims to enable early prediction and prevention of paper breakage events through machine learning models. During its curation, the data was centered to ensure its quality and applicability. This dataset is primarily utilized for industrial production optimization, specifically fault prediction and maintenance strategy optimization in paper manufacturing processes.
提供机构:
ProcessMiner, Inc.
创建时间:
2018-09-28
搜集汇总
数据集介绍

构建方式
在制浆造纸工业的复杂生产环境中,多元时间序列数据的采集构成了该数据集构建的核心。数据集源自实际造纸机械的传感器网络,这些传感器沿机器长度与宽度方向布设,持续监测原材料投入与过程变量,如纸浆纤维量、化学物质浓度以及刀片类型、伏辊真空度、转子转速等工艺参数。数据记录以固定时间间隔进行,共包含18,398条记录,其中时间戳、二元响应变量y(标示纸张断裂事件)及61个预测变量(x1至x61)被系统整合。预测变量多为连续型,仅x61为二元变量、x28为分类变量,且所有变量均经过中心化处理,以保护数据匿名性。
使用方法
该数据集主要用于构建罕见事件的早期分类模型,旨在预测纸张断裂并识别潜在致因变量。使用前需进行数据预处理,包括处理类别变量x28的变化特征而非其静态值,以及应对类别不平衡问题,例如通过重采样技术构建集成模型。特征工程是关键步骤,可引入派生特征如变量的一阶与二阶导数、频率域特征(基于FFT)以及特征交互项,以提升模型判别力。建模时建议将数据划分为训练集与测试集(如9:1比例),并采用XGBoost、AdaBoost等集成方法进行训练,以F1分数为主要评估指标,兼顾精确率、召回率等度量。数据遵循非商业共享许可,使用时需引用相关论文,且不得用于商业目的。
背景与挑战
背景概述
在工业制造领域,多变量时间序列分析是监测与优化生产流程的关键技术。由ProcessMiner公司于2018年发布的《Rare Event Classification in Multivariate Time Series》数据集,聚焦于制浆造纸行业中的纸张断裂稀有事件预测。该数据集包含18,398条记录,涵盖61个传感器变量与二元事件标签,旨在构建早期分类模型以预警生产中断。其核心研究问题在于通过多变量时间序列的协同分析,实现故障的提前识别与成因追溯,为工业过程控制提供了珍贵的实证基础,推动了智能制造中预测性维护方法的发展。
当前挑战
该数据集面临的挑战主要体现在三个方面:其一,在领域问题层面,稀有事件分类任务因正负样本极度不平衡(断裂事件仅占0.67%),导致传统机器学习模型易出现精度与召回率的失衡;其二,早期预测要求模型在事件发生前捕捉瞬时性因果信号,但工业过程中故障触发往往具有突发性,时序关联性微弱;其三,数据构建过程中,多变量时间序列的高维度与噪声干扰增加了特征工程的复杂度,需通过导数变换、频域分析等方法提取关键特征,而类别变量动态变化的表征亦成为模型优化的瓶颈。
常用场景
经典使用场景
在工业制造领域,特别是纸浆与造纸行业,多变量时间序列数据的分析对于预测罕见事件至关重要。该数据集通过记录传感器读数与纸张断裂事件标签,为构建早期分类模型提供了基础。经典使用场景涉及利用机器学习算法,如XGBoost和AdaBoost,对时间序列数据进行特征工程,以提前预测纸张断裂,从而优化生产流程并减少停机损失。
解决学术问题
该数据集主要解决了多变量时间序列中罕见事件分类的学术挑战,包括数据不平衡、早期预测难度以及特征提取复杂性。通过引入特征衍生和重采样技术,它提升了分类模型的F1分数和精度,为工业过程监控提供了理论支持。其意义在于推动了时间序列分析领域的方法创新,促进了从数据探索到实际应用的转化。
实际应用
在实际应用中,该数据集被用于造纸厂的实时监控系统,通过预测纸张断裂事件,帮助操作人员提前干预,减少生产中断和成本浪费。它支持构建智能预警系统,结合传感器数据流,实现过程变量的动态调整,从而提升整体生产效率和设备可靠性,体现了工业物联网在制造业中的价值。
数据集最近研究
最新研究方向
在制浆造纸工业的多元时间序列分析领域,Rare Event Classification in Multivariate Time Series 数据集为罕见事件预测提供了关键基准。当前研究聚焦于早期分类与特征工程的深度融合,通过构建衍生特征如二阶导数来捕捉变量的突变模式,以应对事件发生的瞬时性挑战。前沿探索结合频率域分析,利用快速傅里叶变换提取频域特征,揭示事件发生前的频谱偏移规律。针对数据高度不平衡问题,集成学习方法通过重采样策略优化模型性能,提升F1分数与预测精度。这些进展不仅推动了工业过程监控的智能化,还为其他制造业的故障预防提供了可借鉴的框架,具有显著的工程应用价值。
相关研究论文
- 1Dataset: Rare Event Classification in Multivariate Time SeriesProcessMiner, Inc. · 2019年
以上内容由遇见数据集搜集并总结生成



