five

欧洲散裂中子源工业子系统数据集

收藏
arXiv2023-10-28 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2310.18654v1
下载链接
链接失效反馈
官方服务:
资源简介:
欧洲散裂中子源工业子系统数据集是由瑞典隆德大学的自动控制部门和欧洲散裂中子源的专家基于其对复杂工业系统的深入理解共同创建的。该数据集包含233个时间序列数据,涵盖了温度、压力和流量等多种测量值,这些数据是从欧洲散裂中子源的一个工业子系统中收集的。数据集的创建过程中,专家们利用他们的专业知识构建了一个因果图,为因果发现提供了一个基准。此数据集主要用于因果发现方法的开发和测试,特别是在时间序列数据的因果结构分析中。

The European Spallation Source (ESS) Industrial Subsystem Dataset was co-developed by the Department of Automatic Control at Lund University in Sweden and experts from the European Spallation Source, based on their in-depth understanding of complex industrial systems. This dataset contains 233 time series covering various measured quantities including temperature, pressure, and flow rate, which were collected from an industrial subsystem of the European Spallation Source. During the dataset's construction, the experts utilized their professional knowledge to build a causal graph, providing a benchmark for causal discovery. This dataset is mainly used for the development and testing of causal discovery methods, particularly in causal structure analysis of time series data.
提供机构:
隆德大学,瑞典
创建时间:
2023-10-28
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自欧洲散裂中子源(ESS)的加速器低温制冷系统(ACCP),这是一个用于冷却线性加速器腔体的工业制冷系统。数据采集自系统运行中的三个独立时间段,每段内操作参数保持恒定,而不同时间段间参数则有所变化。系统状态通过233个过程变量(PV)来描述,涵盖温度、压力和流量等关键测量指标。数据以原始形式提供,未经清洗,保留了传感器可能存在的噪声、跳变或冻结等真实工况特征。每个PV的测量时间戳不规则,采样频率高达约14赫兹,体现了工业系统实时监测的复杂性。此外,由系统专家基于深厚领域知识构建了一个包含35个子系统的因果图作为基准真相,图中每条边标注了强弱连接关系,为因果发现提供了可靠的参考标准。
特点
该数据集的核心特点在于其真实性与复杂性。它源自实际运行的工业系统,而非合成模拟,因此避免了人工数据可能引入的伪影。数据具有多层次结构,从底层的过程变量到高层的子系统划分,便于进行不同粒度的因果分析。时间序列呈现非均匀采样、循环依赖、多时间尺度行为以及部分子系统未观测等挑战,这些正是现实世界因果推断中常见的难题。尤为珍贵的是,数据集附带了一个由专家精心构建的因果图,明确了子系统间的因果连接强弱,为算法评估提供了可信的基准。三个不同操作环境下采集的数据段,还隐含了干预性变化,可用于检验算法对分布偏移的鲁棒性。
使用方法
使用该数据集时,研究者可将其作为因果发现方法的测试平台。最直接的应用是将算法输出的因果结构与提供的基准因果图进行比较,通过计算结构相似度等指标来评估性能。由于数据包含多个时间段,可探索在不同操作环境下算法的一致性表现。研究者还可利用数据的分层特性进行部分观测实验,例如仅选取部分子系统作为观测变量,检验算法处理隐变量问题的能力。非均匀采样特性允许测试不同的重采样或聚合策略对结果的影响。此外,数据中的噪声和异常值可用于评估数据预处理步骤的必要性和效果。配套提供的R代码可辅助数据加载和基础分析,便于快速开展实验。
背景与挑战
背景概述
在复杂工业系统的因果推断研究中,时间序列数据的因果发现是一个关键而富有挑战的课题。欧洲散裂中子源(ESS)作为一座位于瑞典隆德的大型中子研究设施,其工业子系统——加速器低温装置(ACCP)——为这一领域提供了独特的基准数据集。该数据集由隆德大学控制系的Søren Wengel Mogensen与ESS的Karin Rathsman、Per Nilsson于2023年创建,核心研究问题在于从多变量时间序列中恢复已知的因果结构,以验证和推动因果发现方法的发展。数据集包含来自35个子系统的233个过程变量,跨越三个不同运行时段,并附有由系统专家构建的因果图作为真值。这一资源弥补了真实世界因果发现基准的匮乏,对复杂工程系统、地球科学及经济学等领域的方法评估具有重要影响力。
当前挑战
该数据集面临多重挑战。首先,所解决的领域问题在于时间序列因果发现中的部分观测性:ACCP系统无法被完全观测,部分子系统(如热屏蔽和氦供应)仅能获取有限数据,导致因果图存在未观测节点,增加了结构学习的模糊性。其次,数据采集过程引入了不规则采样频率(约14赫兹)和传感器噪声,包括数值冻结、突变等异常,要求算法具备鲁棒性。此外,系统存在循环依赖(如冷却剂循环)和多时间尺度特性,不同子系统的动力学速率差异显著,挑战了传统因果发现方法对非周期性和异质性时间过程的建模能力。最后,层级结构(过程变量嵌套于子系统)要求算法在细粒度观测与粗粒度因果图之间建立一致映射,构成了从高维数据中提炼简洁因果关系的核心难点。
常用场景
经典使用场景
欧洲散裂中子源工业子系统数据集源于一座尖端中子源设施的加速器低温制冷系统,其运行涉及复杂的流体循环与多级热力学过程。该数据集最经典的使用场景是作为时间序列因果发现的基准测试平台,研究者可利用其提供的真实工业系统观测数据与专家构建的因果图,验证和比较各类因果发现算法在复杂动态系统中的表现。数据涵盖多个运行时段、大量过程变量以及不规则的采样频率,为评估算法在真实噪声、部分观测和循环依赖等挑战下的鲁棒性提供了理想实验场。
解决学术问题
该数据集解决了因果发现领域长期面临的核心难题:缺乏带有已知真实因果图的真实世界时间序列基准数据。此前,研究者多依赖合成数据,但可能引入人为伪影导致方法评估失真。该数据集通过提供来自工程系统的完整因果图,使学术研究能够客观评估约束型、评分型及基于格兰杰因果的算法在复杂工业环境中的准确性。它推动了因果结构学习理论从模拟验证迈向真实场景检验,显著提升了方法论的可信度与可迁移性。
衍生相关工作
该数据集衍生了一系列具有影响力的研究工作,包括基于局部独立性的连续时间因果发现方法、面向子采样时间序列的约束优化算法,以及利用非平稳性特征进行因果结构学习的创新框架。研究者还基于该数据集的层级结构(过程变量-子系统-因果图),提出了分层因果建模策略,并探索了混合图表示在部分观测场景下的应用。这些工作不仅深化了对工业系统因果机制的理解,也为因果推断方法论在复杂现实场景中的演进提供了重要驱动力。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务