EAF Digital Twin Dataset

github2026-02-11 更新2026-02-12 收录

下载链接：

https://github.com/ac1esan/EAF-on-Metallurgy

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于电子钢炉(EAF)的数字孪生数据集，包含75,000行数据，模拟了电子钢炉的物理、化学和人为因素。数据集包括电气参数、化学组成、设备状态等多种参数，并模拟了现实中的异常情况，如电极断裂、冷却泄漏等。数据集旨在为预测性维护和工业过程优化提供真实世界的数据支持。

This is a digital twin dataset for Electric Arc Furnace (EAF) consisting of 75,000 rows of data. It simulates the physical, chemical and human-induced factors relevant to the EAF, and includes a range of parameters such as electrical parameters, chemical compositions, equipment status and other relevant metrics. Additionally, it replicates real-world abnormal scenarios including electrode breakage and cooling system leakage. This dataset is designed to provide real-world data support for predictive maintenance and industrial process optimization.

创建时间：

2026-02-02

原始信息汇总

EAF Digital Twin 数据集概述

数据集来源与背景

数据集源自一个模拟电子束熔炼炉（EAF）的数字孪生项目，旨在生成反映真实工业环境（包括物理、化学和人为因素）的数据。
项目动机源于获取真实工厂数据的困难，因此通过仿真创建了包含工业场景复杂性（如设备退化、人为操作差异、季节性影响）的数据。

数据集文件与版本

主要文件

eaf_premium_75k.zip：包含约75,000行数据的CSV文件（需解压），模拟了数月虚拟车间运行，涵盖多种工业条件（如夜班、冬季操作）。
eaf_metallurgy_dataset.csv：简化版本，适用于快速测试或基础模型验证。

版本2.0数据集（2026年2月11日更新）

eaf_industrial_v2_causal_swarm.csv：主数据集，包含约72个参数，涵盖传感器数据、经济指标（LME、能源价格）、天气、物流和上下文风险，包含具有P-F间隔（预警期）的异常。
eaf_industrial_v2_1_causal_swarm.csv：专注于预测性维护（Predictive Maintenance）的数据集，聚焦物理参数（电流、电压、温度），包含退化指标（alpha_degradation）、故障前的参数漂移和风险评分（risk_score），异常按类型标记（anomaly_type非0）。
eaf_industrial_v2_causal_swarm_nearmiss.csv：用于硬负样本挖掘（Hard Negative Mining）的数据集，包含大量“近失误”（Near-misses）场景，其中传感器行为异常但未发生实际故障（is_anomaly=0）。

数据特征与内容

关键参数（总计约72个）

电气参数：电流、阻抗（随压力变化）、有功功率。
化学参数：碳、硫、磷含量（模拟燃烧过程）。
状态参数：炉壁厚度（模拟设备退化）。

模拟的真实工业因素

物理定律约束：数据遵循物理规律（如高功率导致温度上升和炉衬熔化）。
人为因素：模拟了不同班组（如夜班效率低）、操作员经验差异（如新手易损坏电极）。
季节性影响：冬季能耗更高。
异常事件：包含约2%的真实故障模拟（如电极断裂、冷却泄漏、压力峰值），在V2版本中异常基于设备物理退化产生。

V2版本核心特性

P-F间隔：故障前10-20个时间步参数开始平滑漂移。
跨传感器耦合：传感器物理关联（如电流跳跃影响阻抗和振动）。
近失误场景：帮助模型区分重负荷运行与实际故障。

数据使用与处理

格式与加载

数据为CSV格式，使用分号（;）作为分隔符（符合欧洲/俄罗斯标准）。
建议编码为UTF-8。
示例加载代码： python import pandas as pd df = pd.read_csv(eaf_premium_75k.csv, sep=;)

应用场景

主数据集：适用于探索性数据分析（EDA）、可视化和业务逻辑开发。
ML数据集：适用于预测性维护模型训练。
近失误数据集：用于减少误报，提高模型鲁棒性。

注意事项

文件需下载并解压（GitHub不支持大文件直接预览）。
数据模拟工业环境，包含噪声、异常和上下文变量，旨在挑战模型在复杂场景下的性能。

搜集汇总

数据集介绍

构建方式

在工业数字孪生领域，数据集的真实性直接决定了模型的实用价值。EAF Digital Twin Dataset的构建摒弃了传统随机生成方法，转而采用基于物理化学原理的动态模拟技术。该数据集通过高保真仿真电子电弧炉的完整冶金过程，精确建模了电弧热力学、材料相变及化学反应动力学。系统不仅模拟了设备在理想状态下的运行，更嵌入了多维度扰动因素，包括季节性环境变化、操作人员技能差异以及设备自然老化过程。这种构建方式确保了数据流中蕴含真实的因果关联与时间依赖性，为后续的预测性维护研究奠定了坚实基础。

特点

该数据集的核心特征在于其高度逼真的工业场景还原能力与精心设计的异常模式。数据集中包含超过70个多维特征，涵盖电气参数、化学成分、设备状态及外部经济环境等多个层面。特别值得注意的是，数据集引入了具有物理意义的渐进式故障机制，在异常发生前会呈现可观测的参数漂移现象，即P-F间隔特征。同时，数据集通过传感器耦合设计，真实反映了工业系统中跨物理量的相互作用关系。近失事件样本的加入，为区分真实故障与操作波动提供了关键数据支撑，极大增强了模型的鲁棒性。

使用方法

针对不同的研究目标，数据集提供了三个专项版本。基础版本适用于探索性数据分析和工艺优化研究，其中包含完整的上下文信息与业务指标。机器学习专用版本则聚焦于物理参数的时间序列，包含明确的退化指标与风险评分，特别适合开发预测性维护模型。近失事件数据集专为困难负样本挖掘设计，可用于训练模型识别边界状态。使用时应根据研究需求选择相应数据集，加载时需注意欧洲格式的分隔符设置，并充分利用数据集中标注的因果关联特征进行模型构建与验证。

背景与挑战

背景概述

在工业4.0与数字孪生技术蓬勃发展的背景下，EAF Digital Twin Dataset应运而生，旨在为冶金工业，特别是电弧炉炼钢过程的数字化建模与预测性维护提供高质量仿真数据。该数据集由独立研究人员于2026年创建，其核心动机源于工业现场数据获取的壁垒，通过构建一个融合多物理场与人为因素的复杂模拟器，生成涵盖电气、化学、设备状态及环境变量的时序数据。它直面工业过程监控中的核心研究问题——如何在高度非线性、强耦合且受随机干扰的生产系统中实现故障的早期诊断与因果推断，从而为构建鲁棒的数字孪生系统与智能维护策略提供了至关重要的基准测试平台。

当前挑战

该数据集致力于解决工业预测性维护领域的核心挑战，即在多传感器耦合、工况时变且包含大量‘近失事件’的复杂动态系统中，实现高精度、高召回率的早期故障预警与根因分析。其构建过程同样面临严峻考验：首先，需在仿真中精确复现电弧炉的物理化学过程与设备退化规律，确保数据生成遵循严格的因果机制；其次，必须将‘人因工程’与季节性环境波动等现实扰动因素编码到数据中，以模拟真实生产中的不确定性；最后，数据标注需区分真实故障、渐进性退化与无害的异常波动，这对构建具有强泛化能力的工业AI模型提出了极高要求。

常用场景

经典使用场景

在工业制造与过程控制领域，EAF Digital Twin Dataset为研究人员提供了一个高度逼真的虚拟环境，用于模拟电子电弧炉的复杂操作过程。该数据集最经典的使用场景在于构建和验证数字孪生模型，通过整合物理定律、化学反应及人为因素，实现对钢铁冶炼过程的动态仿真与优化。研究者可借助该数据集训练机器学习算法，预测炉内温度、能耗及材料成分的变化，从而在虚拟空间中测试不同工艺参数对生产效率和质量的影响，为实际生产提供决策支持。

解决学术问题

该数据集有效解决了工业智能领域多个关键学术问题，特别是在预测性维护与异常检测方面。通过嵌入真实的物理退化机制和因果关联，它帮助研究者克服传统数据集中随机噪声与真实故障模式脱节的局限。数据集中的P-F间隔和传感器耦合特性，使得学者能够深入探究设备失效前的渐进性漂移现象，从而开发出更精准的早期预警模型。这不仅推动了基于因果推理的故障诊断方法的发展，还为处理工业数据中的非平稳性和高维度挑战提供了标准化测试平台。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在工业人工智能的前沿方向。例如，基于其因果结构开发的时序预测模型，能够更准确地捕捉设备退化轨迹；利用多传感器耦合数据的研究，促进了跨模态融合技术在过程监控中的应用。此外，数据集中的人为因素模拟启发了人机协同优化算法的探索，而“近失事故”样本则推动了硬负样本挖掘技术在减少误报方面的创新。这些工作共同深化了数字孪生在重工业领域的理论与实践，为智能制造提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集