Synthetic Industrial Dataset for Energy Disaggregation (SIDED)

Name: Synthetic Industrial Dataset for Energy Disaggregation (SIDED)
Creator: Honda Research Institute EU, Center for Cognitive Interaction Technology (CITEC), University of Bielefeld, Models and Algorithms for Data and Text Mining Laboratory (MADLab), Department of Informatics, Systems and Communication (DISCo), University of Milano - Bicocca
Published: 2025-06-25 23:10:43
License: 暂无描述

arXiv2025-06-25 更新2025-06-27 收录

下载链接：

https://github.com/ChristianInterno/SIDED

下载链接

链接失效反馈

官方服务：

资源简介：

SIDED数据集是一个开源的工业能源分解合成数据集，使用数字孪生模拟技术生成。该数据集涵盖了三个不同地理位置的三个工业设施类型，包括经销商、办公室和物流设施。数据集通过高保真数字孪生模拟器生成，该模拟器基于物理模型，模拟了所有机器（CHP、冷却、加热、通风等）的物理效果，并采用了真实设备中的控制器模块。数据集考虑了不同的环境条件，包括温度和太阳辐射，以及不同地理位置的工作时间和节假日差异，从而提供了丰富的工业能源消耗模式。

The SIDED dataset is an open-source synthetic industrial energy disaggregation dataset generated through digital twin simulation technology. It encompasses three types of industrial facilities across three distinct geographical locations: dealerships, offices, and logistics facilities. The dataset is created using a high-fidelity digital twin simulator, which is grounded in physical models to replicate the physical operations of all machinery (such as CHP, cooling, heating, ventilation, and other equipment) and integrates controller modules sourced from real-world industrial devices. The dataset takes into account various environmental conditions including temperature and solar radiation, as well as disparities in working hours and holiday schedules across different geographical locations, thereby generating rich patterns of industrial energy consumption.

提供机构：

Honda Research Institute EU, Center for Cognitive Interaction Technology (CITEC), University of Bielefeld, Models and Algorithms for Data and Text Mining Laboratory (MADLab), Department of Informatics, Systems and Communication (DISCo), University of Milano - Bicocca

创建时间：

2025-06-25

原始信息汇总

Synthetic Industrial Dataset for Energy Disaggregation (SIDED) 数据集概述

数据集简介

SIDED是一个用于工业环境非侵入式负载监测(NILM)研究的开源合成数据集，通过高保真数字孪生模拟器生成，并基于真实运营数据校准。

引用方式

bibtex @article{interno2025industrial, title={{Industrial Energy Disaggregation with Digital Twin-generated Dataset and Efficient Data Augmentation}}, author={Intern{`o}, Christian and Castellani, Andrea and Schmitt, Sebastian and Stella, Fabio and Hammer, Barbara}, journal={arXiv preprint arXiv:2506.20525}, year={2025} }

核心特征

高保真模拟：基于物理模型的数字孪生模拟器生成，累计年误差<3%
多样化场景：包含3种工业设施类型×3个地理位置的9种配置
复杂电器建模：包含5种关键工业电器(消费者/生产者)
标准化格式：兼容NILMTK工具包

数据结构

特征	描述
配置总数	9种(3设施类型×3地理位置)
设施类型	办公室、经销商、物流中心
地理位置	德国奥芬巴赫、美国洛杉矶、日本东京
跟踪电器	5种：CHP、CS、EVSE、PV、BA
持续时间	共9年(每种配置1个完整日历年)
采样率	1/60Hz(每分钟)
总数据点	4,730,400(每种配置525,600)

电器特性分类

持续可变电器：如CHP
周期性电器：如EVSE和PV系统
季节性电器：如PV、CHP和CS
多模式电器：所有5种电器
消费者电器：EVSE、CS、BA
生产者电器：PV、CHP

数据字段

Time：时间戳
Aggregate：总实功功率(W)
EVSE：电动汽车供电设备实功功率(W)
PV：光伏系统实功功率(W，负值表示发电)
CS：冷却系统实功功率(W)
CHP：热电联产实功功率(W，负值表示发电)
BA：背景电器实功功率(W)
TAmbient：环境温度(°C)
RadiationDiffuse：漫射辐射(W/m²)
RadiationDirect：直接辐射(W/m²)

相关研究方法

数据集配套论文提出**Appliance-Modulated Data Augmentation (AMDA)**方法，专门用于处理工业能源信号的连续和重叠特性。

搜集汇总

数据集介绍

构建方式

SIDED数据集通过数字孪生技术生成，模拟了三种不同类型的工业设施在三个不同地理位置（洛杉矶、东京和奥芬巴赫）的能源消耗模式。该数据集基于物理模型和真实控制器模块，结合了天气数据和实际测量数据，确保了数据的物理一致性和真实性。通过高保真模拟，SIDED捕捉了多种设备行为、天气条件和负载曲线，为工业非侵入式负载监测（NILM）研究提供了丰富的基准数据。

特点

SIDED数据集涵盖了多种工业设备类型，包括电动汽车供电设备（EVSE）、冷却系统（CS）、光伏发电（PV）、热电联产（CHP）和背景设备（BA）。这些设备表现出不同的能源消耗模式，如周期性、季节性和多模式行为。数据集还包含了环境变量（如环境温度和辐射数据），为研究工业能源消耗的复杂动态提供了全面的数据支持。此外，SIDED通过数字孪生技术生成的合成数据，避免了真实工业数据中的隐私和安全问题。

使用方法

SIDED数据集适用于训练和评估非侵入式负载监测（NILM）模型，特别是在工业环境中。研究人员可以使用该数据集来测试模型在不同工业设施和地理位置的泛化能力。数据集与NILMTK兼容，便于算法的开发和比较。此外，通过结合提出的设备调制数据增强（AMDA）方法，可以进一步扩展训练数据的多样性，提升模型在复杂工业场景中的性能。数据集的时间序列数据以一分钟间隔采样，适用于各种时间序列分析和机器学习任务。

背景与挑战

背景概述

Synthetic Industrial Dataset for Energy Disaggregation (SIDED) 是由Christian Intern`o、Andrea Castellani等研究人员于2025年提出的一个开源数据集，旨在解决工业非侵入式负载监测（NILM）领域中的数据稀缺和隐私问题。该数据集通过数字孪生技术模拟生成，涵盖了三种不同类型的工业设施和三个地理位置的能源消耗模式，包括设备行为、天气条件和负载曲线。SIDED的提出填补了工业NILM研究中高质量数据集的空白，并为能源管理和优化提供了重要支持。

当前挑战

SIDED数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，工业NILM需要处理复杂的能源消耗模式，包括连续变化的负载、重叠信号以及非线性动态，这些特性使得传统的NILM方法难以直接应用。在构建过程中，生成高保真度的数字孪生模拟数据需要精确的物理模型和控制器模块，并且需要确保模拟数据与真实世界数据的一致性（误差控制在3%以内）。此外，数据集的多样性要求覆盖不同设施类型和地理位置，进一步增加了构建的复杂性。

常用场景

经典使用场景

SIDED数据集在工业非侵入式负载监测（NILM）领域具有广泛的应用价值。该数据集通过数字孪生技术模拟了三种不同类型的工业设施（办公室、经销商和物流中心）在三个不同地理位置（洛杉矶、东京和奥芬巴赫）的能源消耗模式。数据集涵盖了多种设备行为、天气条件和负载曲线，为工业NILM研究提供了丰富的基准数据。其经典使用场景包括训练和评估NILM模型，特别是针对复杂工业设备（如热电联产系统）的能源分解任务。

解决学术问题

SIDED数据集解决了工业NILM领域中的两个关键学术问题：数据稀缺性和工业负载的复杂变异性。传统NILM方法在工业环境中表现不佳，主要由于工业设备的连续可变性和重叠操作模式。SIDED通过数字孪生技术生成高质量合成数据，克服了真实工业数据难以获取的障碍。此外，该数据集还支持研究工业负载的季节性变化、多模式操作以及能源生产和消费的混合特性，为开发更鲁棒的NILM算法提供了重要基础。

衍生相关工作

SIDED数据集及其配套的AMDA方法已经衍生出多项重要研究工作。基于该数据集，研究人员开发了多种深度神经网络架构（如LSTM、TCN和ATCN）用于工业NILM任务。这些工作显著提升了模型在设备变化和设施变化场景下的泛化能力。此外，SIDED还促进了数字孪生技术在能源管理领域的应用研究，为工业物联网和智能建筑等领域的相关研究提供了重要参考。数据集的开源性也鼓励了更广泛的学术合作和方法比较。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集