OpenSynth/TUDelft-Electricity-Consumption-1.0

Name: OpenSynth/TUDelft-Electricity-Consumption-1.0
Creator: OpenSynth
Published: 2024-11-28 09:36:13
License: 暂无描述

Hugging Face2024-11-28 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/OpenSynth/TUDelft-Electricity-Consumption-1.0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个国家的智能电表数据，记录了能源消耗的时间序列信息。数据集的主要特征包括：`id`（数据集标识符，格式为`国家_家庭编号`）、`datetime`（观测时间戳）、`target`（以千瓦时为单位的能源消耗量）和`category`（时间序列的分辨率，如15分钟、30分钟、60分钟）。数据集来源包括荷兰、英国、德国和澳大利亚的公开数据，涵盖了不同时间范围和分辨率，并提供了详细的元数据，如家庭类型、房屋年龄、气候条件等。

This dataset contains high-resolution smart meter data from multiple countries, used for analyzing energy consumption patterns. The dataset features include an identifier, timestamp, energy consumption in kilowatt-hours, and the resolution of the time series. Data sources include smart meter data from the Netherlands, the UK, Germany, and Australia, each with detailed time periods, granularities, and scopes.

提供机构：

OpenSynth

搜集汇总

数据集介绍

构建方式

TUDelft-Electricity-Consumption-1.0数据集由代尔夫特理工大学的研究团队整合构建，汇聚了来自荷兰、英国、德国和澳大利亚四个国家的高分辨率开源电力消耗数据。荷兰数据源自Liander Open Data的Zonnedael数据集，涵盖约80个地址的智能电表记录，时间跨度为2012年至2014年，分辨率为60分钟。英国数据来自伦敦数据库的低碳伦敦项目，包含5567户家庭在2011年至2014年间的30分钟间隔能耗记录，总量约1.67亿条。德国数据取自Open Power System Data的CoSSMic项目，覆盖11户家庭和中小企业，原始分辨率为1分钟，并聚合为15分钟和小时级数据。澳大利亚数据源于智能电网智慧城市试验，时间范围为2010年至2014年，分辨率为30分钟，同时关联人口统计和用电行为元数据。所有数据经过缺失值插补、异常值校正及标准化处理，形成统一的时序格式。

特点

该数据集的核心特点在于其跨国家、多分辨率及高覆盖度的设计。数据集中每条记录包含唯一标识符id（格式为“国家代码_家庭编号”）、时间戳datetime、以千瓦时计量的目标能耗target以及时间分辨率类别category（如15m、30m、60m）。多源数据融合使得数据集能够捕捉不同气候、政策及用电习惯下的负荷模式，例如英国数据中包含了动态分时电价试验组与平电价对照组，为分析电价对消费行为的影响提供了独特视角。德国数据还整合了家庭级光伏发电量，支持净负荷与发电协同分析。数据预处理确保了时间序列的连续性和一致性，适合用于大规模负荷预测、生成模型训练及跨域迁移学习研究。

使用方法

数据集以Parquet格式存储，可通过Hugging Face Datasets库或Dask高效加载。用户需安装Python 3.6及以上环境，并配置datasets、pandas或dask库。典型加载方式为使用dask.dataframe的read_parquet函数读取远程文件路径，例如'dd.read_parquet("hf://datasets/Weijie1996/load_timeseries/30m_resolution_ge/ge_30m.parquet")'，随后调用compute()方法转换为pandas DataFrame进行本地分析。数据可直接用于时序预测、概率负荷建模或对比不同分辨率下的模型性能。研究者可依据category字段筛选特定时间粒度，或通过id字段分离不同国家和家庭的子集，以开展域适应或少样本学习实验。

背景与挑战

背景概述

家庭电力消耗的精确建模与预测是智能电网与能源管理领域的重要研究方向，其核心在于理解用户行为模式与负荷动态的复杂关系。OpenSynth/TUDelft-Electricity-Consumption-1.0数据集由代尔夫特理工大学的研究人员Weijie Xia与Pedro P. Vergara于2024年创建，旨在整合多国高分辨率智能电表数据，为负荷曲线生成、概率预测及少样本学习等任务提供标准化基准。该数据集融合了荷兰（Liander）、英国（低碳伦敦项目）、德国（CoSSMic）及澳大利亚（SGSC）四个国家的开放数据，覆盖从1分钟到60分钟的不同时间粒度，总计超过1.67亿条记录，显著提升了跨区域负荷模式的泛化研究能力。其研究成果已支撑多项前沿工作，如基于流的生成模型与可解释Transformer的负荷剖面建模，对智能电网数据分析领域产生了实质性推动。

当前挑战

当前该数据集面临的核心挑战包括：其一，多国数据在时间跨度、采样频率与缺失值处理方式上存在显著异质性，如荷兰数据仅覆盖2012至2014年且为60分钟间隔，而德国数据包含1分钟原始采样，这给统一的时间序列对齐与模型训练带来了结构性困难。其二，构建过程中需应对隐私与伦理约束，例如英国数据中仅1100户参与动态电价试验，且所有数据均需匿名化处理，导致用户画像与消费行为之间的关联信息被削弱。其三，负荷数据中普遍存在的异常值、插值填充及季节性波动，使得生成模型在保持物理一致性与长期依赖性方面面临严峻考验，尤其是在少样本跨域迁移场景下，模型泛化能力易受数据分布偏移影响。

常用场景

经典使用场景

该数据集汇聚了来自荷兰、英国、德国和澳大利亚等多个国家的高分辨率居民电力消费时序数据，时间粒度涵盖1分钟至60分钟不等，为能源时序分析领域提供了跨地域、跨分辨率的标准化基准。其最经典的使用场景是作为电力负荷预测模型的训练与评估平台，研究者可基于不同时间分辨率与用户群体的数据，构建并验证从传统统计模型到深度学习架构的预测性能，尤其适用于多任务学习与跨域迁移学习场景。

衍生相关工作

基于该数据集已衍生出一系列具有影响力的研究工作。例如，Xia等人提出了面向变压器级与用户级负荷曲线生成的生成式模型对比评估框架，系统比较了GAN、VAE与Flow-based模型在消费级数据上的生成质量；进一步地，全卷积概率流模型（Full Convolutional Profile Flow）被提出用于条件式与概率式电力消费曲线生成与预测，实现了高保真度的多步时序模拟。此外，基于Transformer的少样本学习方法（GMMtransformer）利用高斯混合模型与可解释注意力机制，在数千个用户域上实现了高效的跨域负荷建模，为数据稀缺场景下的智能电网应用开辟了新路径。

数据集最近研究