London Smart Meter Dataset

github2023-08-10 更新2024-05-31 收录

下载链接：

https://github.com/Niloy-Chakraborty/Time-Series_Clustering_on_London_Smart_Meter_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

伦敦智能电表数据集包含从2013年1月1日0:00至2014年1月1日0:00的1130个智能电表数据，时间间隔为30分钟。数据集还包含了每个智能电表的acorn分布。每个智能电表的电价类别（如标准电价、动态分时电价等）、acorn类别（共19种）和acorn组别（共4种）也在数据集中有所体现。

The London Smart Meter Dataset encompasses data from 1,130 smart meters, recorded from 00:00 on January 1, 2013, to 00:00 on January 1, 2014, with a 30-minute interval. The dataset also includes the acorn distribution for each smart meter. It details the electricity tariff categories (such as standard tariffs, dynamic time-of-use tariffs, etc.), acorn categories (totaling 19 types), and acorn groups (totaling 4 types) for each smart meter.

创建时间：

2020-05-28

原始信息汇总

数据集概述

数据集描述

名称: 伦敦智能电表数据集
时间范围: 2013年1月1日0:00至2014年1月1日0:00
采样频率: 每30分钟
数据量: 包含1130个智能电表数据
附加信息: 每个智能电表的ACORN分布、电价类别（标准、动态时间使用等）、ACORN类别（共19种）和ACORN组（共4种）

数据分析与创建

原始数据结构: 包含两个数据框，第一个数据框包含智能电表时间序列数据（17568行，1132列），第二个数据框包含每个智能电表的ACORN分布（1130行，4列）
数据处理: 为了根据能源消耗进行聚类，数据集进行了转置处理，增加了数据维度至17568。随后，为了降低维度并提高处理性能，创建了一个新数据框，包含每周和每月的总消耗量等新特征

数据预处理

数据清洗: 发现一个电表ID被错误分类为"ACORN-"，已从数据集中移除
缺失值处理: 尽管数据集中无缺失值，但作为标准处理步骤，采用了线性插值或均值填充
数据标准化: 使用MinMax Scaler对数据进行缩放，确保计算距离时不被大数值主导
编码处理: 对分类数据进行编码，尽管数据集中仅包含浮点值，但电表ID作为分类变量被编码为整数

聚类算法

应用算法: K-Means聚类、凝聚层次聚类、DBSCAN聚类、基于自动编码器的聚类

实验结果

最佳聚类结果: 基于自动编码器的K-Means聚类表现最佳，具有0.52的轮廓系数、约85%的重建准确率和0.002的重建损失
数据可视化: 通过多种图表展示了聚类结果，包括季节性分布、日消耗分析、每日重采样消耗以及ACORN组和类别的自消耗百分比

结论

聚类效果: 尽管自动编码器K-Means聚类效果良好，但聚类结果与ACORN组或类别的关联性不强，表明能源消耗模式在不同ACORN组或类别中相似，导致聚类时形成相同集群

搜集汇总

数据集介绍

构建方式

伦敦智能电表数据集（London Smart Meter Dataset）的构建基于1130个智能电表在2013年1月1日至2014年1月1日期间每30分钟采集的能耗数据。每个电表的数据均附带有其所属的Acorn类别和组别信息，涵盖了标准电价、动态电价等多种电价类型。数据集的构建过程中，通过转置操作将时间序列数据的维度扩展至17568，以提高聚类分析的复杂性。为进一步优化性能，数据集还引入了周总能耗和月总能耗等新特征，并计算了不同时间段能耗的差异，以增强聚类的质量。

特点

该数据集的特点在于其丰富的时间序列数据和多维特征。每个电表的能耗数据以30分钟为间隔记录，涵盖了全年365天的详细能耗信息。此外，数据集还包含了每个电表的Acorn类别和组别信息，这些信息反映了用户的社会经济背景。通过对数据进行预处理，如缺失值插补、数据缩放和类别编码，数据集在保持高维度的同时，确保了数据的完整性和一致性，为后续的聚类分析提供了坚实的基础。

使用方法

该数据集的使用方法主要围绕时间序列聚类展开。研究人员可以通过多种无监督聚类算法（如K-Means、层次聚类、DBSCAN和基于自编码器的K-Means）对电表数据进行分组分析。在预处理阶段，数据经过线性插补、MinMax缩放和类别编码等操作，以确保算法的有效性和结果的准确性。聚类结果可通过可视化技术进一步分析，如季节性和日间能耗分布图，以及Acorn组别与聚类结果的关联分析。最终，研究人员可以通过这些分析揭示不同用户群体的能耗模式及其社会经济背景的潜在关联。

背景与挑战

背景概述

伦敦智能电表数据集（London Smart Meter Dataset）由1130个智能电表的数据组成，时间跨度为2013年1月1日至2014年1月1日，数据采集间隔为30分钟。该数据集不仅记录了每个电表的能耗数据，还包含了每个电表的Acorn分类信息，包括Tariff类别、Acorn类别和Acorn组别。该数据集的主要研究目标是通过时间序列聚类技术，分析不同电表的能耗模式，从而更好地理解智能电表的分布情况。该数据集的研究成果对智能电网的优化、能源管理以及用户行为分析具有重要意义。

当前挑战

伦敦智能电表数据集在应用过程中面临多重挑战。首先，数据的高维度特性使得聚类算法的计算复杂度显著增加，尤其是在数据集转置后，维度达到17568，这对计算资源提出了较高要求。其次，数据预处理阶段存在分类错误和缺失值处理问题，尽管通过线性插值和均值填充等方法进行了处理，但仍需确保数据的完整性和准确性。此外，聚类算法在处理不同Acorn组别和类别时，未能有效区分不同群体的能耗模式，导致聚类结果与Acorn分类之间的关联性较弱。最后，数据集中的全局辐射模式数据与聚类结果的相关性较低，表明在能源消耗与外部环境因素之间的关系仍需进一步探索。

常用场景

经典使用场景

London Smart Meter Dataset 在能源管理领域中被广泛应用于时间序列聚类分析。通过对1130个智能电表在2013年全年的30分钟间隔数据进行聚类，研究者能够深入理解不同用户群体的用电模式。该数据集的使用场景主要集中在通过无监督学习算法（如K-Means、层次聚类、DBSCAN和自编码器）对用户用电行为进行分组，从而揭示不同群体的用电特征。

实际应用

在实际应用中，London Smart Meter Dataset 为电力公司提供了宝贵的用户用电行为分析工具。通过聚类分析，电力公司能够识别出高能耗用户群体，并针对性地制定节能措施。此外，该数据集还可用于预测季节性用电高峰，优化电网负荷分配，从而提高电网的稳定性和效率。

衍生相关工作

基于 London Smart Meter Dataset，许多经典研究工作得以展开。例如，研究者利用自编码器改进了K-Means聚类算法，显著提升了聚类效果。此外，该数据集还催生了大量关于智能电网用户行为分析的研究，推动了能源管理领域的技术进步。这些工作不仅验证了数据集的实用性，还为未来的研究提供了丰富的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集