LEAD1.0
收藏arXiv2022-03-30 更新2024-06-21 收录
下载链接:
https://github.com/samy101/lead-dataset
下载链接
链接失效反馈官方服务:
资源简介:
LEAD1.0是由新加坡管理大学和Berkeley Education Alliance for Research in Singapore Limited共同创建的大型能源异常检测数据集,包含1,413个智能电表的一年时间序列数据。该数据集通过手动标注,区分了点异常和序列异常,旨在帮助研究者开发和评估建筑物能源消耗中的异常检测技术。数据集的创建过程涉及对约1200万数据点的仔细检查和标注,应用了基于时间窗口的固定协议。该数据集的应用领域主要集中在通过数据驱动的分析技术减少建筑物能源浪费,提高能源使用效率,从而推动全球能源可持续发展。
LEAD1.0 is a large-scale energy anomaly detection dataset jointly developed by Singapore Management University and Berkeley Education Alliance for Research in Singapore Limited. It encompasses one-year time-series data collected from 1,413 smart meters. This dataset is manually annotated to distinguish between point anomalies and sequential anomalies, with the core objective of assisting researchers in developing and evaluating anomaly detection technologies for building energy consumption. The creation of this dataset involved meticulous inspection and annotation of approximately 12 million data points, adhering to a fixed time-window-based protocol. Its main application areas focus on reducing building energy waste and improving energy utilization efficiency via data-driven analytical technologies, thereby advancing the sustainable development of global energy.
提供机构:
新加坡管理大学
创建时间:
2022-03-30
搜集汇总
数据集介绍

构建方式
在商业建筑能耗异常检测领域,数据标注的稀缺长期制约着相关研究的进展。LEAD1.0数据集的构建基于公开的ASHRAE Great Energy Predictor III竞赛数据集,该数据集包含了全球16个不同地点1,636栋非住宅建筑一年的智能电表时序数据。研究团队从中筛选出1,413个电力仪表读数序列作为核心数据源,并开发了一套基于Web的标注工具,对总计约1200万个数据点进行了精细的人工审查与标注。标注过程遵循严格的协议,通过识别时间序列中的周度或日度模式扰动,以及对比相邻日期的能耗显著差异,将异常划分为点异常和序列异常两类,最终完成了大规模、高质量的异常标签标注工作。
特点
LEAD1.0数据集作为当前公开领域中规模最大的建筑能耗异常检测数据集,其显著特点在于提供了详尽的人工标注信息。数据集涵盖了一年周期内1,413个电力仪表的时序数据,并区分了点异常与序列异常两种类型,为模型训练与评估提供了精确的监督信号。数据源自多样化的建筑类型与全球分布地点,确保了样本的广泛代表性,有助于开发泛化能力更强的检测模型。此外,数据集配套发布了开源的标注工具与基准测试代码,为社区的研究与复现提供了便利,推动了该领域向数据驱动和模型标准化方向发展。
使用方法
该数据集适用于监督或半监督学习框架下的时间序列异常检测研究。使用者可首先进行数据预处理,包括基于时间戳构造类别特征、对特征进行Z-score归一化,并对仪表读数进行对数变换。在模型开发阶段,可采用滑动窗口(如24小时无重叠窗口)将序列划分为样本,以学习每日能耗模式。数据集中已划分的训练、验证与测试子集可用于模型训练、阈值确定与性能评估,评估指标推荐采用精确率、召回率与F1分数以综合衡量模型表现。研究者可利用其进行算法对比、新模型验证,或借助其标注工具扩展其他时序数据的标注工作。
背景与挑战
背景概述
随着全球建筑能耗持续攀升,商业建筑的能源浪费问题日益凸显,智能电表的普及为基于时间序列数据的异常检测研究提供了契机。在此背景下,新加坡管理大学与伯克利教育联盟的研究团队于2022年推出了LEAD1.0数据集,旨在解决能源异常检测领域缺乏大规模标注数据的瓶颈。该数据集基于公开的ASHRAE Great Energy Predictor III竞赛数据,涵盖全球16个站点、1413个商业建筑电表的一年期时序数据,并首次对点异常与序列异常进行了系统标注。其核心研究聚焦于通过数据驱动方法识别建筑能耗中的异常模式,从而为能源节约与可持续发展提供关键技术支撑,推动了智能建筑能源管理领域的实证研究进展。
当前挑战
在能源异常检测领域,主要挑战在于如何从高噪声、多周期的时序数据中准确识别异常模式,同时降低误报率以提升实际应用价值。LEAD1.0构建过程中面临双重困难:其一,数据标注需处理超过1200万个数据点,异常定义因建筑类型、运营模式差异而高度异构,标注过程依赖人工经验且耗时巨大;其二,现有无监督方法在缺乏标注数据时普遍存在高误报问题,导致模型在实际部署中效率低下。此外,数据集中不同建筑的电表读数受气候、季节等因素干扰,进一步增加了异常模式分离的复杂度。
常用场景
经典使用场景
在商业建筑能源管理领域,LEAD1.0数据集为时间序列异常检测研究提供了关键支撑。该数据集包含来自全球16个不同站点的1,413个智能电表长达一年的小时级用电数据,并精细标注了点异常和序列异常。研究人员通常利用该数据集训练和评估无监督与有监督的异常检测模型,如聚类算法、孤立森林和K近邻等,以识别建筑能耗中的异常模式。通过分析这些标注数据,学者能够深入探索能耗波动与建筑运营状态之间的关联,为节能优化提供数据驱动的洞察。
实际应用
在实际应用中,LEAD1.0数据集为商业建筑的智能能源管理系统提供了关键训练资源。基于该数据集开发的异常检测模型可部署于建筑能源监控平台,实时识别设备故障、配置错误或人为操作失误导致的能耗异常。例如,系统能够检测空调系统异常运行或照明设备非必要开启,并及时向管理人员发出警报,从而减少能源浪费。这种数据驱动的管理方式不仅降低了建筑运营成本,也为实现全球建筑节能与可持续发展目标提供了技术路径。
衍生相关工作
LEAD1.0数据集的发布催生了一系列能源异常检测领域的创新研究。学者们基于该数据集对比了多种经典异常检测算法,如局部离群因子、特征装袋和直方图离群检测等,并公开了性能基准。后续研究进一步探索了深度学习模型在时序异常检测中的应用,例如利用循环神经网络或Transformer架构捕捉长期能耗依赖关系。此外,该数据集还促进了跨领域方法的融合,如将图神经网络用于建筑集群异常关联分析,推动了智能建筑能源管理向更精细化、智能化方向发展。
以上内容由遇见数据集搜集并总结生成



