Rainforest Automation Energy (RAE) dataset
收藏arXiv2018-02-12 更新2024-07-18 收录
下载链接:
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi%3A10.7910/DVN/ZJW4LC
下载链接
链接失效反馈官方服务:
资源简介:
RAE数据集由不列颠哥伦比亚大学创建,包含来自两个住宅的1 Hz数据,包括主电源和子电表数据,以及来自房屋恒温器的环境和传感器数据。数据集大小超过1130万条记录,涵盖72天和59天的数据捕获。创建过程中使用了商业级计量设备,如Rainforest Automation的EMU2和DENT的PowerScout 24。该数据集主要用于智能电网研究,特别是非侵入式负载监测(NILM)算法测试,以及其他如统计信号处理和能源使用行为分析等领域。
The RAE dataset was developed by the University of British Columbia. It contains 1 Hz data from two residential properties, including main power and sub-meter data, as well as ambient and sensor data from household thermostats. The dataset comprises over 11.3 million records, covering 72-day and 59-day data capture periods. It was constructed using commercial-grade metering devices such as Rainforest Automation’s EMU2 and DENT’s PowerScout 24. This dataset is primarily intended for smart grid research, particularly non-intrusive load monitoring (NILM) algorithm testing, as well as other fields including statistical signal processing and energy usage behavior analysis.
提供机构:
不列颠哥伦比亚大学
创建时间:
2017-05-14
搜集汇总
数据集介绍

构建方式
在智能电网研究领域,真实世界的数据集对于算法验证至关重要。Rainforest Automation Energy (RAE) 数据集通过部署商业级计量设备,对两栋加拿大住宅进行了精细化的能耗数据采集。系统核心采用DENT PowerScout 24分支电路功率计,以1 Hz频率同步采集主电源及最多24个支路(对应配电盘每个断路器)的11项电气参数,包括电压、电流、频率、功率因数及各类功率与能量数据。同时,通过Rainforest Automation EMU2室内显示器以较低频率(约8–15秒间隔)捕获智能电表通信数据,并整合EcoBee3恒温器以5分钟间隔记录环境与传感器信息。数据采集由Raspberry Pi 2B控制,本地存储后以CSV格式组织为连续采样块,确保时间序列的完整性与可用性。
特点
该数据集的核心特色在于其高频率与多维度数据融合。与多数低频数据集(如REDD、UK-DALE)不同,RAE对所有子电表均采用1 Hz一致采样,有效捕捉电器功率特征的细微变化,为非侵入式负荷监测(NILM)算法提供更丰富的信号细节。数据涵盖两栋住宅共131天的观测周期,包含超过1130万条功率记录,并附有详细的子电表标签文件与配电盘示意图,明确各回路对应负载。此外,恒温器数据引入室内外温度、湿度、风速及运动检测等多模态信息,增强了暖通空调能耗分析的情境理解。数据集还提供智能电表通信与1 Hz流数据的对比,为研究用户交互行为提供了独特视角。
使用方法
研究人员可直接从哈佛数据空间(doi:10.7910/DVN/ZJW4LC)获取RAE数据集,其采用CC-BY许可协议便于学术共享。数据以结构化文件组织,主文件all_sites.txt汇总站点元数据,各站点文件夹内包含功率数据(_power_blk?.csv)、能量数据(_energy_blk?.csv)、详细电气测量(_subs_blk?.csv)及恒温器数据(_tstat_blk?.csv)。应用时,可通过标签文件与配电盘图将子电表读数映射至具体电器,对于双线制大型设备(如烘干机),需将L1与L2子电表求和。缺失数据以空值标记,便于预处理。该数据集尤其适用于NILM算法测试,如论文示例中利用SparseNILM算法构建2000状态隐马尔可夫模型,在63天测试数据上实现了87.86%的精确率与85.01%的召回率。
背景与挑战
背景概述
智能电网的快速发展对海量真实世界数据的依赖日益加深,尤其是在非侵入式负荷监测(NILM)领域,算法的精准验证亟需高保真度的实测数据集。Rainforest Automation Energy (RAE) dataset于2018年由加拿大不列颠哥伦比亚大学的Stephen Makonin团队与Rainforest Automation公司合作发布,旨在填补低频采样数据在住宅智能电表分析中的空白。该数据集以1 Hz频率采集两栋加拿大住宅的总线及24路子电路电力数据,并整合了恒温器环境参数与智能电表显示数据,为负荷分解、能源行为建模及需求预测等研究提供了高时间分辨率的真实场景支撑。作为AMPds数据集的升级版本,RAE通过提升采样频率和丰富电气测量维度,显著增强了算法在复杂住宅环境中的适用性检验能力,已成为智能电网数据分析领域的重要基准资源。
当前挑战
RAE数据集在推动智能电网研究的同时也面临多重挑战。首先,低频采样(≤1 Hz)虽贴合实际智能电表通信约束,却可能遗漏高频瞬态特征,导致NILM算法对快速启停设备的识别精度受限,例如热泵或变频电器的功率波动难以被完整捕获。其次,数据构建过程中需克服硬件异构性与环境干扰,如两栋住宅的电路配置差异(24路与21路子表)、智能电表与子表间的测量误差(11–19 kWh的累计偏差),以及恒温器数据因产品限制仅能以5分钟间隔采集,这些非一致性增加了算法泛化测试的难度。此外,当前仅包含两户住宅、历时59–72天的短期数据,限制了模型对季节性负荷变化及多户型场景的鲁棒性验证,亟需扩展监测站点与时间跨度以提升数据集的代表性。
常用场景
经典使用场景
在智能电网与家庭能源管理研究领域,Rainforest Automation Energy (RAE) 数据集因其高时间分辨率(1 Hz)的电力数据采集特性,成为非侵入式负荷监测(NILM)算法验证与性能评估的经典基准。该数据集提供了两栋独立住宅的主干与子回路电力读数,涵盖电压、电流、功率因数等11项电气参数,并同步记录智能电表通信数据与恒温器环境传感信息,为从聚合信号中精准拆解单一电器运行状态提供了理想的数据土壤。研究者常利用RAE数据集训练隐马尔可夫模型(HMM)或稀疏维特比算法,以检验其在真实住宅场景中对高耗能负荷(如热泵、烘干机、冰箱)的辨识能力,从而推动NILM技术从理论走向工程实践。
解决学术问题
RAE数据集的核心学术贡献在于破解了低采样率下负荷分解精度不足的难题。传统数据集(如REDD)常因主干与子回路采样频率不一致而丢失关键电器特征,RAE通过统一1 Hz采样率,使研究者能够捕捉电器启停瞬间的暂态功率波形,显著提升非侵入式负荷监测算法的召回率与F-score。该数据集还解决了多住户场景下的能源归属歧义问题——House 1中独立出租套间的子回路数据,为区分主户与租户能耗提供了实证依据,支撑了能源政策建模与需求响应策略的优化。此外,RAE填补了加拿大地区开放电力数据集的空白,其包含的恒温器温湿度与运动传感数据,为研究人行为与能耗耦合关系、室内环境舒适度预测等跨学科课题开辟了新路径。
衍生相关工作
RAE数据集衍生了一系列具有影响力的学术工作,尤其在非侵入式负荷监测领域催生了算法创新。Makonin等人基于该数据集提出了SparseNILM算法,利用稀疏隐马尔可夫模型将负荷分解速度提升至每样本330微秒,在63天连续数据上实现了87.86%的精确度与80.47%的有限状态F-score,该工作为实时NILM系统的嵌入式部署奠定了基础。后续研究者进一步将RAE与深度学习结合,开发了基于卷积神经网络(CNN)与长短期记忆网络(LSTM)的序列到序列分解模型,通过迁移学习从RAE的1 Hz数据中提取通用电器特征,再微调至低频采样环境。此外,RAE还被用于验证多任务学习框架,同时实现负荷分解与异常用电检测,推动了智能电表数据分析从单目标优化向多维度协同的范式演进。
以上内容由遇见数据集搜集并总结生成



