EnergyBench|能源计量数据集|建筑能耗分析数据集

huggingface2025-05-15 更新2025-05-16 收录

能源计量

建筑能耗分析

下载链接：

https://huggingface.co/datasets/ai-iot/EnergyBench

下载链接

链接失效反馈

资源简介：

EnergyBench数据集是一个开源的大型能源计量数据集，旨在支持多种能源分析应用，包括负荷分析、负荷预测等。该数据集收集了超过60个详细的电力消耗数据集，涵盖了大约78,000个真实建筑的全球建筑存量，提供了能源消耗在时间和空间上的变化洞察。

创建时间：

2025-05-14

原始信息汇总

EnergyBench 数据集概述

基本信息

许可证: CC-BY-SA-4.0
任务类别: 时间序列预测
语言: 英语
标签: 能源、智能电表、电力、建筑、数据集、croissant
数据规模: 10B < n < 100B

数据集配置

商业建筑数据

时间粒度: 每小时、15分钟、30分钟
包含的子数据集:
- BDG-2、Berkely、CLEMD、CU-BEMS、DGS、ECRG-Commercial、Enernoc、EWELD、HB、IBlend、IOT、IPC-Commercial、NEST-Commercial、PSS、RKP、SEWA、SKC、UCIE、ULE、UNICON

光伏(PV)数据

时间粒度: 每小时、15分钟
包含的子数据集:
- DLEP、HSG、MYMG、SPV、SWC、SDWPF

风电数据

时间粒度: 每小时、15分钟
包含的子数据集:
- SDWPF、SWC

住宅数据

时间粒度: 每小时、15分钟、30分钟
包含的子数据集:
- AMPD、BTS、CEEW、DCB、DEDDIAG、DESM、DTH、ECCC、ECRG-Residential、ECWM、ENERTALK、fIEECe、GoiEner、GREEND、HES、HONDA-Smart-Home、HSG、HUE、iFlex、IHEPC、IPC-Residential、IRH、LCL、LEC、METER、MFRED、MIHEC、NDB、NEEA、NESEMP、NEST、Norwegian、PES、Plegma、Prayas、REED、REFIT、RHC、RSL、SAVE、SFAC、SGSC、SMART-Star、SRSA、UKST、WED

合成数据

时间粒度: 每小时、15分钟
包含的子数据集:
- SynD、Buildings-900K-Commercial、Buildings-900K-Residential、SDG

元数据

包含的文件:
- Metadata-datasets.csv
- missing/*.csv

数据格式

文件格式: Parquet
数据路径示例:
- Dataset_V0.0/Energy-Load-Profiles/Hourly/Commercial/BDG-2/*.parquet
- Dataset_V0.0/Synthetic-Energy-Load-Profiles/15min/SynD/*.parquet

AI搜集汇总

数据集介绍

构建方式

EnergyBench数据集通过整合全球范围内商业、住宅、光伏和风力发电等多个领域的智能电表数据构建而成。数据采集覆盖不同时间分辨率（15分钟、30分钟、小时级），采用标准化Parquet格式存储，确保数据的高效访问和处理。原始数据经过严格的清洗和标注流程，包括异常值检测、缺失值填补以及统一的时间戳对齐，为时间序列预测任务提供了可靠的基础。

特点

该数据集以其多源异构性著称，包含来自数十个独立子集的能源负荷曲线，地域分布横跨北美、欧洲和亚洲。时间跨度具有显著差异性，部分序列长达数年，能够捕捉季节性和周期性变化。数据维度涵盖有功功率、无功功率等关键电气参数，部分子集附带建筑类型、气候分区等元数据，为跨场景迁移学习创造了条件。

使用方法

使用者可通过HuggingFace平台按需加载特定配置的子数据集，支持按建筑类型（商业/住宅）或能源类型（光伏/风电）进行筛选。典型应用场景包括：使用PyTorch或TensorFlow构建LSTM、Transformer等时序模型进行负荷预测；结合metadata进行跨区域泛化性研究；或利用合成数据子集进行数据增强。建议预处理时注意不同子集的时间粒度差异，必要时进行重采样处理。

背景与挑战

背景概述

EnergyBench数据集作为能源消耗预测领域的重要资源，由多个研究机构联合构建，旨在解决商业与住宅建筑电力负荷预测的核心问题。该数据集整合了全球范围内不同气候区、建筑类型和用电模式的智能电表数据，时间分辨率涵盖15分钟至小时级别，为研究复杂能源消费模式提供了多尺度分析基础。其跨年度的负荷曲线记录显著提升了可再生能源并网、需求响应策略等智能电网关键技术的研发效率，已成为能源信息学领域最具代表性的基准测试平台之一。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，电力负荷预测需解决极端天气事件导致的消费模式突变、新型电器渗透带来的基线漂移等时变特性建模难题；在构建过程中，原始数据存在计量设备故障造成的异常值、不同区域采样频率不一致等问题，需开发自适应滤波算法与时空对齐技术。商业建筑数据因涉及隐私保护条款，部分关键特征字段需进行不可逆脱敏处理，这为挖掘深层用电行为特征增加了技术复杂度。

常用场景

经典使用场景

EnergyBench数据集作为能源时间序列预测领域的基准数据集，其经典应用场景聚焦于商业建筑、住宅及可再生能源系统的电力负荷模式分析。通过整合全球范围内不同气候带、建筑类型和用电行为的细粒度能耗数据（15分钟至小时级采样），该数据集为研究人员提供了验证负荷预测算法的标准化平台，尤其在处理多元时空关联性和异常用电模式识别方面展现出独特价值。

解决学术问题

该数据集有效解决了能源信息学中三个关键科学问题：一是突破了传统负荷预测模型在跨区域泛化能力上的瓶颈，通过多源异构数据融合验证了迁移学习框架的可行性；二是为可再生能源消纳研究提供了真实电网接口数据，量化了光伏/风电并网对负荷预测误差的影响机制；三是建立了建筑能耗强度（BEI）的标准化评估体系，使得不同研究间的能耗基准对比成为可能，推动了建筑节能领域的可重复性研究。

衍生相关工作

该数据集已催生若干具有影响力的衍生研究：MIT团队开发的TransEnergy框架利用其跨建筑类型数据验证了元学习在负荷预测中的优越性；欧盟GridAdapt项目基于PV子集提出了考虑天气不确定性的光伏出力修正模型；近期发表的《Nature Energy》论文则通过分析30万住宅样本，揭示了居民用电行为与建筑能效等级的非线性关系，相关成果已被纳入国际能源署（IEA）的评估标准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

diegopdlv5/test_dataset_0049c

该数据集主要包含音频数据，分为训练集，共有135个样本，总大小为51580253字节。下载大小为51573551字节。

hugging_face 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话，其中包含两个字段：用户发言和助手回应，均为字符串类型。训练集大小为38646852字节，共有44096条对话记录。

huggingface 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

Chinese-Poetry-Corpus

本语料库收集自互联网，包含了从先秦到当代的古诗词数据，以CSV格式进行存储。经过去重后，包含诗词共计1014508首。古诗词按朝代进行划分，存储于文件夹下，命名规则为朝代.csv。每首诗词数据包含五个字段，分别为标题、朝代、作者、体裁、内容。

github 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间，Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签，这些标签是通过爬取/抓取Amazon.com获得的，用于分类产品。

github 收录