Buildings-900K
收藏arXiv2024-01-10 更新2024-06-21 收录
下载链接:
https://github.com/NREL/BuildingsBench
下载链接
链接失效反馈官方服务:
资源简介:
Buildings-900K是一个大规模的模拟数据集,由国家可再生能源实验室创建,包含900,000个代表美国建筑库存的模拟建筑。该数据集通过精心校准和验证的物理基础建筑模拟创建,旨在为整个美国建筑库存的能源消耗提供统计代表性的数据库。数据集还包括一个评估平台,结合了7个开放数据集,总计超过1,900个真实建筑。Buildings-900K支持研究大规模预训练,以及零样本短期负荷预测和迁移学习任务,旨在促进可泛化的短期负荷预测研究。
Buildings-900K is a large-scale simulation dataset developed by the National Renewable Energy Laboratory, containing 900,000 simulated buildings representing the U.S. building stock. Constructed via carefully calibrated and validated physics-based building simulations, this dataset aims to provide a statistically representative database for the energy consumption of the entire U.S. building stock. The dataset also includes an evaluation platform that integrates seven open datasets, totaling over 1,900 real-world buildings. Buildings-900K supports research on large-scale pre-training, zero-shot short-term load forecasting and transfer learning tasks, with the goal of advancing research on generalizable short-term load forecasting.
提供机构:
国家可再生能源实验室
创建时间:
2023-07-01
搜集汇总
数据集介绍

构建方式
Buildings-900K数据集的构建方式是通过模拟美国建筑存量中的900K栋建筑,以15分钟为分辨率,利用EnergyPlus软件进行能耗模拟,并从NREL EULP数据库中提取了900K栋建筑的能耗时间序列数据。这些数据涵盖了美国各个气候区域的建筑类型,包括住宅和商业建筑。为了提高数据集的可访问性,将15分钟分辨率的能耗数据聚合为小时分辨率,并存储为Parquet格式文件,以减少数据集的大小。数据集还包括了基于建筑物地理位置的日历特征、经纬度坐标和建筑类型等协变量信息。
特点
Buildings-900K数据集的特点是规模庞大,包含了近一百万个模拟的时间序列数据,接近自然语言处理和计算机视觉领域的数据集规模。该数据集涵盖了美国各个气候区域的建筑类型,包括住宅和商业建筑,以及多个年份的数据。此外,数据集还包括了建筑物地理位置的日历特征、经纬度坐标和建筑类型等协变量信息,为研究地理时间序列的预训练提供了便利。
使用方法
Buildings-900K数据集可用于大规模预训练短期负荷预测(STLF)模型。研究人员可以使用该数据集对STLF模型进行预训练,并通过零样本STLF和迁移学习任务对其进行评估。此外,数据集还提供了预训练模型在不同规模和多样性的数据集上的性能表现,为研究数据集规模和多样性对模型泛化能力的影响提供了参考。
背景与挑战
背景概述
在建筑能耗预测领域,短期负荷预测(STLF)对于电力系统的规划和优化至关重要。然而,由于缺乏开放、大规模且具有高建筑多样性的数据集,数据驱动型STLF的研究进展受到了限制。为了解决这一问题,研究人员开发了BuildingsBench平台,其中包括Buildings-900K数据集,这是一个包含900K个模拟建筑的美国建筑存量的大型数据集,以及一个评估平台,该平台包含来自7个开放数据集的超过1,900个真实的住宅和商业建筑。BuildingsBench旨在通过基准测试零样本STLF和迁移学习任务来促进STLF研究,并探索模型预训练对STLF的影响。该数据集和相关平台为研究者提供了一个重要的资源,有助于推动建筑能耗预测领域的发展。
当前挑战
尽管BuildingsBench为STLF研究提供了重要的资源,但仍存在一些挑战。首先,住宅建筑的负荷预测比商业建筑更具挑战性,因为住宅建筑的负荷受 occupant 行为和天气变化的影响更大。其次,数据集主要代表西北半球的建筑能耗,可能无法代表其他地区的建筑能耗模式。此外,用于模拟住宅建筑能耗的随机occupancy模型不如现实生活中的行为复杂,这增加了模拟与现实之间的差距。最后,数据集的预训练和评估数据主要基于模拟数据,而将模型部署到真实建筑时,预训练在模拟数据上的限制可能会成为一个问题。这些挑战需要研究者进一步探索和解决,以提高STLF的准确性和泛化能力。
常用场景
经典使用场景
Buildings-900K数据集是一个包含90万个模拟建筑的能量消耗时间序列的大规模数据集,代表美国建筑存量。该数据集主要用于短期负荷预测(STLF)任务,特别是在零样本STLF和迁移学习方面。通过在模拟数据上预训练模型,研究人员可以在未见过的建筑上快速部署模型,无需对每个新建筑进行微调。此外,数据集还支持在有限的真实建筑数据上进行迁移学习,以进一步提高模型的性能。
实际应用
Buildings-900K数据集的实际应用场景包括但不限于:1. 帮助电力系统运营商匹配能源供应和客户需求,以及帮助能源市场根据预测的供需情况准确设定价格。2. 通过强化学习和模型预测控制,直接利用准确的预测结果进行最优建筑能源管理。3. 通过预测建筑能源需求,帮助减少全球碳排放,推动建筑脱碳。
衍生相关工作
Buildings-900K数据集衍生了多项相关研究,包括但不限于:1. 探索不同规模和多样性的数据集对模型泛化能力的影响。2. 研究预训练模型在真实建筑上的泛化能力,并评估数据集规模和多样性对模型性能的影响。3. 研究迁移学习在STLF中的应用,并评估在不同规模和多样性的数据集上预训练模型的效果。4. 探索基于地理时间序列的大规模预训练,并评估transformer模型在预测任务中的有效性。
以上内容由遇见数据集搜集并总结生成



