Building Data Genome 2 (BGD2)

github2024-07-31 更新2024-08-01 收录

下载链接：

https://github.com/nkapila6/lstm-bgd2

下载链接

链接失效反馈

官方服务：

资源简介：

BGD2数据集包含来自1,636座建筑的3,053个能源计量器在两年内每小时的能源数据。数据集涵盖多种建筑用途类型和不同大小的建筑，用于训练LSTM模型。

The BGD2 dataset contains hourly energy data collected over two years from 3,053 energy meters across 1,636 buildings. It covers buildings with various usage types and different sizes, and is intended for training LSTM models.

创建时间：

2024-07-26

原始信息汇总

LSTM训练数据集概述

数据集信息

数据集名称: Building Data Genome 2 (BGD2)
数据类型: 2年每小时的能源计量数据
数据量: 3,053个能源计量器，来自1,636座建筑

数据预处理

数据分类: 根据建筑用途类型和大小进行分类
- 建筑用途类型: 办公室、教育、住宿/住宅
- 大小范围: 1001-5000, 5001-10000, 10001-25000, 25001-50000, 50001-100000, 100001-200000, 200001-500000平方英尺
缺失数据处理:
- 2016年的数据因电表故障缺失，被完全跳过
- 2017年的缺失数据点采用加权平均法填补
数据聚合: 使用中位数作为数据子集的聚合指标，以减少异常值的影响

模型训练

模型类型: 单层LSTM，隐藏层大小为50
训练方法: 滑动窗口法和时间序列交叉验证
训练结果:
- 短期模型: 30小时预测窗口，测试集上的平均绝对百分比误差(MAPE)约为4-5%
- 长期模型: 360小时预测窗口，测试集上的MAPE较高，表明模型在捕捉长期依赖方面存在困难

依赖库

数据处理和模型训练:
- joblib==1.4.2
- matplotlib==3.9.1
- metaflow==2.12.8
- numpy==2.0.1
- pandas==2.2.2
- scikit_learn==1.5.1
- torch==2.3.1
Metaflow UI:
- metaflow-service
- metaflow-ui
- Docker

搜集汇总

数据集介绍

构建方式

Building Data Genome 2 (BGD2) 数据集的构建基于对1,636座建筑的3,053个能源计量器进行为期两年的每小时数据收集。数据集的构建过程包括数据摄取、预处理、模型训练、评估和日志记录等多个步骤。特别地，数据预处理阶段涉及对建筑使用类型和面积大小的分类，以及对缺失数据的处理，如跳过2016年的数据并使用加权平均法填补2017年的缺失点。此外，通过选择数据的中位数来减少异常值的影响，确保训练数据的完整性。

使用方法

使用 BGD2 数据集时，用户需首先安装必要的Python库，如joblib、matplotlib、metaflow等，并配置Metaflow UI以运行模型训练流程。数据集的预处理步骤包括分类建筑使用类型和面积大小，处理缺失数据，并使用滑动窗口方法准备时间序列数据。模型训练阶段则涉及选择合适的超参数，如LSTM的隐藏层大小，并通过时间序列交叉验证确保模型的泛化能力。

背景与挑战

背景概述

Building Data Genome 2 (BGD2)数据集是由主要研究人员或机构收集并创建的，旨在解决建筑能源消耗预测的核心研究问题。该数据集包含了来自1,636座建筑的3,053个能源计量器在两年内每小时的能耗数据，总计超过2年的小时级数据。BGD2数据集的创建不仅为建筑能源管理提供了丰富的数据资源，还推动了时间序列分析和机器学习在能源预测领域的应用。通过该数据集，研究人员能够开发和验证各种预测模型，从而提高建筑能源效率和可持续性。

当前挑战

尽管BGD2数据集为建筑能源预测提供了宝贵的资源，但其构建和应用过程中仍面临多项挑战。首先，数据集中的缺失数据问题显著，特别是2016年的数据由于电表故障而大量缺失，这影响了模型的准确性和可靠性。其次，数据集中的多样性，如不同建筑用途和尺寸，增加了数据预处理的复杂性，需要精细的分类和归一化处理。此外，长短期记忆网络（LSTM）模型在处理长时序依赖性时表现不佳，尤其是在长期预测中，模型的误差显著增加，这表明现有模型在捕捉长期趋势方面仍有改进空间。

常用场景

经典使用场景

在建筑能源管理领域，Building Data Genome 2 (BGD2) 数据集的经典使用场景主要集中在能源消耗预测和优化。通过利用BGD2数据集中的大量建筑能源使用数据，研究者和工程师可以训练长短期记忆网络（LSTM）模型，以预测未来能源需求。这种预测不仅有助于优化能源分配，还能为建筑管理者提供决策支持，从而实现节能减排的目标。此外，该数据集还支持基于建筑类型和规模的多维度分析，使得模型能够针对不同建筑特性进行定制化预测。

解决学术问题

BGD2数据集在学术研究中解决了多个关键问题。首先，它为能源预测模型提供了丰富的实测数据，填补了传统研究中数据稀缺的空白。其次，通过处理和分析大规模的建筑能源数据，研究者能够深入探讨能源消耗的时空特性，推动能源管理理论的发展。此外，BGD2数据集还促进了跨学科研究，如建筑科学、机器学习和数据科学之间的融合，为复杂系统的建模和优化提供了新的视角和方法。

实际应用

在实际应用中，BGD2数据集被广泛用于智能建筑管理系统。通过集成LSTM模型，这些系统能够实时监控和预测建筑能源使用情况，从而实现动态能源调度。例如，在商业建筑中，系统可以根据预测结果自动调整空调和照明系统，以减少不必要的能源消耗。此外，BGD2数据集还支持城市级别的能源管理，帮助城市规划者优化能源基础设施，提升整体能源效率。

数据集最近研究