Early-stage Building Energy Dataset

github2025-12-04 更新2025-12-20 收录

下载链接：

https://github.com/SB-Chalmers/early-stage-building-energy-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含用于博士研究的材料，研究内容是通过早期建筑设计变量创建机器学习模型来预测住宅建筑的能源需求。数据集包括Grasshopper生成脚本、合成训练数据以及开发的机器学习模型和示例训练代码。

This repository contains materials for a PhD research study focused on developing machine learning models to predict the energy demand of residential buildings using early-stage architectural design variables. The dataset includes Grasshopper generation scripts, synthetic training data, developed machine learning models, and sample training code.

创建时间：

2025-12-04

原始信息汇总

Early-stage Building Energy Dataset 数据集概述

数据集基本信息

数据集名称：Early-stage Building Energy Dataset
数据集地址：https://github.com/SB-Chalmers/early-stage-building-energy-dataset
DOI：https://doi.org/10.1016/j.egyai.2025.100557
许可协议：MIT
编程语言要求：Python 3.8+

研究背景与目的

研究背景：该数据集是博士研究项目的一部分，旨在创建机器学习模型，以根据早期建筑设计方案变量预测住宅建筑的能源需求。
研究重点：探究简单的建筑设计变量（形状、朝向、窗墙比、建筑紧凑度等）如何影响年度能源需求。
研究目标：开发快速、准确的代理模型，用于早期设计探索阶段，在不进行昂贵模拟的情况下估算供暖和制冷负荷。

数据集内容与结构

包含的数据与文件

Grasshopper生成脚本：用于生成9种不同建筑设计变量的建筑形状。位于data/grasshopper/目录。
合成训练数据：映射单个建筑设计变量与其相应年度能源需求的合成训练数据集。示例文件为data/synthetic/sample_synthetic.csv，详情参见data/synthetic/README.md。
机器学习模型与代码：已开发的机器学习模型及示例训练代码。位于models/目录和scripts/train_model.py脚本。

仓库结构

data/
- grasshopper/ - 用于生成9种建筑形状的Grasshopper脚本或说明。
- synthetic/ - 合成训练数据集（CSV文件）。包含一个用于快速测试的小样本。
models/ - 训练好的模型文件及模型元数据。
scripts/ - 用于训练模型、运行预测和数据预处理的Python脚本。
docs/ - 使用说明、方法学笔记和结果复现指南。
requirements.txt - 训练和推理所需的Python依赖项。
.gitignore - 针对模型、虚拟环境和数据集的常见忽略文件。

使用说明

快速开始（Windows PowerShell）

创建并激活虚拟环境：

PS> python -m venv .venv; ..venvScriptsActivate.ps1
安装依赖项：

PS> pip install -r requirements.txt
使用包含的样本数据集训练示例模型：

PS> python .scripts rain_model.py --data .datasyntheticsample_synthetic.csv --output models/rf_model.joblib
更多详情：参见docs/USAGE.md，包括如何运行推理以及添加自己的Grasshopper输出。

重要说明

包含的sample_synthetic.csv是一个用于开发和测试的小型合成示例，不代表真实的能源使用情况。
对于生产实验，建议将样本CSV替换为data/synthetic/中的完整合成数据集，并考虑将大型数据集存储在仓库外部（如数据服务器或云存储）。

引用

如果在研究中使用此数据集或代码，请引用与此项目相关的同行评审论文： https://doi.org/10.1016/j.egyai.2025.100557

搜集汇总

数据集介绍

构建方式

在建筑能源效率研究领域，早期设计阶段对能耗的精准预测至关重要。该数据集通过参数化设计工具Grasshopper脚本生成九种不同建筑形态，系统性地调整形状、朝向、窗墙比及建筑紧凑度等关键设计变量，并利用能源模拟软件计算对应的年度供暖与制冷负荷，从而构建出从设计参数到能耗指标的映射关系。为扩充数据规模，研究进一步采用合成数据生成技术，基于物理模型与统计方法创建了涵盖广泛设计空间的训练样本，确保了数据集的多样性与代表性。

特点

该数据集聚焦于建筑设计初期阶段，其核心特点在于将复杂的建筑能耗预测问题简化为可量化的设计变量函数。数据集不仅包含了多种基础建筑形态的能耗对应关系，还通过合成数据扩展了设计参数的取值范围，有效覆盖了从简单几何到复杂形态的连续设计空间。这种结构化的数据组织方式使得机器学习模型能够快速捕捉设计变量与能耗之间的非线性关联，为早期设计决策提供了高效且可靠的评估工具。

使用方法

使用者可通过提供的Python脚本快速启动模型训练与预测流程。首先配置所需的虚拟环境并安装依赖项，随后利用示例合成数据或自定义的Grasshopper输出数据训练随机森林等机器学习模型，生成能耗预测的代理模型。训练完成的模型可直接用于新设计方案的能耗估算，无需进行耗时的动态模拟。数据集中附带的详细文档与代码示例确保了研究过程的可复现性，支持用户根据实际需求调整模型架构或纳入新的设计变量。

背景与挑战

背景概述

在建筑节能设计领域，早期设计阶段的决策对建筑全生命周期的能耗表现具有决定性影响。Early-stage Building Energy Dataset 由相关研究团队于2025年创建，旨在通过机器学习方法构建快速准确的代理模型，以预测住宅建筑的年度能源需求。该数据集聚焦于建筑形态、朝向、窗墙比及紧凑度等关键设计参数，其核心研究问题在于探索如何利用简约的早期设计变量高效估算供暖与制冷负荷，从而替代传统耗时的模拟计算。这一工作为建筑师与工程师在概念设计阶段提供了数据驱动的决策支持，推动了建筑信息建模与可持续设计领域的智能化发展。

当前挑战

该数据集致力于解决建筑早期设计阶段的能耗预测挑战，其核心在于从有限的几何与物理参数中准确推断复杂的建筑能源性能，这要求模型具备处理高维非线性关系的能力。在构建过程中，研究团队面临合成数据生成的真实性验证难题，需确保参数化建模生成的建筑形态与能耗映射关系能够有效反映实际物理规律。此外，如何平衡模型的预测精度与计算效率，以适配早期设计快速迭代的需求，亦是数据集应用中的关键挑战。

常用场景

经典使用场景

在建筑节能设计领域，早期设计阶段的决策对建筑全生命周期能耗具有深远影响。该数据集通过整合建筑形状、朝向、窗墙比及紧凑度等关键设计变量，为机器学习模型提供了训练基础，使其能够快速预测住宅建筑的年度能耗需求。研究人员利用该数据集构建代理模型，替代传统耗时的能耗模拟，从而在设计探索初期实现高效、低成本的能耗评估与优化。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于随机森林、梯度提升等算法的能耗预测模型比较，以及设计变量敏感性分析框架的开发。这些工作进一步探索了建筑形态参数与能耗的非线性关系，并推动了生成式设计工具的智能化升级。相关成果为建筑节能领域的开源数据生态系统贡献了重要范例，激励了更多跨学科协作与创新。

数据集最近研究