five

ArchEGraph/ArchEGraph

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ArchEGraph/ArchEGraph
下载链接
链接失效反馈
官方服务:
资源简介:
PACK是一个为基于图和天气条件学习而组织的建筑能源数据集。数据集包含49,326个案例,涉及5,481个独特的建筑和64个独特的天气ID。每个案例的时间步数范围从968到8,760,空间数范围从1到231。数据集包含manifest.csv文件(所有案例的索引)、building/文件夹(5,481个文件)、geometry/文件夹(5,482个文件)、weather/文件夹(64个文件)、energy/文件夹(49,326个文件,嵌套在子文件夹如00/下)和split/文件夹(预定义的分割CSV文件)。每个案例在manifest.csv中有一行记录,包含样本ID、来源标签、天气ID、建筑ID、能源文件路径、时间步数和空间数等信息。数据集还提供了多个分割文件,用于不同的训练和测试场景。

PACK is a building-energy dataset organized for graph-based and weather-conditioned learning. The dataset contains 49,326 cases, involving 5,481 unique buildings and 64 unique weather IDs. The range of time steps (n_steps) is from 968 to 8,760, and the range of spaces (n_spaces) is from 1 to 231. The dataset includes manifest.csv (index of all cases), building/ (5,481 files), geometry/ (5,482 files), weather/ (64 files), energy/ (49,326 files; nested under subfolders like 00/), and split/ (predefined split CSV files). Each case in manifest.csv contains sample_id, source_job_tag, weather_id, building_id, energy_file, n_steps, and n_spaces. The dataset also provides several split files for different training and testing scenarios.
提供机构:
ArchEGraph
搜集汇总
数据集介绍
main_image_url
构建方式
ArchEGraph是一个面向建筑能耗预测的图结构数据集,专为基于图神经网络和气象条件的学习任务而设计。该数据集通过融合建筑几何信息、空间划分与气象数据,将每一组建筑与对应天气组合为一个样本案例。核心索引文件manifest.csv记录了49,326个样本案例的元数据,包含样本ID、建筑ID、天气ID、能量文件路径、时间步数及空间数量,构建了从建筑到能耗的完整数据链条。数据以二进制npz格式存储,建筑、几何与天气文件分别独立存放,能耗文件则按子文件夹分层组织。此外,数据集中预定义了多种划分CSV文件,以支持不同实验场景的复现与对比。
特点
该数据集涵盖5,481栋独特建筑与64种气象条件,时间步长范围从968至8,760,空间数量从1至231,展现出丰富的时空多样性。每个样本通过建筑ID与天气ID唯一标识,支持多尺度跨条件的泛化学习。数据集中包含多种预设划分方案,如按比例、按中间值、按建筑偏置或天气偏置的拆分,便于研究者评估模型在不同偏差条件下的鲁棒性。特别地,能量文件路径采用嵌套结构存储,设计上规避了单一目录下的扁平化局限,体现了数据管理上的精细考量。这种结构设计使得ArchEGraph既适用于建筑能耗的时间序列预测,也支持图结构上的空间关系建模。
使用方法
使用ArchEGraph数据集时,首先通过pandas读取manifest.csv文件获取样本索引。随后利用样本中的building_id、weather_id与energy_file路径,分别加载对应的建筑、天气与能耗npz文件,构建完整输入输出数据。推荐用户结合预设分流CSV文件进行训练集、验证集与测试集的划分,以保障实验的可重复性。对于资源受限的场景,可使用split_demo.csv选取300个样本进行快速原型开发。值得注意的是,能耗文件存储于多层子文件夹内,需严格依据energy_file字段进行路径拼接,避免直接遍历根目录。数据集在所有预处理数据上保持了Apache-2.0的开源协议,便于学术研究与工业应用。
背景与挑战
背景概述
ArchEGraph是由相关研究机构创建的一个面向建筑能耗建模的图结构数据集,发布于Hugging Face平台,旨在推动基于图神经网络的建筑能效分析与天气条件关联学习。该数据集包含49,326个样本,涵盖5,481栋独特建筑与64种天气场景,时间步长从968到8,760步不等,空间分区数量从1到231个。核心研究问题在于如何利用图表示学习捕捉建筑几何、空间拓扑与气象因素之间的复杂耦合关系,从而提升建筑能耗预测的精度与泛化能力。ArchEGraph的推出为建筑科学领域提供了首个大规模、结构化的图数据基准,有力促进了图机器学习在建筑能源管理中的应用与发展。
当前挑战
该数据集面临的挑战主要体现在两方面。在领域问题层面,建筑能耗预测长期受限于传统方法难以有效融合多模态异构数据(如几何结构、时间序列能耗与气象参数),而图神经网络虽具潜力,却缺乏标准化的大规模训练资源,阻碍了建模能力的突破。在构建过程中,如何从模拟工具中提取并统一表示建筑的空间拓扑信息,如何将5,481栋不同设计风格与功能布局的建筑转化为可比的图结构,以及如何确保49,326个样本在不同天气条件下的数据一致性与完整性,均构成了显著的工程与算法挑战。此外,数据存储采用嵌套文件夹结构,文件数量庞大,增大了数据加载与预处理的复杂度。
常用场景
经典使用场景
ArchEGraph数据集专为基于图神经网络(GNN)和气象条件感知的建筑能耗预测而设计。它整合了建筑拓扑结构、几何特征与时空能耗数据,能够构建建筑内部空间与能耗节点间的图结构关系。研究者可通过该数据集训练模型,学习建筑能耗在时间序列上的动态变化规律,并结合气象因素(如温度、湿度)进行条件建模,从而精准预测不同建筑类型、气候区域下的能耗模式。这一经典使用场景为建筑能源领域的图学习研究提供了标准化基准。
实际应用
在实际应用中,ArchEGraph可赋能智能建筑管理系统与城市能源规划。通过集成气象驱动的图预测模型,建筑运营方能动态优化暖通空调(HVAC)策略,实时调整供暖、通风和照明负荷,降低15%-30%的运营能耗。该数据集还可用于城市级能源孪生系统的构建,辅助电网公司预测区域性负荷曲线,避免用电高峰时的供需失衡。此外,其预定义的数据划分(如建筑偏移、气象偏移)支持模型泛化能力评估,直接服务于能源审计与建筑能效评级等商业化场景。
衍生相关工作
ArchEGraph衍生了一系列经典工作,包括基于时态图注意网络的建筑能耗预测架构和气象增强的图对比学习框架。研究者利用其多模态数据(建筑图、几何、能耗、天气)开发了物理信息引导的GNN模型,将热力学方程作为图上的消息传递约束。此外,数据集催生了跨区域迁移学习方法,解决了低资源城市能耗建模中的数据稀缺问题。相关论文已在能源与AI顶会(如BuildSys、NeurIPS AI4Climate)发表,形成了建筑图学习领域的标准评测基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作