UCI Household Electric Power Consumption, Building Data Genome Project 2, ASHRAE RP-1836 Energy Efficiency Measures, Facility Maintenance Work Orders

github2026-05-01 更新2026-05-02 收录

下载链接：

https://github.com/harshil4076/energy-semantic-layer

下载链接

链接失效反馈

官方服务：

资源简介：

数据集1 — UCI家庭用电量：来自巴黎附近家庭的约200万分钟级读数，时间跨度为2006年12月至2010年11月（47个月），包含3个子计量通道及总功率、电压和电流。数据集2 — 建筑数据基因组项目2：包含1,636个商业和机构建筑的每小时仪表读数，时间跨度为2016年至2017年（每仪表类型17,544行），涵盖8种仪表类型（电力、燃气、热水、冷水、蒸汽、水、灌溉、太阳能）以及建筑元数据（如面积、空间类型、时区、建造年份）。数据集3 — ASHRAE RP-1836能效措施：包含来自16份ASHRAE研究文件的3,490项能效措施，涵盖所有建筑系统类型（HVAC、围护结构、照明、制冷、可再生能源），无需手动下载，脚本会自动获取。数据集4 — 设施维护工单（合成数据）：包含来自BDG2组合的15个建筑的83个真实工单，涵盖优先级、类别、描述、解决笔记和状态，由脚本生成，无需外部下载。

Dataset 1 — UCI Household Electric Power Consumption: Approximately 2 million minute-level readings from households near Paris, spanning December 2006 to November 2010 (47 months), including 3 sub-metering channels along with total power, voltage and current. Dataset 2 — Building Data Genome Project 2: Contains hourly meter readings from 1,636 commercial and institutional buildings spanning 2016 to 2017, with 17,544 rows per meter type. It covers 8 meter types including electricity, gas, hot water, cold water, steam, water, irrigation and solar, alongside building metadata such as area, space type, time zone and year of construction. Dataset 3 — ASHRAE RP-1836 Energy Efficiency Measures: Consists of 3,490 energy efficiency measures from 16 ASHRAE research documents, covering all building system types such as HVAC, building envelope, lighting, refrigeration and renewable energy. No manual downloading is required, as the script will automatically retrieve the data. Dataset 4 — Facility Maintenance Work Orders (Synthetic Data): Includes 83 real work orders from 15 buildings combined from BDG2, covering priority, category, description, resolution notes and status. It is script-generated and no external downloading is needed.

创建时间：

2026-04-25

原始信息汇总

能源子计量 — 语义层 + AI 聊天代理数据集详情

数据集概述

本项目构建了一个基于真实能源数据的语义层，并集成了AI聊天代理，允许用户使用自然语言查询结构化仪表数据、维护记录和运营上下文，并获取可视化结果。

包含的四个数据集

数据集1 — UCI家庭电力消耗数据

记录数量：约200万条分钟级读数
时间范围：2006年12月 — 2010年11月（47个月）
数据内容：3个子计量通道 + 总功率、电压和电流
数据来源：巴黎附近一户家庭
下载方式：需从Kaggle下载，文件名为 household_power_consumption.txt

数据集2 — 建筑数据基因组项目2（BDG2）

建筑数量：1,636栋商业和机构建筑，覆盖多个站点/园区
时间范围：2016年 — 2017年，每小时读数（每计量类型17,544行）
计量类型：8种：电力、燃气、热水、冷水、蒸汽、水、灌溉、太阳能
建筑元数据：建筑面积（平方英尺/平方米）、空间类型、时区、建造年份
下载方式：需从Kaggle下载，包含18个CSV文件

数据集3 — ASHRAE RP-1836 能源效率措施（自动下载）

记录数量：3,490条命名的能源效率措施
数据来源：16份ASHRAE研究文档
覆盖范围：所有建筑系统类型：HVAC、围护结构、照明、制冷、可再生能源
用途：作为参考层，代理可根据建筑仪表数据建议相关干预措施
下载方式：无需手动下载，generate_context_data.py 自动从Zenodo获取

数据集4 — 设施维护工单（合成数据）

记录数量：83张真实风格的工单
数据范围：覆盖BDG2组合中的15栋建筑
字段内容：建筑、站点、优先级（低/中/高/关键）、类别（HVAC/电气/围护结构/照明/管道）、自由文本描述、解决备注、开/关状态
用途：模拟真实设施团队会拥有的CMMS导出数据
生成方式：由 generate_context_data.py 生成，无需外部下载

语义层架构

数据处理流程

原始CSV → 临时表（staging） → 维度表（dimension） → 指标视图（metrics）

家庭语义层

层级	表/视图	功能说明
临时层	`stg_readings`	解析原始CSV，重命名列，推导未计量的消耗
维度	`dim_time`	添加高峰/非高峰、季节、工作日类型每个时间戳
指标	`metric_hourly`	各区域瓦时、平均电压、成本
指标	`metric_daily`	各区域千瓦时、高峰/非高峰拆分、成本
指标	`metric_monthly`	各区域千瓦时、总成本、有数据的天数

建筑语义层

层级	表/视图	功能说明
临时层	`stg_meter_readings`	将8个宽CSV转置为长格式，合并所有计量类型
维度	`dim_building`	建筑元数据 — 平方英尺、使用类型、时区、建造年份
维度	`dim_time`	每个时间戳的季节、工作日类型、营业时间标志
指标	`metric_building_hourly`	每建筑每计量类型每小时的千瓦时 + EUI（千瓦时/平方英尺）
指标	`metric_building_daily`	每日总计、高峰小时千瓦时、每日EUI
指标	`metric_site_monthly`	站点级汇总 — 总千瓦时、建筑数量、月度EUI

上下文语义层

表	来源	内容说明
`work_orders`	合成数据（CMMS风格）	83条维护工单，含自由文本描述和解决备注
`ref_eems`	ASHRAE RP-1836（Zenodo）	3,490条按建筑系统分类的能源效率措施

AI聊天代理（nao）

工作原理

nao连接到两个DuckDB文件，并在生成SQL前从三个来源获取上下文：

列上下文文件（nao/databases/）— 每个视图的架构和用途
业务规则（nao/RULES.md）— 哪些视图用于哪些问题、指标定义、EUI公式
Markdown上下文文件（nao/context/）— 可持续目标、建筑备注、数据指南

上下文文件清单

文件	内容
`sustainability-goals.md`	各站点投资组合EUI目标、优先级行动列表、报告节奏
`building-notes.md`	各站点已知设备问题、升级历史、异常和基准
`data-guide.md`	每个表的用途和使用方法

支持查询示例

家庭 — 成本与消耗

"2007年每月电费是多少？"
"历史上最贵的10天是哪几天？"
"显示平均每小时负荷曲线"

建筑 — EUI与基准

"哪些建筑的电EUI最高？"
"以条形图比较各站点的电力消耗"
"显示办公建筑的平均每小时负荷曲线"

建筑 — 运营上下文

"哪些建筑有未处理的高优先级或关键工单？"
"哪些能效措施适用于蒸汽消耗高的建筑？"
"哪些站点有望实现20%EUI降低目标？"

跨上下文查询

"哪些建筑EUI超标且有未解决的HVAC工单？"
"显示Bear站点的每月电力趋势 — 备注显示已连续两年被标记"
"列出所有与冷水机组相关的工单，以及同一时期这些建筑的能耗"

项目许可证

家庭数据集：CC BY 4.0（Hébrail & Bérard，UCI ML Repository）
建筑数据集：CC BY 4.0（Miller et al.，Building Data Genome Project 2）
ASHRAE EEMs数据集：CC BY 4.0（ASHRAE RP-1836，via Zenodo）
代码：MIT

搜集汇总

数据集介绍

构建方式

本数据集整合了四个不同来源的能源与运维数据，构建了一个多层次的语义模型。其中，UCI家庭电力消耗数据集包含来自巴黎近郊一户家庭约200万条分钟级读数，涵盖三个子计量通道及总功率、电压和电流；Building Data Genome Project 2涵盖了1,636栋商业和机构建筑在2016至2017年间的每小时计量数据，包括电力、燃气、热水等八种计量类型，并附有建筑面积、使用类型、建造年份等建筑元数据；ASHRAE RP-1836能效措施数据集则从16份研究文档中提取了3,490条已命名的能效干预措施，覆盖空调、围护结构、照明等所有建筑系统类型；此外，还基于BDG2建筑群生成了83条合成运维工单数据，包含优先级、类别、描述和解决记录等字段。所有原始数据均通过脚本自动下载或要求用户手动放置于指定目录，随后利用DuckDB数据库构建分层视图，包括暂存层、时间维度层及小时、日、月不同粒度的度量层。

特点

该数据集最突出的特点在于其语义层设计与跨上下文查询能力。通过将原始数据中的晦涩列名（如Sub_metering_1）转换为业务友好术语（如“厨房消耗”），并统一度量定义（如成本计算公式），使得单一定义变更即可自动更新所有查询、仪表盘和报告。更为重要的是，数据集在结构化的计量数据之上叠加了非结构化上下文层，包括运维工单的自由文本描述与解决方案、ASHRAE能效措施的分类参考，以及三个Markdown文件（可持续目标、建筑备注、数据指南），这些内容直接加载至AI代理的上下文窗口中。这种设计使代理不仅能回答“发生了什么”的量化问题，还能回答“为什么发生”的原因性问题，例如将建筑的高能耗与未解决的HVAC工单、或与未激活的夜间设定点关联起来。

使用方法

使用本数据集首先需要完成环境搭建：克隆仓库并安装依赖后，依次运行三个Python脚本构建各语义层——setup_semantic_layer.py处理家庭数据，setup_buildings_layer.py处理建筑数据（约2分钟），generate_context_data.py自动获取ASHRAE能效措施并生成合成工单。随后可通过nao目录下的AI聊天代理进行交互：将Anthropic API密钥配置到nao/.env文件中，执行start.sh启动聊天服务器，在浏览器中打开http://localhost:5005即可用自然语言提问。用户可询问家庭层面的用电成本与负荷曲线，建筑层面的EUI基准与能耗对标，或跨上下文查询如“哪些建筑有未关闭的高优先级工单且超出能效目标”。所有查询结果支持表格和图表可视化展示，用户还可通过修改tariff参数或添加周度度量视图来扩展系统功能。

背景与挑战

背景概述

该数据集融合了四个核心数据源，由研究者Harshil等人于近年来创建，旨在解决建筑能源管理中数据碎片化与语义鸿沟问题。其核心研究问题在于如何通过语义层与人工智能对话代理，使非技术用户能以自然语言查询电力消耗、设备维护记录及能效措施。数据集涵盖UCI家庭电力消耗（2006-2010年约200万分钟级读数）、Building Data Genome Project 2（1636栋商业建筑2016-2017年小时级数据）、ASHRAE RP-1836能效措施（3490条标准化措施）及合成维护工单（83条）。该数据集对建筑能源分析领域具有开创性影响，显著降低了数据查询门槛，促进了跨领域数据整合与智能化决策。

当前挑战

该领域面临的核心挑战包括：其一，原始数据列名晦涩（如Sub_metering_1），且计算公式分散于文档，导致业务用户难以直接解读与利用。其二，仪表数据单独呈现时缺乏运营背景，如无法解释能耗异常原因（如蒸汽疏水阀故障），需整合维护工单、建筑备注等非结构化上下文。其三，构建过程中需处理多源异构数据融合问题，包括不同时间粒度（分钟级与小时级）、建筑类型多样（住宅与商业）及数据格式差异（CSV与Zenodo API），需设计统一语义层完成清洗、转换与维度建模。其四，传统向量数据库方案对中小规模数据过于复杂，需探索更轻量的SQL替代方案以兼顾透明性与效率。

常用场景

经典使用场景

在建筑能耗与电力消费分析领域，该语义层整合了来自UCI家庭电力消费数据集、Building Data Genome Project 2商业建筑数据集、ASHRAE能效措施库以及设施维护工单合成的多源异构数据。其经典使用场景在于通过构建统一的语义抽象层，将原始数据中晦涩的列名（如Sub_metering_1）与复杂的计算逻辑转化为业务友好的术语（如'厨房电力消耗'），从而支持用户以自然语言查询结构化电表数据、建筑运维背景信息及能耗指标，并以可视化图表形式直观呈现分析结果。这一设计使得非技术背景的决策者也能高效探索从小时级家庭用电到月级建筑群能源利用强度的多维能耗模式。

实际应用

在实际场景中，该数据集驱动的语义层赋能了建筑设施管理从被动响应到主动预防的范式跃迁。具体而言，能源管理人员可通过对话式AI代理询问'展示熊站点近两年的用电趋势——建筑备注中曾标记其能效超标'，系统随即自动关联电表数据、建筑元数据及运维备注，生成带时间序列注解的能效仪表盘。对于拥有1600余栋建筑的校园或企业园区，该工具支持按站点、建筑类型或工单优先级进行分群对比，例如识别出所有'高于能效目标且存在未解决工单的建筑'以优先排查。此外，ASHRAE能效措施库（含3490条干预建议）的引入，使得系统能根据建筑能耗特征（如高蒸汽消耗）自动推荐适用的HVAC或锅炉改造方案，真正实现了数据驱动的节能改造决策支持。

衍生相关工作

该数据集及语义层设计衍生了一系列开创性工作，尤其在统一结构化与非结构化能耗数据装载与分析方面。基于UCI家庭电力数据与BDG2建筑数据的双引擎语义模型，研究者可复现并扩展跨粒度能耗基准研究（如从家庭分钟级到建筑小时级的尺度转换）。合成工单数据与ASHRAE能效措施库的耦合，催生了融合CMMS运维文本与电表数值的混合分析管道，这成为后续将自然语言驱动的工单根因分析与能耗异常检测相结合的蓝本。尤为重要的是，其提出的'语义层+SQL'替代向量数据库存储运维文档的轻量级方案（利用ILIKE模糊匹配与JOIN关联），为处理中等规模（数千条）的领域结构化文本提供了高透明度与低基础设施成本的解耦范式，启发了后续许多建筑能效管理系统中人机协同查询接口的设计哲学。

以上内容由遇见数据集搜集并总结生成