Energy Decision Benchmark (EDB-P)

github2026-01-23 更新2026-01-24 收录

下载链接：

https://github.com/EnergyGreenData/edb-public

下载链接

链接失效反馈

官方服务：

资源简介：

能源决策基准（EDB）是一个用于评估受监管能源领域AI系统操作准备情况的可重复基准。它解决了大多数AI基准关注通用能力，但关键基础设施需要系统在监管约束下安全运行的空白。

The Energy Decision Benchmark (EDB) is a reproducible benchmark for evaluating the operational readiness of AI systems in the regulated energy sector. It fills the gap where most AI benchmarks prioritize general capabilities, yet critical infrastructure applications require AI systems to operate safely within regulatory constraints.

创建时间：

2026-01-14

原始信息汇总

Energy Decision Benchmark (EDB-P) 数据集概述

数据集基本信息

模块名称: Energy Decision Benchmark (EDB)
类别: 公共人工智能评估基准
项目: Energy Green Data
版本: 1.0.0
领域: 能源系统与关键基础设施
最后验证日期: 2026-01-14
DOI: https://doi.org/10.5281/zenodo.18329494

许可信息

代码许可: MIT License
数据集许可: CC BY 4.0

数据集范围与目标

评估目标: 在定义条件下评估可观察的决策行为。
非目标:
- 不披露任何被评估系统的内部架构、决策逻辑、规则层次结构或优化策略。
- 通过基准测试并不意味着系统之间的架构等效。
- 衡量系统在关键基础设施环境中是否表现出负责任的决策属性，而非如何实现这些属性。

数据集构成

公开数据集 (EDB-P): 包含 150 个合成测试案例。
保留数据集 (EDB-X): 包含 50 个对抗性测试案例，未公开发布以防止针对性优化。
数据来源: 所有测试案例均为合成数据，不包含真实用户数据。

评估维度

EDB 评估操作就绪性的六个独立维度：

维度	案例数量	描述
逻辑一致性	30	检测输入/约束中的矛盾
反事实鲁棒性	25	在轻微扰动下保持一致性
法规遵从性	30	尊重法律/监管边界
数据充分性检测	20	识别数据不足与虚构信息
时间预测	25	做出可事后验证的预测
多轮对话一致性	20	保持对话记忆

评估方法

评估类型: 黑盒评估，仅测量可观察行为。
评估原则: 基于属性的测试，定义系统应做什么，而非如何做。
评估过程: 通过 API 进行服务器端评分，以保持基准测试的完整性。
评估标准: 未公开发布，以防止针对性优化。

统计验证

结果已在相关论文中展示：

弗里德曼检验: χ²=187.4， df=5， p<0.001（高度显著）。
效应大小: ω²=0.73（根据 Cohen 标准为大效应）。
Bootstrap置信区间: 10,000 次迭代，95% 置信区间。
样本量: n=150 (EDB-P) + n=50 (EDB-X，保留)。

快速开始

克隆仓库：git clone https://github.com/EnergyGreenData/edb-public.git
数据集文件位于 dataset/edb-p-v1.0.json。

文件结构

dataset/edb-p-v1.0.json: 完整数据集（150 个测试案例）。
dataset/schema.json: JSON 模式验证文件。
dataset/metadata.json: 版本和校验和信息。
CITATION.cff: 学术引用元数据。
LICENSE: 许可证文件。

API 访问

功能状态:
- 浏览数据集：✅ 公开
- 下载测试案例：✅ 公开 (JSON)
- 自动评估：✅ 可用（需要 API 密钥）
API 端点: https://api.watioverse.com
获取 API 密钥: https://vertical-agi.ai/benchmark-2025#api-access

引用

如果研究中使用 EDB，请引用： bibtex @misc{DiazGonzalez2026EDB, author = {Diaz-Gonzalez, A. A.}, title = {Energy Decision Benchmark (EDB-P): Public Dataset v1.0}, year = {2026}, howpublished = {Zenodo}, doi = {10.5281/zenodo.18329494}, url = {https://doi.org/10.5281/zenodo.18329494}, note = {url{https://github.com/EnergyGreenData/edb-public}} }

联系信息

作者: Alejandro A. Díaz González
组织: Energy Green Data
联系: https://vertical-agi.ai?source=edb-benchmark

搜集汇总

数据集介绍

构建方式

在能源系统与关键基础设施领域，评估人工智能系统的操作就绪性面临独特挑战。Energy Decision Benchmark (EDB-P) 数据集的构建遵循严谨的科学方法，其核心在于生成150个合成测试案例。这些案例被精心设计为非组合式，旨在防止对内部决策逻辑或规则层次进行反向推断。数据集涵盖六个独立的评估维度，包括逻辑一致性与监管合规性等，每个维度的案例数量经过统计考量。所有案例均为人工合成，不包含任何真实用户数据，确保了评估的纯粹性与可复现性。一个包含50个对抗性案例的保留集（EDB-X）未被公开，用以维护基准测试的完整性，防止系统针对测试集进行过度优化。

特点

该数据集最显著的特点在于其黑盒评估范式与基于属性的测试设计。它不关注被评估系统的内部架构或算法实现，而是严格测量其在定义条件下的可观测行为表现。六个评估维度彼此独立，分别衡量逻辑一致性、反事实鲁棒性、监管合规性等关键操作属性，而非提供标准答案。数据集具有高度的统计严谨性，其设计支撑了弗里德曼检验、自举置信区间和效应量计算等分析方法。作为公开可用的基准，EDB-P 提供了完整的测试案例、评估代码与元数据，同时通过保留对抗性案例集，有效防范了基准测试被操纵的风险，确保了评估结果的公平性与可靠性。

使用方法

研究人员可通过克隆项目仓库直接访问数据集文件，以JSON格式加载并分析150个公开测试案例。对于全面的系统评估，需通过官方API提交系统响应以获取服务器端评分。该黑盒评估流程要求用户申请API密钥，并通过指定端点提交案例响应，随后接收涵盖六个维度的详细分数报告。评估标准不予公开，这一设计保障了基准测试的长期有效性。数据集适用于对AI系统在受监管能源领域中的决策行为进行可复现的实证研究，其结构支持对系统操作就绪性不同侧面的深入分析，为关键基础设施中负责任人工智能的评估提供了标准化工具。

背景与挑战

背景概述

在人工智能技术日益渗透关键基础设施领域的背景下，能源系统的智能化决策面临严峻的可靠性与合规性考验。Energy Decision Benchmark (EDB-P) 数据集于2026年由Alejandro A. Díaz González及Energy Green Data机构创建，旨在填补现有评估体系的空白。该数据集聚焦于垂直领域人工智能的运营就绪度评估，核心研究问题是衡量AI系统在受监管的能源环境中能否做出安全、合规且一致的决策。通过提供一套标准化的黑盒测试案例，EDB-P为评估系统在逻辑一致性、法规遵从性等多维度的表现建立了科学基础，对推动能源领域可信AI的发展具有重要影响力。

当前挑战

该数据集致力于解决能源关键基础设施中AI决策系统的评估挑战，其核心在于如何系统化地衡量系统在复杂约束下的行为可靠性，而非仅仅关注其通用能力。构建过程中的主要挑战包括：设计既能反映真实场景又完全合成的测试案例，以避免使用真实用户数据带来的隐私与安全风险；确保评估维度的独立性与统计严谨性，如通过弗里德曼检验和自助法置信区间来验证结果的有效性；以及维护基准的完整性，通过保留未公开的对抗性测试集（EDB-X）来防止系统针对已知案例进行过度优化或博弈。

常用场景

经典使用场景

在能源系统与关键基础设施领域，人工智能系统的部署必须满足严格的可靠性与合规性要求。Energy Decision Benchmark (EDB-P) 作为一个公开的评估基准，其经典使用场景在于为研究人员提供一套标准化的黑盒测试框架，用以系统性地衡量AI模型在受监管能源环境中的操作就绪度。该数据集通过150个合成测试案例，覆盖逻辑一致性、反事实鲁棒性、法规遵从性等六个独立维度，使得不同系统能够在统一、可复现的条件下接受评估，从而推动AI在关键基础设施中负责任决策能力的发展。

衍生相关工作

围绕EDB-P数据集，已衍生出一系列聚焦于垂直领域AI评估的经典研究工作。其开创性的属性测试与黑盒评估方法，为后续针对金融、医疗等其他受监管领域的高风险AI基准设计提供了重要参考。相关研究进一步探讨了如何在保持评估严谨性的同时，防止对抗性过拟合（通过保留未公开的EDB-X测试集）。这些工作共同深化了对于‘操作性就绪度’这一概念的理解，推动了从通用人工智能评估向领域特定、以安全与合规为核心的专业评估范式的演进。

数据集最近研究