EEE_datastore

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/evaleval/EEE_datastore

下载链接

链接失效反馈

官方服务：

资源简介：

Every Eval Ever Datastore 是一个用于存储AI评估结果的共享模式和众包评估数据库。该数据集定义了标准化的元数据格式，用于存储从排行榜抓取、研究论文到本地评估运行等各种AI评估结果，使来自不同框架的结果能够进行比较、复现和重用。数据集包含三个核心组件：1) 定义评估结果比较所需信息的元数据模式；2) 数据入库前的验证机制；3) 支持将现有评估日志转换为标准格式的转换器。数据按基准测试、开发者和模型名称组织，采用UUID命名的JSON文件存储。数据集支持聚合评估结果和实例级详细数据，后者通过JSONL文件存储。包含多种评估框架的转换器，如Inspect AI、HELM和lm-eval-harness。该数据集适用于AI模型性能比较、评估方法研究和基准测试标准化等场景。

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，数据标准化是确保结果可比性与可复现性的基石。EEE_datastore数据集通过一套精心设计的元数据模式，构建了一个众包评估数据库。其构建过程严格遵循预定义的JSON模式，采用分层目录结构组织数据，以基准名称、开发者名称和模型名称作为文件夹层级。每个评估结果文件均以UUID命名，确保唯一性，并通过自动化验证流程确保数据符合模式规范。数据集整合了来自多个知名评估框架的转换结果，如Inspect AI、HELM和lm-eval-harness，实现了异构评估日志的统一格式化存储。

特点

该数据集的核心特征在于其高度结构化与标准化设计。它定义了一套完整的元数据模式，不仅涵盖模型信息、评估指标和分数细节，还详细记录了推理平台、生成配置及来源元数据等上下文信息。数据集支持从单一基准到复合基准的多种评估类型，并能同时容纳数值型与等级型度量。尤为突出的是，它提供了实例级数据支持，通过JSONL文件存储逐样本的交互细节，包括单轮对话、多轮对话以及智能体式评估的完整轨迹。这种设计使得评估结果不仅包含聚合分数，还保留了可追溯的原始交互记录，极大增强了数据的可解释性与可复用性。

使用方法

研究人员与开发者可通过多种途径利用该数据集。对于数据贡献，用户需遵循指定的文件夹结构和UUID命名规范，将符合模式的JSON文件提交至HuggingFace仓库，系统将自动执行模式验证。对于数据消费，用户可直接访问数据集文件，利用提供的Pydantic类进行便捷的数据加载与处理。数据集内嵌的评估转换器工具，能够将主流评估框架的输出日志自动转换为标准格式，简化了数据集成流程。此外，数据集支持对评估结果进行跨模型、跨基准的横向比较分析，并为实例级数据的深入挖掘提供了结构化基础，适用于模型性能分析、评估方法研究及基准测试开发等多种场景。

背景与挑战

背景概述

EEE_datastore数据集由EvalEval联盟于2026年创建，旨在解决人工智能模型评估领域长期存在的碎片化与不可比性问题。该数据集通过定义标准化的元数据模式，整合了来自多个主流评估框架（如HELM、lm-eval-harness）以及公开排行榜的评测结果，涵盖了从基础知识问答到复杂代码生成等多种能力维度。其核心研究问题聚焦于如何构建一个统一、可复现的评估数据库，以支持跨模型、跨任务的公平性能比较，从而推动大语言模型评估方法的科学化与透明化进程，对促进AI评估生态的协作与标准化具有深远影响。

当前挑战

该数据集致力于解决人工智能模型评估结果分散、格式不一导致的难以横向对比与复现的领域挑战。在构建过程中，面临多重技术与管理难题：首先，需要设计一套既灵活又严格的元数据模式，以兼容不同评估框架的输出结构，同时确保关键信息（如生成配置、评分标准）的完整捕获；其次，实现大规模异构数据的自动化验证与规范化转换，涉及对时间戳、模型标识、实例级交互轨迹等复杂字段的精确处理；此外，建立可持续的众包贡献机制，保障数据质量与版本一致性，亦是一项重要的社区协作挑战。

常用场景

经典使用场景

在人工智能模型评估领域，EEE_datastore作为标准化评估结果的集中存储库，其经典使用场景在于为研究者提供跨框架、跨时间维度的模型性能对比分析。通过整合来自MMLU、HELM、LiveCodeBench Pro等多样化基准测试的数据，该数据集使得不同评估体系下的模型得分能够被统一解析与比较，从而支撑大规模模型能力图谱的绘制与演进趋势的追踪。

衍生相关工作

围绕EEE_datastore的标准化模式，已衍生出多项重要的学术与实践工作。EvalEval联盟基于该模式发起了ACL 2026共享任务，推动社区大规模贡献与整合评估数据；同时，针对Inspect AI、HELM、lm-eval-harness等主流评估框架开发的转换器工具链，实现了历史评估日志向统一模式的自动化迁移，为构建全景式模型评估生态奠定了技术基础。

数据集最近研究