five

EEE_datastore

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/tamilore/EEE_datastore
下载链接
链接失效反馈
官方服务:
资源简介:
Every Eval Ever 是一个标准化的AI评估结果数据库,旨在通过统一的元数据格式存储和比较不同框架的评估结果。该数据集包含多个配置(如ace、apex-agents、helm_capabilities等),数据以parquet文件格式存储。数据集采用严格的JSON schema(eval.schema.json)定义评估结果的元数据,包括模型信息、评估结果、时间戳等字段。支持三种交互类型:单轮评估(single_turn)、多轮对话评估(multi_turn)和代理评估(agentic)。数据集还包含实例级数据,存储在JSONL文件中。使用前需通过预提交钩子进行数据验证。该数据集适用于AI模型性能比较、评估方法研究和基准测试等场景。
创建时间:
2026-04-13
原始信息汇总

Every Eval Ever Datastore 数据集概述

数据集基本信息

  • 数据集名称:Every Eval Ever Datastore
  • 托管地址:https://huggingface.co/datasets/tamilore/EEE_datastore
  • 许可证:MIT
  • 项目主页:https://evalevalai.com/projects/every-eval-ever/
  • GitHub仓库:https://github.com/evaleval/every_eval_ever

项目目标

这是一个用于“Every Eval Ever”项目的数据存储库。该项目旨在建立一个共享模式和众包评估数据库,通过定义标准化的元数据格式来存储AI评估结果,使得来自不同框架的结果能够被比较、复现和重用。

核心组件

  • 元数据模式:定义了评估结果比较所需的信息,包括实例级数据。
  • 验证机制:在数据进入存储库前,会检查其是否符合模式。
  • 转换器:提供用于Inspect AI、HELM和lm-eval-harness的转换器,可将现有评估日志转换为标准格式。

术语定义

  • 单一基准测试:使用一个数据集测试单一能力并产生一个分数的标准化评估。
  • 复合基准测试:将多个简单基准测试聚合为一个总分,同时测试多种能力。
  • 指标:用于评估基准测试性能的任何数值或分类值。

数据集配置与结构

数据集包含多个配置,每个配置对应一个基准测试,数据文件主要为Parquet格式。

配置列表

  1. ace
  2. apex-agents
  3. apex-v1
  4. appworld_test_normal
  5. browsecompplus
  6. global-mmlu-lite
  7. helm_capabilities
  8. helm_classic
  9. helm_instruct
  10. helm_lite
  11. helm_mmlu
  12. hfopenllm_v2
  13. livecodebenchpro
  14. reward-bench
  15. swe-bench
  16. tau-bench-2_airline
  17. tau-bench-2_retail
  18. tau-bench-2_telecom
  19. arc-agi
  20. bfcl
  21. fibble1_arena
  22. fibble1_arena_samples
  23. fibble2_arena
  24. fibble2_arena_samples
  25. fibble3_arena
  26. fibble3_arena_samples
  27. fibble4_arena
  28. fibble4_arena_samples
  29. fibble5_arena
  30. fibble5_arena_samples
  31. fibble_arena
  32. fibble_arena_samples
  33. la_leaderboard
  34. sciarena
  35. theory_of_mind_samples
  36. wordle_arena
  37. wordle_arena_samples

数据结构

存储库遵循以下层级结构:

data/ └── {benchmark_name}/ └── {developer_name}/ └── {model_name}/ ├── {uuid}.json # 聚合结果 └── {uuid}.jsonl # 实例级结果(可选)

数据提交与验证

  • 提交要求:数据必须符合 eval.schema.json(当前版本:0.2.0)。
  • 验证流程:每次提交请求都会通过 validate_data.py 自动运行验证。
  • 命名规范:每个JSON文件使用UUID(版本4)命名,格式为 {uuid}.json
  • 提交方式:可通过Hugging Face界面拖放上传或克隆仓库后提交拉取请求。

模式关键字段说明

  • model_info:使用HuggingFace格式(developer_name/model_name)。
  • evaluation_id:使用 {benchmark_name/model_id/retrieved_timestamp} 格式。
  • inference_platforminference_engine:分别用于指定远程API评估和本地运行的评估。
  • source_type:可选 documentation(从排行榜或论文抓取)或 evaluation_run(本地运行)。
  • source_data:支持 urlhf_datasetother 三种类型。
  • 时间戳:包含 retrieved_timestamp(必需)、evaluation_timestamp(可选)和 evaluation_results[].evaluation_timestamp(可选)。

实例级数据

对于包含逐样本结果的评估,详细信息应存储在同一个文件夹中的 {uuid}.jsonl 文件里。实例级模式支持三种交互类型:

  • single_turn:标准问答、多选题、分类。
  • multi_turn:多轮对话评估。
  • agentic:使用工具的评估。

包含的评估示例

  • Global MMLU Lite
  • HELM Capabilities v1.15
  • HELM Classic
  • HELM Instruct
  • HELM Lite
  • HELM MMLU
  • HF Open LLM Leaderboard v2
  • LiveCodeBench Pro
  • RewardBench
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评估领域,EEE_datastore采用标准化元数据架构与分布式协作模式构建而成。该数据集通过定义统一的评估结果存储规范,构建了包含模型信息、评估配置、性能指标及数据来源的多维度结构化框架。数据采集过程融合了自动化转换工具与人工审核机制,支持从主流评估框架(如HELM、lm-eval-harness)的原始日志中提取信息,并按照开发者-模型层级目录进行组织。每个评估结果文件均采用UUID命名机制,确保数据版本的可追溯性与唯一性,同时通过严格的JSON模式验证保障数据质量与格式一致性。
特点
该数据集的核心特征体现在其高度结构化的元数据体系与多粒度评估记录能力。数据架构不仅涵盖模型性能的聚合指标,还通过可选的实例级JSONL文件支持细粒度的交互过程记录,包括单轮对话、多轮对话及智能体工具调用等多种评估场景。数据字段设计兼顾灵活性与规范性,既支持数值型指标也兼容等级制评分体系,同时完整记录推理平台、生成参数、时间戳等关键上下文信息。这种设计使得不同来源的评估结果能够在统一框架下进行横向比较与深度分析,为模型能力评估提供了可复现、可验证的数据基础。
使用方法
研究人员可通过HuggingFace平台直接访问数据集的Parquet格式文件,利用标准数据处理流程进行加载与分析。数据集采用模块化配置设计,每个评估基准对应独立的数据子集,用户可根据研究需求选择特定配置进行针对性分析。对于数据贡献者,项目提供了详细的提交指南与自动化验证流程,支持通过拖拽上传或Git工作流两种方式提交符合规范的新评估数据。在实际应用中,用户可结合提供的Pydantic类生成工具与评估转换器,将现有评估日志快速适配到标准架构中,实现评估数据的标准化整合与跨平台比较。
背景与挑战
背景概述
EEE_datastore数据集由EvalEval Coalition于近期构建,旨在应对人工智能评估领域日益增长的标准化需求。该数据集的核心研究问题聚焦于如何统一不同评估框架产生的异构结果,从而促进模型性能的跨平台比较与可复现性。通过定义一套严谨的元数据模式,该数据集汇集了来自多个知名基准的评估记录,如MMLU、HELM及SWE-Bench等,为研究者提供了一个集中且结构化的评估结果存储库。其影响力在于推动了评估方法的透明化与科学化,为模型能力的系统性分析奠定了数据基础。
当前挑战
EEE_datastore所解决的领域挑战在于人工智能评估结果的碎片化与不可比性。不同评估框架在指标定义、生成配置及数据来源上存在显著差异,导致模型性能难以进行公正对比。在构建过程中,数据集面临多重技术挑战:首先,设计一套既能容纳多样化评估类型(如单轮问答、多轮对话及智能体任务)又保持严格一致性的元数据模式极具复杂性;其次,整合来自异构源的数据需克服格式转换与语义对齐的困难;此外,确保大规模评估数据的质量与时效性,同时维护贡献者社区的协作规范,亦是一项持续性的系统工程。
常用场景
经典使用场景
在人工智能模型评估领域,EEE_datastore作为标准化评估结果的集成数据库,其经典使用场景在于为研究者提供跨框架、跨基准的模型性能对比平台。通过统一的元数据模式,该数据集使得来自不同评估框架(如HELM、lm-eval-harness)的结果能够被系统性地整合与比较,从而支持大规模模型能力分析。例如,在评估大型语言模型的多领域知识掌握程度时,研究者可同时调用数据集中的MMLU、HELM Classic等多个基准,在一致的格式下进行横向性能剖析,避免了因评估标准差异导致的结论偏差。
解决学术问题
EEE_datastore致力于解决人工智能评估中长期存在的碎片化与可复现性难题。传统评估结果往往分散于各独立论文或排行榜,缺乏统一的元数据规范,导致跨研究对比困难。该数据集通过定义结构化模式,强制记录模型信息、评估配置、分数解释等关键上下文,使评估结果具备明确的语义边界。这不仅提升了学术研究的透明度,还支持对评估方法本身的分析,例如探究生成参数对分数稳定性的影响,从而推动评估科学向更严谨、可累积的方向演进。
衍生相关工作
围绕EEE_datastore的标准化理念,已衍生出多项提升评估生态效率的工具与框架。例如,基于其模式开发的评估转换器(如Inspect AI、HELM转换器)实现了传统评估日志向统一格式的自动化迁移;同时,数据集支撑了EvalEval社区开展的跨基准元分析研究,探究模型能力泛化规律。此外,部分工作进一步扩展了其应用场景,如利用实例级数据开发细粒度错误诊断工具,或基于时间序列分析评估结果演变趋势,这些衍生工作共同推动了人工智能评估向系统化、可解释化方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作