card_backend

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/evaleval/card_backend

下载链接

链接失效反馈

官方服务：

资源简介：

Eval Cards Backend 数据集是一个用于支持模型评估的预计算数据集，为 Eval Cards 前端提供数据支持。数据集包含 5,298 个模型、89 个评估基准和 208 个指标级评估，覆盖多个类别如通用推理、代理任务等。数据以 JSON 文件形式组织，包括模型卡片、评估列表、基准元数据等，支持通过 HuggingFace 数据集文件 API 访问。数据集适用于模型性能比较、基准测试分析等任务，特别适合需要结构化评估数据的应用场景。

创建时间：

2026-04-08

原始信息汇总

Eval Cards Backend 数据集概述

数据集基本信息

数据集名称：Eval Cards Backend
许可证：MIT
标签：evaluation, benchmarks, model-evaluation, leaderboard
数据规模：1K<n<10K
最后生成时间：2026-04-13T15:27:32.658327Z

数据集内容与统计

该数据集包含预计算的大模型评估数据，用于支持 Eval Cards 前端展示。

核心统计

统计项	数值
模型数量	5,298
评估（基准测试）数量	89
指标级评估数量	208
已处理的源配置数量	31
基准测试元数据卡片数量	44

文件结构与访问

数据集文件可通过 HuggingFace 数据集文件 API 访问，基础 URL 为：https://huggingface.co/datasets/evaleval/card_backend/resolve/main/

主要文件

manifest.json：流水线元数据和生成时间戳。
eval-hierarchy.json：完整的基准测试层次结构（包含卡片状态）。
model-cards.json：所有模型的摘要信息数组。
eval-list.json：所有评估的摘要信息数组。
peer-ranks.json：每个基准测试的模型排名（跨指标平均）。
benchmark-metadata.json：基准测试卡片（方法论、伦理等）。
developers.json：开发者索引（包含模型数量）。
instances/：流水线拥有的实例工件（包含层次结构键）。
records/：流水线拥有的源记录工件。
models/：每个模型的详细文件（共 5,298 个文件）。
evals/：每个评估的详细文件（包含完整模型结果，共 89 个文件）。
developers/：每个开发者的模型列表文件。

数据获取模式

引导加载：获取清单和评估列表。
深入特定评估：使用 eval_summary_id 获取 /evals/{eval_summary_id}.json。
深入特定模型：使用 model_route_id 获取 /models/{model_route_id}.json。
获取基准测试元数据卡片：从 benchmark-metadata.json 中通过规范化基准测试名称键查找。
获取开发者模型列表：使用 slug 获取 /developers/{slug}.json。
获取同行排名：从 peer-ranks.json 获取，键为 eval_summary_id。
访问实例级数据：检查 eval-list.json 中 instance_data.available 字段，并通过 detailed_evaluation_results 或 source_record_url 字段提供的 URL 访问。

关键数据结构

模型卡片 (`model-cards.json`)

包含模型家族ID、路由ID、显示名称、开发者、评估总数、覆盖类别、变体信息和分数摘要。

评估列表 (`eval-list.json`)

包含总模型数和评估数组。每个评估条目包含评估摘要ID、基准测试键、显示名称、类别、标签、模型数量、顶级分数、指标信息和实例数据可用性。

评估详情 (`evals/{eval_summary_id}.json`)

包含特定评估的详细信息，如源数据、指标数组（包含按排名排序的模型结果）和子任务。

模型详情 (`models/{model_route_id}.json`)

包含模型信息、按类别的评估、按类别的规范层次结构（hierarchy_by_category）、评估总数、覆盖类别和变体详情。

评估层次结构 (`eval-hierarchy.json`)

包含基准测试分类树。节点可以是家族（顶级分组）、复合测试集（多基准测试套件）或基准测试（包含指标/切片的叶子节点）。

评估清单概览

清单列出了数据集包含的基准测试家族及其内部结构（如复合测试集、叶子基准测试、指标），并标注了哪些基准测试具有元数据卡片（[x] 表示有，[ ] 表示暂无）。示例如下：

ace (有卡片)
- DIY (指标: Score)
- Food (指标: Score)
- 等...
Apex (有卡片)
- Apex Agents (有卡片)
  - Corporate Law (指标: Pass@1)
  - 等...
Appworld (暂无卡片)
- Test normal (指标: Score)
其他家族...

搜集汇总

数据集介绍

构建方式

在模型评估领域，系统化的数据整合与标准化处理是确保评估结果可靠性的关键。Eval Cards Backend数据集通过一个精心设计的后端流水线构建而成，该流水线自动化地处理来自多个来源的评估配置与结果。它首先从31个源配置中提取原始数据，经过清洗、去重与归一化处理，生成涵盖5,298个模型在89个基准测试上的208项度量级评估结果。数据构建过程强调层次化结构，为每个评估任务、模型和开发者生成了标准化的标识符与元数据，最终形成了一套包含模型卡片、评估摘要、基准层次结构及实例级详细结果的完整数据体系。

特点

该数据集的核心特征在于其高度结构化与层次化的组织方式。它提供了一个完整的基准测试分类体系，通过`benchmark_family_key`、`benchmark_leaf_key`等关键字段清晰地定义了评估任务之间的归属与层级关系。数据集不仅包含聚合的模型性能分数，还提供了丰富的实例级数据，如具体的测试样例、模型响应及逐项得分，为深入分析模型行为奠定了基础。此外，数据集嵌入了详尽的元数据，包括评估类别、任务标签、语言领域及是否为汇总分数等标注，确保了数据在呈现与应用时的准确性与一致性。

使用方法

利用该数据集进行模型评估分析，需遵循其预设的数据访问模式。研究者可首先通过根目录的清单文件与评估列表获取整体概览，随后根据`eval_summary_id`或`model_route_id`深入查询特定基准测试或模型的详细结果。对于需要细粒度分析的研究，可通过检查`instance_data.available`字段并加载对应的JSONL文件，获取包含完整层次化标注的实例级交互数据。在前端应用开发中，应直接采用数据集提供的`hierarchy_by_category`等规范结构进行渲染，避免基于名称的启发式推断，以确保界面展示与后端数据逻辑的统一。

背景与挑战

背景概述

在人工智能模型评估领域，随着模型规模的不断扩大与任务复杂性的持续提升，构建一个统一、标准化且可扩展的评估基准体系成为推动技术发展的关键需求。Eval Cards Backend数据集应运而生，由EvalEval研究团队于2026年创建，旨在为前沿的大语言模型与智能体提供系统化的性能评估后端支持。该数据集整合了来自89个评估基准、涵盖5,298个模型的预计算评估结果，其核心研究问题聚焦于如何高效、透明地组织多维度、多层次的模型评估数据，以支持动态的排行榜生成与深入的性能分析。通过提供标准化的数据架构与层次化的评估分类，该数据集显著提升了模型评估的可复现性与可比性，为学术界与工业界的模型研发与部署提供了重要的基础设施。

当前挑战

该数据集致力于解决大语言模型综合性能评估这一复杂领域问题，其核心挑战在于如何设计一个既能容纳高度异构的评估任务（如推理、知识、安全性、智能体能力等），又能确保跨模型、跨基准公平比较的统一度量框架。具体而言，挑战包括定义具有代表性与鲁棒性的评估指标以覆盖多样化的能力维度，以及处理不同评估协议（如单轮对话、多轮交互）下的分数归一化与聚合。在数据集构建过程中，团队面临数据集成与标准化的重大挑战，需要将来自数十个不同来源、格式各异的原始评估记录，转化为遵循统一模式的结构化数据。这涉及复杂的元数据提取、评估层次关系重建、以及实例级数据的对齐与验证，同时需确保数据管道的可扩展性以应对模型与评估基准的快速增长。

常用场景

经典使用场景

在人工智能模型评估领域，Eval Cards Backend数据集作为预计算评估数据的核心存储库，为前端界面提供结构化支持。该数据集通过标准化的数据管道生成，涵盖超过五千个模型在八十九个基准测试中的性能指标，其经典使用场景在于支撑交互式模型排行榜与评估平台。研究人员和开发者能够基于该数据集进行模型性能的横向比较，快速定位模型在不同任务类别中的表现差异，从而为模型选择与优化提供数据驱动的决策依据。

解决学术问题

该数据集有效解决了模型评估中数据分散与标准缺失的学术难题。通过统一的数据架构与层次化分类体系，它将多源异构的评估结果整合为可互操作的标准化格式，消除了不同基准测试间指标不一致的障碍。其意义在于建立了可复现的评估工作流，为大规模模型性能的量化研究提供了可靠基准，显著提升了评估过程的透明度与可比性，推动了模型评估方法论向系统化与规范化发展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于评估框架的前端重构与数据消费层优化。相关研究遵循数据集提供的规范指令，将前端界面的层次推断逻辑迁移至后端驱动的标准键值体系，实现了数据表示与渲染逻辑的解耦。这些工作建立了以`hierarchy_by_category`和实例文件为权威来源的新型数据管道，淘汰了基于启发式规则的前端分类方法，为评估平台的可维护性与扩展性设立了最佳实践范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集