evaleval/auto-benchmarkcards

Name: evaleval/auto-benchmarkcards
Creator: evaleval
Published: 2026-05-08 12:50:12
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/evaleval/auto-benchmarkcards

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于AI评估基准的BenchmarkMetadataCards，这些卡片是自动生成的。BenchmarkCards是结构化的JSON文档，描述了基准测试的内容、工作原理及其局限性。它们涵盖了基准测试的目标、目标受众、数据源、方法、指标、局限性、伦理考量和相关AI风险等字段。数据集包含44张卡片，涵盖单个基准和复合基准套件，存储在benchmark-metadata.json文件和cards/文件夹中。卡片遵循IBM的AI Atlas Nexus的BenchmarkMetadataCard模式。复合卡片包含contains字段列出其子基准，而单个卡片包含appears_in字段链接到它们所属的任何父套件。卡片生成过程涉及从多个来源提取信息，并使用LLM将这些输入组合成结构化卡片。数据集目前是原型阶段，可能存在错误或不完整字段，建议进行人工审查。

This dataset contains automatically generated BenchmarkMetadataCards intended for AI evaluation benchmarks. BenchmarkMetadataCards (abbreviated as BenchmarkCards hereinafter) are structured JSON documents that elaborate on the content, operational principles, and limitations of the corresponding benchmarks. These cards include standardized fields such as the benchmark's objectives, target audience, data sources, methodologies, evaluation metrics, limitations, ethical considerations, and associated AI risks. The dataset consists of 44 such cards covering both standalone benchmarks and composite benchmark suites, and is stored in the benchmark-metadata.json file and the cards/ directory. All cards adhere to the BenchmarkMetadataCard schema defined by IBM's AI Atlas Nexus. Composite cards feature a "contains" field that lists their subordinate sub-benchmarks, while individual standalone cards include an "appears_in" field that links to any parent benchmark suites they belong to. The card generation pipeline involves extracting information from multiple sources, then synthesizing these collected inputs into structured BenchmarkMetadataCards using Large Language Models (LLMs). The dataset is currently in the prototype phase, which may contain errors or incomplete fields, thus manual review is highly recommended for practical applications.

提供机构：

evaleval

搜集汇总

数据集介绍

构建方式

本数据集通过自动化流水线auto-benchmarkcard构建，旨在为人工智能评估基准生成结构化的BenchmarkCards元数据。构建过程整合了来自Unitxt目录的任务定义与指标、HuggingFace数据集的许可与元信息、学术论文中的方法论与局限性说明、项目网站中关于复合基准的上下文，以及IBM AI风险图谱中的风险映射。随后，由大语言模型将这些多元信息整合为结构化的卡片，并经过验证步骤标记可能需要人工复核的字段。数据集共收录44张卡片，覆盖单一基准与复合基准套件，所有卡片遵循IBM AI Atlas Nexus的BenchmarkMetadataCard模式，并以JSON格式存储于benchmark-metadata.json文件中，同时提供独立的cards文件夹。

特点

该数据集的核心特色在于其自动化生成与结构化组织方式。每张卡片均包含基准的目标、预期受众、数据来源、方法论、指标、局限性、伦理考量及关联AI风险等字段，呈现为规范化的JSON文档。复合基准卡片通过contains字段列出其子基准，而单一基准卡片则通过appears_in字段关联所属的父套件，形成了清晰的层次化关联结构。虽然这是一个原型版本，卡片可能包含错误或不完整信息，但其自动化流程为基准文档的规模化生成提供了高效途径，并强调人工复核的必要性。

使用方法

数据集适用于研究人员与开发者快速获取AI评估基准的系统化描述。用户可直接加载benchmark-metadata.json文件，通过评估层次标识符（如gpqa、helm_capabilities）访问对应的卡片内容。对于需要细粒度检索的场景，可从cards文件夹中按需读取独立卡片。每张卡片的benchmark_type字段可帮助区分单一基准与复合套件，便于针对特定应用场景选择合适的评估工具。推荐在使用前对关键卡片进行人工审查以验证准确性，并可通过关联的项目网站与学术论文获取更深入的背景信息。

背景与挑战

背景概述

该数据集诞生于人工智能评估基准日益复杂、数量激增的背景下，由evaleval团队于2025年前后创建，旨在系统化地描述和索引各类AI评估基准。核心研究问题在于如何为分散、异构的评估基准提供结构化、可机读的元数据卡片，以提升基准的可理解性与可比较性。受IBM AI Atlas Nexus体系启发，数据集基于Every Eval Ever集合，通过自动化管道生成了44张涵盖单体与复合基准的BenchmarkMetadataCards，为评估基准的标准化描述与风险映射提供了初步框架。其对相关领域的影响力体现在推动了评估基准元数据自动生成的实践，为后续研究提供了可复用的数据基础。

当前挑战

该数据集所应对的领域核心挑战在于评估基准的碎片化与语义歧义：现有基准缺乏统一描述规范，导致研究者难以快速理解其测量目标、局限性与适用场景。在构建过程中，自动化管线面临数据源异构整合的难题，需从Unitxt目录、HuggingFace卡片、学术论文及项目网站中提取并融合多模态信息，信息缺失与格式不统一导致卡片生成的准确性与完整性受限。此外，LLM自动生成的内容可能存在事实错误与逻辑疏漏，需借助人工审核机制弥补自动化流程的不足，但大规模人工验证的成本与时效性构成另一重挑战。

常用场景

经典使用场景

在人工智能评估领域，BenchmarkCards作为一种结构化元数据卡片，为研究者提供了对基准测试全面而深入的理解。auto-benchmarkcards数据集汇集了44张涵盖单点基准与复合基准套件的卡片，每张卡片均遵循IBM AI Atlas Nexus的BenchmarkMetadataCard模式，详细描述了基准的目标、目标受众、数据来源、方法论、指标、局限性、伦理考量及关联AI风险。这一数据集的经典使用场景在于，它能够作为基准测试的标准化描述框架，帮助研究人员在评估模型性能时，快速获取基准的完整背景与潜在偏差，从而做出更为严谨和透明的评估决策。

解决学术问题

auto-benchmarkcards数据集的核心贡献在于解决了人工智能评估领域中基准测试文档缺失、标准不一且难以复现的痼疾。传统上，基准测试的信息散落在论文、网站与代码仓库中，研究者往往难以全面把握其设计意图、适用范围与潜在风险，导致评估结果的可比性与可解释性大打折扣。通过自动化的管道整合Unitxt目录、HuggingFace卡片、学术论文与AI风险图谱等多源信息，该数据集为每个基准生成了结构化的元数据卡片，有效填补了基准测试信息标准化的空白，提升了评估过程的透明度与可复现性，对推动负责任的AI评估实践具有深远意义。

衍生相关工作

auto-benchmarkcards数据集衍生出一系列具有影响力的学术与工程工作。其核心论文《Auto-BenchmarkCard: Generating Structured Metadata for AI Evaluation Benchmarks》详细阐述了自动化生成管线的设计与验证，提出了将LLM与多源数据整合的方法论。此前，Sokol等人发表的BenchmarkCards论文（arXiv:2410.12974）奠定了卡片模式的理论基础，定义了描述基准所需的关键字段。此外，该数据集的前端应用evalcards.evalevalai.com提供了可视化浏览与检索功能，而开源代码仓库auto-benchmarkcard则提供了完整的复现与扩展工具，支持社区贡献与卡片修正。这些衍生产品共同构建了一个围绕基准元数据的生态系统，促进了评估信息的规范化与共享。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集