auto-benchmarkcards

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/evaleval/auto-benchmarkcards

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于AI评估基准的BenchmarkMetadataCards，由auto-benchmarkcard管道自动生成。BenchmarkCards是结构化的JSON文档，描述了基准测试的目标、工作原理和局限性，涵盖领域包括基准目标、目标受众、数据来源、方法学、指标、局限性、伦理考量和相关AI风险。数据集中的每个文件对应Every Eval Ever集合中的一个基准测试，遵循IBM AI Atlas Nexus的BenchmarkMetadataCard模式。卡片生成过程整合了来自Unitxt目录、HuggingFace数据集卡片、学术论文和IBM AI Risk Atlas的多源信息，并通过LLM合成结构化卡片，最后经过验证步骤标记需要人工审查的字段。当前数据集为原型版本，自动生成的卡片可能存在错误或不完整字段，建议在使用前进行人工审查。

This dataset contains BenchmarkMetadataCards for AI evaluation benchmarks, which are automatically generated by the auto-benchmarkcard pipeline. BenchmarkMetadataCards are structured JSON documents that detail the objectives, operational principles, and limitations of benchmark tests, covering dimensions including benchmark goals, target audiences, data sources, methodologies, evaluation metrics, limitations, ethical considerations, and associated AI risks. Each file in the dataset corresponds to one benchmark from the Every Eval Ever collection, and adheres to the BenchmarkMetadataCard schema of the IBM AI Atlas Nexus. The card generation workflow integrates multi-source information from the Unitxt catalog, Hugging Face Dataset Cards, academic publications, and the IBM AI Risk Atlas, synthesizes structured cards using LLMs, and identifies fields requiring manual review via a validation step. This is a prototype version of the dataset; automatically generated cards may contain errors or incomplete fields, and manual review prior to usage is recommended.

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，系统化地描述基准测试的元数据对于促进透明度和可复现性至关重要。Auto-BenchmarkCards数据集通过自动化流水线构建，该流水线整合了多元化的信息源：从Unitxt目录中提取任务定义与评估指标，从HuggingFace数据集卡片中获取元数据与许可信息，并深入学术论文以解析方法论、局限性及背景语境。随后，大型语言模型将这些异构信息融合，生成遵循IBM AI Atlas Nexus所定义的结构化模式（BenchmarkMetadataCard schema）的JSON文档，最终通过验证步骤标记可能需人工复核的字段，确保了数据生成的系统性与初步质量控制。

特点

该数据集的核心特征在于其高度结构化与自动化生成的性质。每一张BenchmarkCard均以标准化的JSON格式呈现，全面涵盖了基准测试的目标、适用受众、数据来源、方法论、评估指标、局限性、伦理考量以及相关的AI风险映射。这些卡片源自“Every Eval Ever”集合，旨在为人工智能评估实践提供一份机器可读的元数据索引。作为原型系统，数据集明确标注了其自动生成属性，承认其中可能存在不完整或需人工核验的字段，这种透明性本身即构成了其作为研究工具的重要特点。

使用方法

研究人员与开发者可将此数据集作为探索人工智能评估基准生态的入口。用户可通过解析JSON卡片，快速获取特定基准测试的综合性描述，辅助进行基准选择、对比分析或元研究。鉴于卡片内容为自动生成，在实际依赖特定信息前，建议结合原始论文或数据源进行人工复核与验证。数据集主要服务于需要系统化了解评估基准属性、风险或寻求自动化基准管理工具的场景，其结构化格式也便于集成至更大型的评估平台或分析工作流之中。

背景与挑战

背景概述

在人工智能评估领域，标准化与透明化的元数据描述对于促进基准测试的可比性与可复现性至关重要。auto-benchmarkcards数据集应运而生，由研究团队evaleval于近期创建，并依托IBM AI Atlas Nexus的BenchmarkMetadataCard规范构建。该数据集通过自动化流水线整合Unitxt目录、HuggingFace数据集卡片、学术论文及IBM AI风险图谱等多源信息，旨在为'Every Eval Ever'集合中的各类评估基准生成结构化描述卡片。其核心研究问题聚焦于解决评估基准元数据分散、格式不一的问题，通过提供统一、机器可读的基准描述，推动AI评估生态的系统化发展，对提升评估方法的可解释性与可靠性具有显著影响力。

当前挑战

该数据集致力于应对人工智能评估基准标准化描述这一领域挑战，即如何系统化地整合异构、多源的基准信息，并确保描述的准确性与完整性。在构建过程中，自动化流水线面临多重挑战：多源数据（如学术论文、数据集卡片、风险框架）的语义对齐与信息提取存在复杂性；大型语言模型生成内容可能引入事实性错误或遗漏关键细节；自动化流程缺乏人类专家的情境判断，导致部分字段需后续人工审核。此外，保持卡片结构符合既定模式学规范，同时适应快速演进的评估方法，亦构成持续的技术难点。

常用场景

经典使用场景

在人工智能评估领域，auto-benchmarkcards数据集为研究人员提供了一个标准化的元数据框架，用于系统化地描述和比较各类基准测试。通过自动生成的BenchmarkMetadataCard，该数据集能够高效整合来自Unitxt目录、学术论文及风险图谱等多源信息，从而支持对基准测试的目标、方法、指标及局限性的统一分析。这一场景显著提升了评估工作的可重复性与透明度，使得跨基准的对比研究更为便捷。

实际应用

在实际应用中，auto-benchmarkcards数据集可被集成至AI开发与评估平台，辅助团队快速检索和筛选适合其需求的基准测试。例如，在模型部署前，工程师可借助该数据集的元数据卡片，评估特定基准的适用性与局限性，优化测试流程。同时，它也为政策制定者提供了风险评估的依据，支持对AI系统进行更全面的伦理审查与合规性检查。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，其中IBM的AI Atlas Nexus提出了BenchmarkMetadataCard本体架构，为元数据标准化奠定了理论基础。Sokol等人发表的BenchmarkCards论文进一步阐述了结构化卡片在评估中的价值。此外，基于自动生成管线的Auto-BenchmarkCard研究，探索了利用大语言模型合成多源信息的方法，推动了评估元数据自动化构建的前沿进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集