every_eval_score_ever

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/evaleval/every_eval_score_ever

下载链接

链接失效反馈

官方服务：

资源简介：

Evaluation Statistics Dataset是一个包含AI模型评估详细性能统计数据的数据集。它记录了不同基准、数据集和模型组合的评分均值、中位数、标准差、最小值、最大值、25百分位数、75百分位数、评估次数、首次和最后一次评估时间戳、数据来源以及评估的唯一任务数。

创建时间：

2025-09-04

原始信息汇总

Evaluation Statistics Dataset 概述

数据集简介

该数据集包含AI模型评估的详细性能统计数据。

数据结构

主数据文件

文件名：detailed_statistics.parquet
每行代表一个唯一的组合，包括：
- 评估基准（benchmark）
- 数据集名称（dataset_name）
- 模型名称（model_name）

数据列

benchmark：评估基准名称
dataset_name：数据集名称
model_name：模型名称
evaluation_count：此组合的评估次数
mean_score：平均评估分数
median_score：中位数评估分数
std_score：分数标准差
min_score：最低分数
max_score：最高分数
p25_score：第25百分位数分数
p75_score：第75百分位数分数
first_evaluation：首次评估时间戳
last_evaluation：最近评估时间戳
source：数据来源（如"helm"）
unique_tasks：评估的唯一任务数量
generation_timestamp：此统计记录的生成时间

数据集统计

总组合数：7,115
唯一模型数：153
唯一位数据集数：83
基准测试：classic、lite、mmlu
生成时间：2025-09-05T16:17:45.495329

使用示例

python from datasets import load_dataset import pandas as pd

加载统计数据集

dataset = load_dataset("evaleval/every_eval_score_ever") stats_df = pd.DataFrame(dataset[train])

查找特定数据集上表现最佳的模型

mmlu_results = stats_df[ (stats_df[benchmark] == mmlu) & (stats_df[dataset_name] == some_dataset) ].sort_values(mean_score, ascending=False)

跨基准比较模型性能

model_comparison = stats_df[ stats_df[model_name] == some_model ].groupby(benchmark)[mean_score].mean()

更新信息

最后更新时间：2025-09-05T16:17:55.767402

搜集汇总

数据集介绍

构建方式

在人工智能模型评估领域，every_eval_score_ever数据集通过系统化采集多源评测数据构建而成。该数据集整合了来自HELM等权威平台的153个独特模型在83个数据集上的性能指标，覆盖classic、lite、mmlu三大基准测试体系。数据以时间序列方式持续更新，每条记录包含模型在特定数据集上的7115种组合的统计量，通过自动化流水线生成标准化Parquet格式文件，确保数据的时效性与可追溯性。

特点

该数据集的核心特征在于其多维度的评估指标体系，不仅包含传统的均值与中位数分数，更提供了标准差、百分位数及极值统计量，完整刻画模型表现的分布特性。时间戳字段记录了首次与末次评估时间，支持纵向性能演化分析。数据集特别标注了评估次数与独特任务数量，为评估结果的统计显著性提供量化依据，其结构化设计兼顾了机器可读性与学术研究需求。

使用方法

研究者可通过HuggingFace数据集库直接加载该数据集，利用Pandas等工具进行多维分析。典型应用包括横向对比不同模型在特定数据集上的性能排序，或纵向追踪单一模型跨基准的稳定性表现。时间序列字段支持模型性能演进研究，而百分位数数据有助于识别模型表现的异常波动。该数据集为模型评估领域的元分析提供了标准化数据基础。

背景与挑战

背景概述

人工智能模型评估领域正面临标准化与系统化的重要转折点，every_eval_score_ever数据集应运而生。该数据集由研究机构于2025年构建，聚焦于整合多基准测试平台下的模型性能数据，涵盖经典评测、MMLU及轻量化基准三大范畴。其核心在于通过结构化统计指标，为模型能力评估提供跨平台、多维度的量化依据，显著推进了人工智能评测方法论的系统化发展。

当前挑战

该数据集致力于解决模型性能评估中的异构数据整合与标准化难题，具体包括多基准测试指标对齐、模型跨域能力可比性分析等核心问题。构建过程中面临原始数据源格式异构、评估协议不一致、时序数据同步等工程技术挑战，需通过自动化流水线实现多源数据的清洗、去重与统计量计算，确保评估结果的可靠性与可复现性。

常用场景

经典使用场景

在人工智能模型评估领域，该数据集为研究者提供了标准化的性能比较框架。通过对153个独特模型在83个数据集上的7,115种组合评估，研究者能够系统分析不同模型在MMLU、Classic等基准测试中的表现差异，为模型选择与优化提供数据支撑。

解决学术问题

该数据集有效解决了模型评估中缺乏统一量化标准的问题。通过提供包含均值、中位数、标准差及百分位数等完整统计指标的评估数据，使研究者能够客观衡量模型稳定性与泛化能力，推动建立更科学的模型性能评估体系。

衍生相关工作

基于该数据集衍生了多项重要研究，包括模型性能预测算法开发、评估偏差检测方法创新以及跨基准迁移学习研究。这些工作显著推进了自动化模型评估技术的发展，为构建更高效的AI评估生态系统奠定基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集