every_eval_score_ever
收藏Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/evaleval/every_eval_score_ever
下载链接
链接失效反馈官方服务:
资源简介:
Evaluation Statistics Dataset是一个包含AI模型评估详细性能统计数据的数据集。它记录了不同基准、数据集和模型组合的评分均值、中位数、标准差、最小值、最大值、25百分位数、75百分位数、评估次数、首次和最后一次评估时间戳、数据来源以及评估的唯一任务数。
创建时间:
2025-09-04
原始信息汇总
Evaluation Statistics Dataset 概述
数据集简介
该数据集包含AI模型评估的详细性能统计数据。
数据结构
主数据文件
- 文件名:
detailed_statistics.parquet - 每行代表一个唯一的组合,包括:
- 评估基准(benchmark)
- 数据集名称(dataset_name)
- 模型名称(model_name)
数据列
- benchmark:评估基准名称
- dataset_name:数据集名称
- model_name:模型名称
- evaluation_count:此组合的评估次数
- mean_score:平均评估分数
- median_score:中位数评估分数
- std_score:分数标准差
- min_score:最低分数
- max_score:最高分数
- p25_score:第25百分位数分数
- p75_score:第75百分位数分数
- first_evaluation:首次评估时间戳
- last_evaluation:最近评估时间戳
- source:数据来源(如"helm")
- unique_tasks:评估的唯一任务数量
- generation_timestamp:此统计记录的生成时间
数据集统计
- 总组合数:7,115
- 唯一模型数:153
- 唯一位数据集数:83
- 基准测试:classic、lite、mmlu
- 生成时间:2025-09-05T16:17:45.495329
使用示例
python from datasets import load_dataset import pandas as pd
加载统计数据集
dataset = load_dataset("evaleval/every_eval_score_ever") stats_df = pd.DataFrame(dataset[train])
查找特定数据集上表现最佳的模型
mmlu_results = stats_df[ (stats_df[benchmark] == mmlu) & (stats_df[dataset_name] == some_dataset) ].sort_values(mean_score, ascending=False)
跨基准比较模型性能
model_comparison = stats_df[ stats_df[model_name] == some_model ].groupby(benchmark)[mean_score].mean()
更新信息
- 最后更新时间:2025-09-05T16:17:55.767402
搜集汇总
数据集介绍

构建方式
在人工智能模型评估领域,every_eval_score_ever数据集通过系统化采集多源评测数据构建而成。该数据集整合了来自HELM等权威平台的153个独特模型在83个数据集上的性能指标,覆盖classic、lite、mmlu三大基准测试体系。数据以时间序列方式持续更新,每条记录包含模型在特定数据集上的7115种组合的统计量,通过自动化流水线生成标准化Parquet格式文件,确保数据的时效性与可追溯性。
特点
该数据集的核心特征在于其多维度的评估指标体系,不仅包含传统的均值与中位数分数,更提供了标准差、百分位数及极值统计量,完整刻画模型表现的分布特性。时间戳字段记录了首次与末次评估时间,支持纵向性能演化分析。数据集特别标注了评估次数与独特任务数量,为评估结果的统计显著性提供量化依据,其结构化设计兼顾了机器可读性与学术研究需求。
使用方法
研究者可通过HuggingFace数据集库直接加载该数据集,利用Pandas等工具进行多维分析。典型应用包括横向对比不同模型在特定数据集上的性能排序,或纵向追踪单一模型跨基准的稳定性表现。时间序列字段支持模型性能演进研究,而百分位数数据有助于识别模型表现的异常波动。该数据集为模型评估领域的元分析提供了标准化数据基础。
背景与挑战
背景概述
人工智能模型评估领域正面临标准化与系统化的重要转折点,every_eval_score_ever数据集应运而生。该数据集由研究机构于2025年构建,聚焦于整合多基准测试平台下的模型性能数据,涵盖经典评测、MMLU及轻量化基准三大范畴。其核心在于通过结构化统计指标,为模型能力评估提供跨平台、多维度的量化依据,显著推进了人工智能评测方法论的系统化发展。
当前挑战
该数据集致力于解决模型性能评估中的异构数据整合与标准化难题,具体包括多基准测试指标对齐、模型跨域能力可比性分析等核心问题。构建过程中面临原始数据源格式异构、评估协议不一致、时序数据同步等工程技术挑战,需通过自动化流水线实现多源数据的清洗、去重与统计量计算,确保评估结果的可靠性与可复现性。
常用场景
经典使用场景
在人工智能模型评估领域,该数据集为研究者提供了标准化的性能比较框架。通过对153个独特模型在83个数据集上的7,115种组合评估,研究者能够系统分析不同模型在MMLU、Classic等基准测试中的表现差异,为模型选择与优化提供数据支撑。
解决学术问题
该数据集有效解决了模型评估中缺乏统一量化标准的问题。通过提供包含均值、中位数、标准差及百分位数等完整统计指标的评估数据,使研究者能够客观衡量模型稳定性与泛化能力,推动建立更科学的模型性能评估体系。
衍生相关工作
基于该数据集衍生了多项重要研究,包括模型性能预测算法开发、评估偏差检测方法创新以及跨基准迁移学习研究。这些工作显著推进了自动化模型评估技术的发展,为构建更高效的AI评估生态系统奠定基础。
以上内容由遇见数据集搜集并总结生成



