five

every_eval_score_ever

收藏
Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/evaleval/every_eval_score_ever
下载链接
链接失效反馈
官方服务:
资源简介:
Evaluation Statistics Dataset是一个包含AI模型评估详细性能统计数据的数据集。它记录了不同基准、数据集和模型组合的评分均值、中位数、标准差、最小值、最大值、25百分位数、75百分位数、评估次数、首次和最后一次评估时间戳、数据来源以及评估的唯一任务数。
创建时间:
2025-09-04
原始信息汇总

Evaluation Statistics Dataset 概述

数据集简介

该数据集包含AI模型评估的详细性能统计数据。

数据结构

主数据文件

  • 文件名:detailed_statistics.parquet
  • 每行代表一个唯一的组合,包括:
    • 评估基准(benchmark)
    • 数据集名称(dataset_name)
    • 模型名称(model_name)

数据列

  • benchmark:评估基准名称
  • dataset_name:数据集名称
  • model_name:模型名称
  • evaluation_count:此组合的评估次数
  • mean_score:平均评估分数
  • median_score:中位数评估分数
  • std_score:分数标准差
  • min_score:最低分数
  • max_score:最高分数
  • p25_score:第25百分位数分数
  • p75_score:第75百分位数分数
  • first_evaluation:首次评估时间戳
  • last_evaluation:最近评估时间戳
  • source:数据来源(如"helm")
  • unique_tasks:评估的唯一任务数量
  • generation_timestamp:此统计记录的生成时间

数据集统计

  • 总组合数:7,115
  • 唯一模型数:153
  • 唯一位数据集数:83
  • 基准测试:classic、lite、mmlu
  • 生成时间:2025-09-05T16:17:45.495329

使用示例

python from datasets import load_dataset import pandas as pd

加载统计数据集

dataset = load_dataset("evaleval/every_eval_score_ever") stats_df = pd.DataFrame(dataset[train])

查找特定数据集上表现最佳的模型

mmlu_results = stats_df[ (stats_df[benchmark] == mmlu) & (stats_df[dataset_name] == some_dataset) ].sort_values(mean_score, ascending=False)

跨基准比较模型性能

model_comparison = stats_df[ stats_df[model_name] == some_model ].groupby(benchmark)[mean_score].mean()

更新信息

  • 最后更新时间:2025-09-05T16:17:55.767402
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能模型评估领域,every_eval_score_ever数据集通过系统化采集多源评测数据构建而成。该数据集整合了来自HELM等权威平台的153个独特模型在83个数据集上的性能指标,覆盖classic、lite、mmlu三大基准测试体系。数据以时间序列方式持续更新,每条记录包含模型在特定数据集上的7115种组合的统计量,通过自动化流水线生成标准化Parquet格式文件,确保数据的时效性与可追溯性。
特点
该数据集的核心特征在于其多维度的评估指标体系,不仅包含传统的均值与中位数分数,更提供了标准差、百分位数及极值统计量,完整刻画模型表现的分布特性。时间戳字段记录了首次与末次评估时间,支持纵向性能演化分析。数据集特别标注了评估次数与独特任务数量,为评估结果的统计显著性提供量化依据,其结构化设计兼顾了机器可读性与学术研究需求。
使用方法
研究者可通过HuggingFace数据集库直接加载该数据集,利用Pandas等工具进行多维分析。典型应用包括横向对比不同模型在特定数据集上的性能排序,或纵向追踪单一模型跨基准的稳定性表现。时间序列字段支持模型性能演进研究,而百分位数数据有助于识别模型表现的异常波动。该数据集为模型评估领域的元分析提供了标准化数据基础。
背景与挑战
背景概述
人工智能模型评估领域正面临标准化与系统化的重要转折点,every_eval_score_ever数据集应运而生。该数据集由研究机构于2025年构建,聚焦于整合多基准测试平台下的模型性能数据,涵盖经典评测、MMLU及轻量化基准三大范畴。其核心在于通过结构化统计指标,为模型能力评估提供跨平台、多维度的量化依据,显著推进了人工智能评测方法论的系统化发展。
当前挑战
该数据集致力于解决模型性能评估中的异构数据整合与标准化难题,具体包括多基准测试指标对齐、模型跨域能力可比性分析等核心问题。构建过程中面临原始数据源格式异构、评估协议不一致、时序数据同步等工程技术挑战,需通过自动化流水线实现多源数据的清洗、去重与统计量计算,确保评估结果的可靠性与可复现性。
常用场景
经典使用场景
在人工智能模型评估领域,该数据集为研究者提供了标准化的性能比较框架。通过对153个独特模型在83个数据集上的7,115种组合评估,研究者能够系统分析不同模型在MMLU、Classic等基准测试中的表现差异,为模型选择与优化提供数据支撑。
解决学术问题
该数据集有效解决了模型评估中缺乏统一量化标准的问题。通过提供包含均值、中位数、标准差及百分位数等完整统计指标的评估数据,使研究者能够客观衡量模型稳定性与泛化能力,推动建立更科学的模型性能评估体系。
衍生相关工作
基于该数据集衍生了多项重要研究,包括模型性能预测算法开发、评估偏差检测方法创新以及跨基准迁移学习研究。这些工作显著推进了自动化模型评估技术的发展,为构建更高效的AI评估生态系统奠定基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作