open-llm-leaderboard-old/details_jan-hq__supermario-v2

Name: open-llm-leaderboard-old/details_jan-hq__supermario-v2
Creator: open-llm-leaderboard-old
Published: 2024-02-09 20:34:53
License: 暂无描述

Hugging Face2024-02-09 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_jan-hq__supermario-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型[jan-hq/supermario-v2](https://huggingface.co/jan-hq/supermario-v2)在[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的评估运行期间自动创建的。数据集由63个配置组成，每个配置对应一个评估任务。数据集是从1次运行中创建的，每次运行都可以在每个配置的特定分割中找到，分割名称使用运行的时间戳命名。"train"分割始终指向最新的结果。此外，"results"配置存储了所有运行的聚合结果，并用于计算和显示[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在对模型jan-hq/supermario-v2进行评估运行时自动创建的，用于Open LLM Leaderboard。

数据集结构

数据集包含63个配置，每个配置对应一个评估任务。
数据集从1次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train"分割始终指向最新的结果。
额外的配置"results"存储所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_jan-hq__supermario-v2", "harness_winogrande_5", split="train")

最新结果

以下是2024-02-09T20:32:05.424475运行的最新结果：

python { "all": { "acc": 0.6539549791176643, "acc_stderr": 0.03204215359847382, "acc_norm": 0.653827481855933, "acc_norm_stderr": 0.03270545473371109, "mc1": 0.44430844553243576, "mc1_stderr": 0.017394586250743173, "mc2": 0.606060589051262, "mc2_stderr": 0.015117953296631431 }, "harness|arc:challenge|25": { "acc": 0.658703071672355, "acc_stderr": 0.013855831287497723, "acc_norm": 0.6843003412969283, "acc_norm_stderr": 0.013582571095815291 }, "harness|hellaswag|10": { "acc": 0.6761601274646485, "acc_stderr": 0.0046698341309770715, "acc_norm": 0.8650667197769368, "acc_norm_stderr": 0.0034095405332498423 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.33, "acc_stderr": 0.04725815626252605, "acc_norm": 0.33, "acc_norm_stderr": 0.04725815626252605 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6370370370370371, "acc_stderr": 0.04153948404742398, "acc_norm": 0.6370370370370371, "acc_norm_stderr": 0.04153948404742398 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7039473684210527, "acc_stderr": 0.03715062154998904, "acc_norm": 0.7039473684210527, "acc_norm_stderr": 0.03715062154998904 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.63, "acc_stderr": 0.04852365870939099, "acc_norm": 0.63, "acc_norm_stderr": 0.04852365870939099 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7132075471698113, "acc_stderr": 0.027834912527544067, "acc_norm": 0.7132075471698113, "acc_norm_stderr": 0.027834912527544067 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7847222222222222, "acc_stderr": 0.03437079344106135, "acc_norm": 0.7847222222222222, "acc_norm_stderr": 0.03437079344106135 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.47, "acc_stderr": 0.050161355804659205, "acc_norm": 0.47, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.53, "acc_stderr": 0.050161355804659205, "acc_norm": 0.53, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.35, "acc_stderr": 0.047937248544110196, "acc_norm": 0.35, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6705202312138728, "acc_stderr": 0.03583901754736412, "acc_norm": 0.6705202312138728, "acc_norm_stderr": 0.03583901754736412 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.45098039215686275, "acc_stderr": 0.04951218252396264, "acc_norm": 0.45098039215686275, "acc_norm_stderr": 0.04951218252396264 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.78, "acc_stderr": 0.04163331998932263, "acc_norm": 0.78, "acc_norm_stderr": 0.04163331998932263 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.6, "acc_stderr": 0.03202563076101735, "acc_norm": 0.6, "acc_norm_stderr": 0.03202563076101735 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.04702880432049615, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.04702880432049615 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5241379310344828, "acc_stderr": 0.0416180850350153, "acc_norm": 0.5241379310344828, "acc_norm_stderr": 0.0416180850350153 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.42592592592592593, "acc_stderr": 0.025467149045469553, "acc_norm": 0.42592592592592593, "acc_norm_stderr": 0.025467149045469553 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.4523809523809524, "acc_stderr": 0.044518079590553275, "acc_norm": 0.4523809523809524, "acc_norm_stderr": 0.044518079590553275 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.35, "acc_stderr": 0.047937248544110196, "acc_norm": 0.35, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7774193548387097, "acc_stderr": 0.023664216671642518, "acc_norm": 0.7774193548387097, "acc_norm_stderr": 0.023664216671642518 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.4729064039408867, "acc_stderr": 0.03512819077876106, "acc_norm": 0.4729064039408867, "acc_norm_stderr": 0.03512819077876106 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.7, "acc_stderr": 0.046056618647183814, "acc_norm": 0.7, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7757575757575758, "acc_stderr": 0.03256866661681102, "acc_norm": 0.7757575757575758, "acc_norm_stderr": 0.03256866661681102 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7929292929292929, "acc_stderr": 0.028869778460267045, "acc_norm": 0.7929292929292929, "acc_norm_stderr": 0.028869778460267045 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9015544041450777, "acc_stderr": 0.021500249576033456, "acc_norm": 0.9015544041450777, "acc_norm_stderr": 0.021500249576033456 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6666666666666666, "acc_stderr": 0.023901157979402534, "acc_norm": 0.6666666666666666, "acc_norm_stderr": 0.023901157979402534 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.36666666666666664, "acc_stderr": 0.029381620726465066, "acc_norm": 0.36666666666666664, "acc_norm_stderr": 0.029381620726465066 }, "harness|hendrycksTest-high_school_microeconomics

搜集汇总

数据集介绍

构建方式

在大型语言模型评估的生态系统中，该数据集是专为记录模型 jan-hq/supermario-v2 在 Open LLM Leaderboard 上的评测细节而自动生成的。数据集构建过程基于单次评测运行，将每次运行的结果按时间戳划分为独立的分片，并统一汇总至“train”分片以指向最新成果。整个数据集包含63个配置，每个配置对应一项被评测的任务，同时设立“results”配置用于存储所有任务的聚合指标，为排行榜的最终展示提供依据。

特点

该数据集的一大特色在于其精细化的任务分解结构，涵盖从常识推理（如 ARC、HellaSwag）到数学推理（GSM8K）、知识问答（MMLU 系列）等多维度评测任务，共计63个独立配置。每个配置下不仅保存了原始评测细节，还通过时间戳分片实现了历史版本追溯，确保评测过程的透明可复现。此外，数据集自动聚合了准确率（acc）、标准化准确率（acc_norm）等关键指标及其标准误差，为模型能力的量化比较提供了扎实的数据基础。

使用方法

使用该数据集时，研究人员可通过 HuggingFace 的 datasets 库便捷加载。例如，调用 load_dataset 函数并指定目标配置名称（如“harness_winogrande_5”）及分片（如“train”），即可获取对应任务的最新评测详情。若需回溯历史评测结果，可依据时间戳分片名称访问特定运行数据。对于整体性能分析，可直接加载“results”配置，其中包含了所有任务的聚合指标，便于进行跨任务的综合评估与可视化呈现。

背景与挑战

背景概述

在大规模语言模型（LLM）蓬勃发展的浪潮中，如何系统性地评估模型在多维度任务上的表现成为核心挑战。Open LLM Leaderboard由Hugging Face于2023年发起，旨在为社区提供一个标准化、透明化的模型评测平台。该数据集记录了模型jan-hq/supermario-v2在2024年2月9日的一次完整评估运行结果，涵盖了从常识推理、数学问题求解到多学科知识问答等63个任务配置，如ARC-Challenge、HellaSwag、GSM8K以及涵盖57个学科的MMLU基准。研究人员通过该数据集能够深入剖析模型在推理、知识记忆与语言理解等维度的细微表现，其影响力在于为LLM的横向对比与迭代优化提供了可复现的细粒度证据，推动了开放科学背景下模型评估的规范化进程。

当前挑战

该数据集所解决的领域问题聚焦于LLM评估的碎片化与不可复现性。传统上，不同研究机构采用各异的评测基准与采样策略，导致模型性能难以公平对比。此数据集通过统一的任务集（如ARC、HellaSwag等）和标准化的评估流水线（基于lm-evaluation-harness），实现了跨模型、跨时间戳的精确比对。构建过程中面临的挑战包括：需协调63个异构任务的输入格式与评分逻辑，确保每个配置的parquet文件与运行时间戳严格对应；同时，需处理多轮评估中任务覆盖不一致的问题（如部分运行仅评测子集），并通过“latest”分片动态追踪最新结果，这对数据管道的一致性与版本管理提出了极高要求。

常用场景

经典使用场景

在大型语言模型（LLM）蓬勃发展的浪潮中，对模型性能进行标准化、多维度的评估成为推动技术迭代的关键基石。open-llm-leaderboard-old/details_jan-hq__supermario-v2 数据集正是为此而生，它记录了模型 jan-hq/supermario-v2 在 Open LLM Leaderboard 框架下的完整评估过程。该数据集最经典的使用场景是作为模型评估结果的精细档案，研究者可通过加载特定任务配置（如 harness_winogrande_5）和运行时间戳分片，追溯模型在每项任务上的微观表现，从而深入剖析模型在推理、常识理解、数学求解等不同维度的能力边界。

衍生相关工作

该数据集作为Open LLM Leaderboard生态系统的组成部分，衍生了一系列关于模型评估标准化与透明化的经典工作。它启发研究者构建了类似的可追溯评估数据集，推动了将评估过程视为一等公民的研究范式，使得模型性能的每一次波动都能被精确归因。此外，基于该数据集的运行记录，衍生出了关于评估结果可视化、任务难度分析以及模型鲁棒性研究的相关工作，进一步丰富了LLM评估的理论体系，为构建更公平、更全面的模型排名机制提供了方法论支撑。

数据集最近研究