five

open-llm-leaderboard-old/details_jan-hq__supermario-v2

收藏
Hugging Face2024-02-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_jan-hq__supermario-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型[jan-hq/supermario-v2](https://huggingface.co/jan-hq/supermario-v2)在[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的评估运行期间自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都可以在每个配置的特定分割中找到,分割名称使用运行的时间戳命名。"train"分割始终指向最新的结果。此外,"results"配置存储了所有运行的聚合结果,并用于计算和显示[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的聚合指标。

该数据集是在模型[jan-hq/supermario-v2](https://huggingface.co/jan-hq/supermario-v2)在[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的评估运行期间自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都可以在每个配置的特定分割中找到,分割名称使用运行的时间戳命名。"train"分割始终指向最新的结果。此外,"results"配置存储了所有运行的聚合结果,并用于计算和显示[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在对模型jan-hq/supermario-v2进行评估运行时自动创建的,用于Open LLM Leaderboard

数据集结构

  • 数据集包含63个配置,每个配置对应一个评估任务。
  • 数据集从1次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train"分割始终指向最新的结果。
  • 额外的配置"results"存储所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_jan-hq__supermario-v2", "harness_winogrande_5", split="train")

最新结果

以下是2024-02-09T20:32:05.424475运行的最新结果:

python { "all": { "acc": 0.6539549791176643, "acc_stderr": 0.03204215359847382, "acc_norm": 0.653827481855933, "acc_norm_stderr": 0.03270545473371109, "mc1": 0.44430844553243576, "mc1_stderr": 0.017394586250743173, "mc2": 0.606060589051262, "mc2_stderr": 0.015117953296631431 }, "harness|arc:challenge|25": { "acc": 0.658703071672355, "acc_stderr": 0.013855831287497723, "acc_norm": 0.6843003412969283, "acc_norm_stderr": 0.013582571095815291 }, "harness|hellaswag|10": { "acc": 0.6761601274646485, "acc_stderr": 0.0046698341309770715, "acc_norm": 0.8650667197769368, "acc_norm_stderr": 0.0034095405332498423 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.33, "acc_stderr": 0.04725815626252605, "acc_norm": 0.33, "acc_norm_stderr": 0.04725815626252605 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6370370370370371, "acc_stderr": 0.04153948404742398, "acc_norm": 0.6370370370370371, "acc_norm_stderr": 0.04153948404742398 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7039473684210527, "acc_stderr": 0.03715062154998904, "acc_norm": 0.7039473684210527, "acc_norm_stderr": 0.03715062154998904 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.63, "acc_stderr": 0.04852365870939099, "acc_norm": 0.63, "acc_norm_stderr": 0.04852365870939099 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7132075471698113, "acc_stderr": 0.027834912527544067, "acc_norm": 0.7132075471698113, "acc_norm_stderr": 0.027834912527544067 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7847222222222222, "acc_stderr": 0.03437079344106135, "acc_norm": 0.7847222222222222, "acc_norm_stderr": 0.03437079344106135 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.47, "acc_stderr": 0.050161355804659205, "acc_norm": 0.47, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.53, "acc_stderr": 0.050161355804659205, "acc_norm": 0.53, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.35, "acc_stderr": 0.047937248544110196, "acc_norm": 0.35, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6705202312138728, "acc_stderr": 0.03583901754736412, "acc_norm": 0.6705202312138728, "acc_norm_stderr": 0.03583901754736412 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.45098039215686275, "acc_stderr": 0.04951218252396264, "acc_norm": 0.45098039215686275, "acc_norm_stderr": 0.04951218252396264 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.78, "acc_stderr": 0.04163331998932263, "acc_norm": 0.78, "acc_norm_stderr": 0.04163331998932263 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.6, "acc_stderr": 0.03202563076101735, "acc_norm": 0.6, "acc_norm_stderr": 0.03202563076101735 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.04702880432049615, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.04702880432049615 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5241379310344828, "acc_stderr": 0.0416180850350153, "acc_norm": 0.5241379310344828, "acc_norm_stderr": 0.0416180850350153 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.42592592592592593, "acc_stderr": 0.025467149045469553, "acc_norm": 0.42592592592592593, "acc_norm_stderr": 0.025467149045469553 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.4523809523809524, "acc_stderr": 0.044518079590553275, "acc_norm": 0.4523809523809524, "acc_norm_stderr": 0.044518079590553275 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.35, "acc_stderr": 0.047937248544110196, "acc_norm": 0.35, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7774193548387097, "acc_stderr": 0.023664216671642518, "acc_norm": 0.7774193548387097, "acc_norm_stderr": 0.023664216671642518 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.4729064039408867, "acc_stderr": 0.03512819077876106, "acc_norm": 0.4729064039408867, "acc_norm_stderr": 0.03512819077876106 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.7, "acc_stderr": 0.046056618647183814, "acc_norm": 0.7, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7757575757575758, "acc_stderr": 0.03256866661681102, "acc_norm": 0.7757575757575758, "acc_norm_stderr": 0.03256866661681102 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7929292929292929, "acc_stderr": 0.028869778460267045, "acc_norm": 0.7929292929292929, "acc_norm_stderr": 0.028869778460267045 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9015544041450777, "acc_stderr": 0.021500249576033456, "acc_norm": 0.9015544041450777, "acc_norm_stderr": 0.021500249576033456 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6666666666666666, "acc_stderr": 0.023901157979402534, "acc_norm": 0.6666666666666666, "acc_norm_stderr": 0.023901157979402534 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.36666666666666664, "acc_stderr": 0.029381620726465066, "acc_norm": 0.36666666666666664, "acc_norm_stderr": 0.029381620726465066 }, "harness|hendrycksTest-high_school_microeconomics

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估的生态系统中,该数据集是专为记录模型 jan-hq/supermario-v2 在 Open LLM Leaderboard 上的评测细节而自动生成的。数据集构建过程基于单次评测运行,将每次运行的结果按时间戳划分为独立的分片,并统一汇总至“train”分片以指向最新成果。整个数据集包含63个配置,每个配置对应一项被评测的任务,同时设立“results”配置用于存储所有任务的聚合指标,为排行榜的最终展示提供依据。
特点
该数据集的一大特色在于其精细化的任务分解结构,涵盖从常识推理(如 ARC、HellaSwag)到数学推理(GSM8K)、知识问答(MMLU 系列)等多维度评测任务,共计63个独立配置。每个配置下不仅保存了原始评测细节,还通过时间戳分片实现了历史版本追溯,确保评测过程的透明可复现。此外,数据集自动聚合了准确率(acc)、标准化准确率(acc_norm)等关键指标及其标准误差,为模型能力的量化比较提供了扎实的数据基础。
使用方法
使用该数据集时,研究人员可通过 HuggingFace 的 datasets 库便捷加载。例如,调用 load_dataset 函数并指定目标配置名称(如“harness_winogrande_5”)及分片(如“train”),即可获取对应任务的最新评测详情。若需回溯历史评测结果,可依据时间戳分片名称访问特定运行数据。对于整体性能分析,可直接加载“results”配置,其中包含了所有任务的聚合指标,便于进行跨任务的综合评估与可视化呈现。
背景与挑战
背景概述
在大规模语言模型(LLM)蓬勃发展的浪潮中,如何系统性地评估模型在多维度任务上的表现成为核心挑战。Open LLM Leaderboard由Hugging Face于2023年发起,旨在为社区提供一个标准化、透明化的模型评测平台。该数据集记录了模型jan-hq/supermario-v2在2024年2月9日的一次完整评估运行结果,涵盖了从常识推理、数学问题求解到多学科知识问答等63个任务配置,如ARC-Challenge、HellaSwag、GSM8K以及涵盖57个学科的MMLU基准。研究人员通过该数据集能够深入剖析模型在推理、知识记忆与语言理解等维度的细微表现,其影响力在于为LLM的横向对比与迭代优化提供了可复现的细粒度证据,推动了开放科学背景下模型评估的规范化进程。
当前挑战
该数据集所解决的领域问题聚焦于LLM评估的碎片化与不可复现性。传统上,不同研究机构采用各异的评测基准与采样策略,导致模型性能难以公平对比。此数据集通过统一的任务集(如ARC、HellaSwag等)和标准化的评估流水线(基于lm-evaluation-harness),实现了跨模型、跨时间戳的精确比对。构建过程中面临的挑战包括:需协调63个异构任务的输入格式与评分逻辑,确保每个配置的parquet文件与运行时间戳严格对应;同时,需处理多轮评估中任务覆盖不一致的问题(如部分运行仅评测子集),并通过“latest”分片动态追踪最新结果,这对数据管道的一致性与版本管理提出了极高要求。
常用场景
经典使用场景
在大型语言模型(LLM)蓬勃发展的浪潮中,对模型性能进行标准化、多维度的评估成为推动技术迭代的关键基石。open-llm-leaderboard-old/details_jan-hq__supermario-v2 数据集正是为此而生,它记录了模型 jan-hq/supermario-v2 在 Open LLM Leaderboard 框架下的完整评估过程。该数据集最经典的使用场景是作为模型评估结果的精细档案,研究者可通过加载特定任务配置(如 harness_winogrande_5)和运行时间戳分片,追溯模型在每项任务上的微观表现,从而深入剖析模型在推理、常识理解、数学求解等不同维度的能力边界。
衍生相关工作
该数据集作为Open LLM Leaderboard生态系统的组成部分,衍生了一系列关于模型评估标准化与透明化的经典工作。它启发研究者构建了类似的可追溯评估数据集,推动了将评估过程视为一等公民的研究范式,使得模型性能的每一次波动都能被精确归因。此外,基于该数据集的运行记录,衍生出了关于评估结果可视化、任务难度分析以及模型鲁棒性研究的相关工作,进一步丰富了LLM评估的理论体系,为构建更公平、更全面的模型排名机制提供了方法论支撑。
数据集最近研究
最新研究方向
在大型语言模型(LLM)性能评估的前沿领域,该数据集聚焦于模型在多维度基准测试中的细粒度表现分析。通过记录jan-hq/supermario-v2模型在Open LLM Leaderboard上的63项任务评估结果,覆盖了从常识推理(如ARC-Challenge、HellaSwag)到专业学科知识(如医学、法学、物理学)的广泛范畴,其测评体系紧密契合当前LLM能力边界探索的热点。研究重心在于利用细粒度指标(如acc_norm、mc2)揭示模型在不同难度层级和知识领域的差异化表现,尤其关注在GSM8K数学推理与TruthfulQA真实性检测等挑战性任务上的突破。这一数据集为社区提供了可复现的评估基准,推动了模型鲁棒性与泛化能力的量化研究,对指导下一代LLM的定向优化与公平性评估具有重要参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作