open-llm-leaderboard-old/details_Sao10K__Fimbulvetr-11B-v2

Name: open-llm-leaderboard-old/details_Sao10K__Fimbulvetr-11B-v2
Creator: open-llm-leaderboard-old
Published: 2024-03-16 11:44:05
License: 暂无描述

Hugging Face2024-03-16 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Sao10K__Fimbulvetr-11B-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对模型Sao10K/Fimbulvetr-11B-v2进行评估时自动创建的。数据集由63个配置组成，每个配置对应一个评估任务。数据集包含2次运行的数据，每次运行在每个配置中作为一个特定的分割表示。train分割始终指向最新的结果。此外，名为results的配置存储了所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用`datasets`库中的`load_dataset`函数加载数据集的示例。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在模型 Sao10K/Fimbulvetr-11B-v2 在 Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集结构

配置数量：63个配置，每个配置对应一个评估任务。
运行次数：数据集从2次运行中创建。每次运行在每个配置中作为一个特定的分割存在，分割名称使用运行的时间戳。
训练分割："train" 分割始终指向最新的结果。
结果配置：一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Sao10K__Fimbulvetr-11B-v2", "harness_winogrande_5", split="train")

最新结果

以下是 2024-03-16T11:41:30.859795 运行的最新结果：

python { "all": { "acc": 0.6710297689958459, "acc_stderr": 0.03151550667899731, "acc_norm": 0.6724350896358895, "acc_norm_stderr": 0.0321521489538622, "mc1": 0.47613219094247244, "mc1_stderr": 0.017483547156961574, "mc2": 0.6342749025395696, "mc2_stderr": 0.0156107236020673 }, "harness|arc:challenge|25": { "acc": 0.6655290102389079, "acc_stderr": 0.013787460322441372, "acc_norm": 0.7013651877133106, "acc_norm_stderr": 0.01337407861506874 }, "harness|hellaswag|10": { "acc": 0.696673969328819, "acc_stderr": 0.00458755357710126, "acc_norm": 0.877912766381199, "acc_norm_stderr": 0.00326717445844976 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.36, "acc_stderr": 0.04824181513244218, "acc_norm": 0.36, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6074074074074074, "acc_stderr": 0.04218506215368879, "acc_norm": 0.6074074074074074, "acc_norm_stderr": 0.04218506215368879 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7631578947368421, "acc_stderr": 0.034597776068105365, "acc_norm": 0.7631578947368421, "acc_norm_stderr": 0.034597776068105365 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.75, "acc_stderr": 0.04351941398892446, "acc_norm": 0.75, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7094339622641509, "acc_stderr": 0.027943219989337142, "acc_norm": 0.7094339622641509, "acc_norm_stderr": 0.027943219989337142 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7638888888888888, "acc_stderr": 0.03551446610810826, "acc_norm": 0.7638888888888888, "acc_norm_stderr": 0.03551446610810826 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.42, "acc_stderr": 0.049604496374885836, "acc_norm": 0.42, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.55, "acc_stderr": 0.05, "acc_norm": 0.55, "acc_norm_stderr": 0.05 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.35, "acc_stderr": 0.0479372485441102, "acc_norm": 0.35, "acc_norm_stderr": 0.0479372485441102 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6705202312138728, "acc_stderr": 0.03583901754736412, "acc_norm": 0.6705202312138728, "acc_norm_stderr": 0.03583901754736412 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.4019607843137255, "acc_stderr": 0.04878608714466996, "acc_norm": 0.4019607843137255, "acc_norm_stderr": 0.04878608714466996 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.77, "acc_stderr": 0.042295258468165065, "acc_norm": 0.77, "acc_norm_stderr": 0.042295258468165065 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.6127659574468085, "acc_stderr": 0.03184389265339526, "acc_norm": 0.6127659574468085, "acc_norm_stderr": 0.03184389265339526 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.5263157894736842, "acc_stderr": 0.046970851366478626, "acc_norm": 0.5263157894736842, "acc_norm_stderr": 0.046970851366478626 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.593103448275862, "acc_stderr": 0.04093793981266236, "acc_norm": 0.593103448275862, "acc_norm_stderr": 0.04093793981266236 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.47354497354497355, "acc_stderr": 0.025715239811346758, "acc_norm": 0.47354497354497355, "acc_norm_stderr": 0.025715239811346758 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.46825396825396826, "acc_stderr": 0.04463112720677171, "acc_norm": 0.46825396825396826, "acc_norm_stderr": 0.04463112720677171 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.39, "acc_stderr": 0.04902071300001974, "acc_norm": 0.39, "acc_norm_stderr": 0.04902071300001974 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.8290322580645161, "acc_stderr": 0.02141724293632158, "acc_norm": 0.8290322580645161, "acc_norm_stderr": 0.02141724293632158 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.4876847290640394, "acc_stderr": 0.035169204442208966, "acc_norm": 0.4876847290640394, "acc_norm_stderr": 0.035169204442208966 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.74, "acc_stderr": 0.044084400227680794, "acc_norm": 0.74, "acc_norm_stderr": 0.044084400227680794 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.8181818181818182, "acc_stderr": 0.03011768892950357, "acc_norm": 0.8181818181818182, "acc_norm_stderr": 0.03011768892950357 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.8686868686868687, "acc_stderr": 0.02406315641682252, "acc_norm": 0.8686868686868687, "acc_norm_stderr": 0.02406315641682252 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8963730569948186, "acc_stderr": 0.02199531196364424, "acc_norm": 0.8963730569948186, "acc_norm_stderr": 0.02199531196364424 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6743589743589744, "acc_stderr": 0.02375966576741229, "acc_norm": 0.6743589743589744, "acc_norm_stderr": 0.02375966576741229 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.34814814814814815, "acc_stderr": 0.029045600290616258, "acc_norm": 0.34814814814814815, "acc_norm_stderr": 0.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集