open-llm-leaderboard-old/details_notadib__Mistral-7B-Instruct-v0.2-attention-sparsity-10-v0.1
收藏数据集概述
数据集摘要
该数据集是在对模型 notadib/Mistral-7B-Instruct-v0.2-attention-sparsity-10-v0.1 进行评估运行时自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。数据集从 1 次运行中创建,每次运行的详细信息可以在每个配置中找到,使用运行的时间戳作为分割名称。"train" 分割始终指向最新的结果。
数据集结构
数据集包含以下配置:
harness_arc_challenge_25harness_gsm8k_5harness_hellaswag_10harness_hendrycksTest_5
每个配置包含不同任务的数据文件,例如:
harness_arc_challenge_25包含harness|arc:challenge|25任务的数据。harness_gsm8k_5包含harness|gsm8k|5任务的数据。harness_hellaswag_10包含harness|hellaswag|10任务的数据。harness_hendrycksTest_5包含多个harness|hendrycksTest-*|5任务的数据。
数据加载示例
以下是加载数据集的示例代码: python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_notadib__Mistral-7B-Instruct-v0.2-attention-sparsity-10-v0.1", "harness_winogrande_5", split="train")
最新结果
以下是来自最新运行 2024-02-01T16:47:43.870919 的结果:
python
{
"all": {
"acc": 0.608213540240799,
"acc_stderr": 0.03315279862254355,
"acc_norm": 0.6128927690011974,
"acc_norm_stderr": 0.03382542868703408,
"mc1": 0.5275397796817626,
"mc1_stderr": 0.01747693019071219,
"mc2": 0.6811241660222933,
"mc2_stderr": 0.015196421629330473
},
"harness|arc:challenge|25": {
"acc": 0.591296928327645,
"acc_stderr": 0.014365750345426998,
"acc_norm": 0.6305460750853242,
"acc_norm_stderr": 0.014104578366491888
},
"harness|hellaswag|10": {
"acc": 0.6683927504481179,
"acc_stderr": 0.004698285350019217,
"acc_norm": 0.8488348934475204,
"acc_norm_stderr": 0.003574776594108505
},
"harness|hendrycksTest-abstract_algebra|5": {
"acc": 0.33,
"acc_stderr": 0.047258156262526045,
"acc_norm": 0.33,
"acc_norm_stderr": 0.047258156262526045
},
# 其他任务的结果...
}



