open-llm-leaderboard-old/details_yeontaek__llama-2-13B-ensemble-v4
收藏数据集概述
数据集摘要
该数据集是在评估模型 yeontaek/llama-2-13B-ensemble-v4 在 Open LLM Leaderboard 上的自动创建的。数据集由 61 个配置组成,每个配置对应一个评估任务。数据集从 1 次运行中创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割总是指向最新的结果。
数据集结构
数据集包含以下配置:
- harness_arc_challenge_25
- 分割:2023_08_28T09_27_03.867556
- 分割:latest
- harness_hellaswag_10
- 分割:2023_08_28T09_27_03.867556
- 分割:latest
- harness_hendrycksTest
- 分割:2023_08_28T09_27_03.867556
- 包含多个子任务的详细路径
最新结果
以下是 最新结果 的摘要: python { "all": { "acc": 0.5663992305904989, "acc_stderr": 0.03429173024379658, "acc_norm": 0.5702504327612581, "acc_norm_stderr": 0.03427095428817404, "mc1": 0.3806609547123623, "mc1_stderr": 0.016997627871907926, "mc2": 0.518155888420307, "mc2_stderr": 0.015704569450921007 }, "harness|arc:challenge|25": { "acc": 0.6015358361774744, "acc_stderr": 0.014306946052735565, "acc_norm": 0.6296928327645052, "acc_norm_stderr": 0.01411129875167495 }, "harness|hellaswag|10": { "acc": 0.6247759410476, "acc_stderr": 0.004831911860478687, "acc_norm": 0.8238398725353515, "acc_norm_stderr": 0.0038017777798095838 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, # 其他任务的结果省略 }
数据加载示例
python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_yeontaek__llama-2-13B-ensemble-v4", "harness_truthfulqa_mc_0", split="train")



