open-llm-leaderboard-old/details_saishf__Kuro-Lotus-10.7B
收藏数据集概述
数据集简介
该数据集是在对模型 saishf/Kuro-Lotus-10.7B 进行评估运行期间自动创建的。数据集包含 63 个配置,每个配置对应一个评估任务。数据集从 1 次运行中创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。
数据集结构
数据集包含以下配置:
harness_arc_challenge_25harness_gsm8k_5harness_hellaswag_10harness_hendrycksTest_5
每个配置包含多个数据文件,分为不同的分割,如 2024_02_13T11_03_22.904872 和 latest。
数据加载示例
以下是加载数据集的示例代码: python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_saishf__Kuro-Lotus-10.7B", "harness_winogrande_5", split="train")
最新结果
以下是最近一次运行(2024-02-13T11:03:22.904872)的最新结果: python { "all": { "acc": 0.6694085008188662, "acc_stderr": 0.03144841125695069, "acc_norm": 0.6702869793586165, "acc_norm_stderr": 0.032092139305259296, "mc1": 0.4394124847001224, "mc1_stderr": 0.017374520482513707, "mc2": 0.5826555768468422, "mc2_stderr": 0.015676012670254088 }, "harness|arc:challenge|25": { "acc": 0.658703071672355, "acc_stderr": 0.013855831287497728, "acc_norm": 0.6868600682593856, "acc_norm_stderr": 0.013552671543623494 }, "harness|hellaswag|10": { "acc": 0.6870145389364668, "acc_stderr": 0.004627607991626913, "acc_norm": 0.8751244771957777, "acc_norm_stderr": 0.003299021089089749 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.42, "acc_stderr": 0.049604496374885836, "acc_norm": 0.42, "acc_norm_stderr": 0.049604496374885836 }, # 其他任务的结果... }



