open-llm-leaderboard/details_saltlux__luxia-21.4b-alignment-v0.2
收藏数据集概述
数据集摘要
该数据集是在评估模型 saltlux/luxia-21.4b-alignment-v0.2 的过程中自动创建的,用于 Open LLM Leaderboard。数据集包含 63 个配置,每个配置对应一个评估任务。数据集从 1 次运行中创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。
数据集结构
- 配置数量: 63
- 分割: 每个配置包含特定分割,分割名称使用运行的时间戳,"train" 分割指向最新结果。
数据加载示例
python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_saltlux__luxia-21.4b-alignment-v0.2", "harness_winogrande_5", split="train")
最新结果
以下是 最新结果 的摘要: python { "all": { "acc": 0.6879682720625286, "acc_stderr": 0.031354200375935094, "acc_norm": 0.6880939367586679, "acc_norm_stderr": 0.0320077039941476, "mc1": 0.6389228886168911, "mc1_stderr": 0.016814312844836886, "mc2": 0.7979548215894491, "mc2_stderr": 0.013186188605380088 }, "harness|arc:challenge|25": { "acc": 0.7593856655290102, "acc_stderr": 0.012491468532390566, "acc_norm": 0.7670648464163823, "acc_norm_stderr": 0.012352507042617401 }, "harness|hellaswag|10": { "acc": 0.8053176658036247, "acc_stderr": 0.0039514673865977306, "acc_norm": 0.9160525791674965, "acc_norm_stderr": 0.0027674220450137595 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.4, "acc_stderr": 0.049236596391733084, "acc_norm": 0.4, "acc_norm_stderr": 0.049236596391733084 }, # 其他任务的结果... }
配置详情
-
harness_arc_challenge_25:
- 分割:
2024_03_11T19_09_58.099900,latest - 路径:
**/details_harness|arc:challenge|25_2024-03-11T19-09-58.099900.parquet
- 分割:
-
harness_gsm8k_5:
- 分割:
2024_03_11T19_09_58.099900,latest - 路径:
**/details_harness|gsm8k|5_2024-03-11T19-09-58.099900.parquet
- 分割:
-
harness_hellaswag_10:
- 分割:
2024_03_11T19_09_58.099900,latest - 路径:
**/details_harness|hellaswag|10_2024-03-11T19-09-58.099900.parquet
- 分割:
-
harness_hendrycksTest_5:
- 分割:
2024_03_11T19_09_58.099900,latest - 路径: 多个路径,例如
**/details_harness|hendrycksTest-abstract_algebra|5_2024-03-11T19-09-58.099900.parquet
- 分割:
以上是数据集的概述和详细信息,包括数据集的结构、加载示例、最新结果和配置详情。



