open-llm-leaderboard/details_tiiuae__falcon-7b-instruct
收藏数据集概述
数据集名称
Evaluation run of tiiuae/falcon-7b-instruct
数据集摘要
该数据集是在评估模型 tiiuae/falcon-7b-instruct 在 Open LLM Leaderboard 上的自动创建的。
数据集组成
数据集由64个配置组成,每个配置对应一个评估任务。数据集从6次运行中创建,每次运行可以在每个配置中作为一个特定的分片找到,分片名称使用运行的时间戳。"train" 分片始终指向最新的结果。
额外配置
一个额外的配置 "results" 存储所有运行的聚合结果(用于计算和显示 Open LLM Leaderboard 上的聚合指标)。
数据加载示例
python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_tiiuae__falcon-7b-instruct", "harness_gsm8k_5", split="train")
最新结果
以下是 最新结果 的示例: python { "all": { "acc": 0.04700530705079606, "acc_stderr": 0.005829898355937184 }, "harness|gsm8k|5": { "acc": 0.04700530705079606, "acc_stderr": 0.005829898355937184 } }
配置详情
-
config_name: harness_arc_challenge_25
- splits:
- 2023_09_12T17_11_33.167282
- 2023_10_03T22_10_35.400219
- latest
- splits:
-
config_name: harness_drop_3
- splits:
- 2023_10_25T19_58_40.365010
- 2023_10_26T00_21_45.676219
- latest
- splits:
-
config_name: harness_gsm8k_5
- splits:
- 2023_10_25T19_58_40.365010
- 2023_10_26T00_21_45.676219
- 2023_12_03T18_01_19.868958
- 2023_12_03T18_01_45.204079
- latest
- splits:
-
config_name: harness_hellaswag_10
- splits:
- 2023_09_12T17_11_33.167282
- 2023_10_03T22_10_35.400219
- latest
- splits:
-
config_name: harness_hendrycksTest_5
- splits:
- 2023_09_12T17_11_33.167282
- 2023_10_03T22_10_35.400219
- latest
- splits:



