open-llm-leaderboard-old/details_ajibawa-2023__Code-290k-6.7B-Instruct
收藏数据集概述
数据集摘要
该数据集是在对模型 ajibawa-2023/Code-290k-6.7B-Instruct 进行评估运行期间自动创建的。数据集包含63个配置,每个配置对应一个评估任务。数据集从1次运行中创建,每次运行的详细结果可以在每个配置中找到,使用运行的时间戳作为分割名称。"train" 分割始终指向最新的结果。
数据集结构
数据集由多个配置组成,每个配置对应一个特定的评估任务。每个配置包含不同的时间戳分割,以及一个 "latest" 分割指向最新的结果。
数据加载示例
以下是一个加载数据集详细信息的示例代码: python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_ajibawa-2023__Code-290k-6.7B-Instruct", "harness_winogrande_5", split="train")
最新结果
以下是来自最新运行 2024-02-29T19:04:40.805422 的结果示例:
python
{
"all": {
"acc": 0.34742519786308085,
"acc_stderr": 0.03359515863466484,
"acc_norm": 0.35181819845121587,
"acc_norm_stderr": 0.03441447653537245,
"mc1": 0.26560587515299877,
"mc1_stderr": 0.015461027627253597,
"mc2": 0.41953006431187406,
"mc2_stderr": 0.015854881340136014
},
"harness|arc:challenge|25": {
"acc": 0.33276450511945393,
"acc_stderr": 0.013769863046192312,
"acc_norm": 0.34897610921501704,
"acc_norm_stderr": 0.013928933461382496
},
"harness|hellaswag|10": {
"acc": 0.41047600079665403,
"acc_stderr": 0.004909148239488278,
"acc_norm": 0.5199163513244374,
"acc_norm_stderr": 0.0049858213361464055
},
"harness|hendrycksTest-abstract_algebra|5": {
"acc": 0.3,
"acc_stderr": 0.046056618647183814,
"acc_norm": 0.3,
"acc_norm_stderr": 0.046056618647183814
},
# 其他任务的结果...
}
配置详情
数据集包含多个配置,每个配置对应一个特定的评估任务。以下是部分配置的示例:
harness_arc_challenge_25harness_gsm8k_5harness_hellaswag_10harness_hendrycksTest_5
每个配置包含不同的时间戳分割和 "latest" 分割。



