open-llm-leaderboard-old/details_ParasiticRogue__Merged-RP-Stew-V2-34B

Name: open-llm-leaderboard-old/details_ParasiticRogue__Merged-RP-Stew-V2-34B
Creator: open-llm-leaderboard-old
Published: 2024-04-15 23:09:51
License: 暂无描述

Hugging Face2024-04-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_ParasiticRogue__Merged-RP-Stew-V2-34B

下载链接

链接失效反馈

官方服务：

资源简介：

数据集是在模型ParasiticRogue/Merged-RP-Stew-V2-34B的评估运行期间自动创建的，用于在Open LLM Leaderboard上进行评估。数据集由63个配置组成，每个配置对应一个评估任务。数据集是从1次运行中创建的，每次运行都可以在特定配置中找到，分割名称使用运行的时间戳。train分割始终指向最新结果。此外，results配置存储了所有运行的聚合结果，并用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集来源

该数据集是在评估模型 ParasiticRogue/Merged-RP-Stew-V2-34B 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。数据集从 1 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

额外配置

一个额外的配置 "results" 存储了所有运行的聚合结果，用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_ParasiticRogue__Merged-RP-Stew-V2-34B", "harness_winogrande_5", split="train")

最新结果

以下是最新结果的摘要： python { "all": { "acc": 0.7711704868828757, "acc_stderr": 0.0276721684770019, "acc_norm": 0.7758442981381146, "acc_norm_stderr": 0.028183094757783765, "mc1": 0.4283965728274174, "mc1_stderr": 0.017323088597314754, "mc2": 0.5792788550440546, "mc2_stderr": 0.015335521477635526 }, "harness|arc:challenge|25": { "acc": 0.6390784982935154, "acc_stderr": 0.014034761386175452, "acc_norm": 0.6706484641638225, "acc_norm_stderr": 0.013734057652635476 }, "harness|hellaswag|10": { "acc": 0.6704839673371839, "acc_stderr": 0.004690768393854473, "acc_norm": 0.8605855407289384, "acc_norm_stderr": 0.0034567060380547555 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.48, "acc_stderr": 0.050211673156867795, "acc_norm": 0.48, "acc_norm_stderr": 0.050211673156867795 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.725925925925926, "acc_stderr": 0.03853254836552003, "acc_norm": 0.725925925925926, "acc_norm_stderr": 0.03853254836552003 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.9078947368421053, "acc_stderr": 0.02353268597044349, "acc_norm": 0.9078947368421053, "acc_norm_stderr": 0.02353268597044349 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.8, "acc_stderr": 0.040201512610368445, "acc_norm": 0.8, "acc_norm_stderr": 0.040201512610368445 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.8113207547169812, "acc_stderr": 0.024079995130062253, "acc_norm": 0.8113207547169812, "acc_norm_stderr": 0.024079995130062253 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.9166666666666666, "acc_stderr": 0.023112508176051236, "acc_norm": 0.9166666666666666, "acc_norm_stderr": 0.023112508176051236 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.51, "acc_stderr": 0.05024183937956912, "acc_norm": 0.51, "acc_norm_stderr": 0.05024183937956912 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.62, "acc_stderr": 0.04878317312145633, "acc_norm": 0.62, "acc_norm_stderr": 0.04878317312145633 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.41, "acc_stderr": 0.049431107042371025, "acc_norm": 0.41, "acc_norm_stderr": 0.049431107042371025 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.7398843930635838, "acc_stderr": 0.03345036916788992, "acc_norm": 0.7398843930635838, "acc_norm_stderr": 0.03345036916788992 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.5490196078431373, "acc_stderr": 0.04951218252396262, "acc_norm": 0.5490196078431373, "acc_norm_stderr": 0.04951218252396262 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.83, "acc_stderr": 0.03775251680686371, "acc_norm": 0.83, "acc_norm_stderr": 0.03775251680686371 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.825531914893617, "acc_stderr": 0.024809442335503976, "acc_norm": 0.825531914893617, "acc_norm_stderr": 0.024809442335503976 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.631578947368421, "acc_stderr": 0.04537815354939391, "acc_norm": 0.631578947368421, "acc_norm_stderr": 0.04537815354939391 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.8, "acc_stderr": 0.033333333333333284, "acc_norm": 0.8, "acc_norm_stderr": 0.033333333333333284 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.7248677248677249, "acc_stderr": 0.02300008685906865, "acc_norm": 0.7248677248677249, "acc_norm_stderr": 0.02300008685906865 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.5476190476190477, "acc_stderr": 0.044518079590553275, "acc_norm": 0.5476190476190477, "acc_norm_stderr": 0.044518079590553275 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.59, "acc_stderr": 0.04943110704237102, "acc_norm": 0.59, "acc_norm_stderr": 0.04943110704237102 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.9193548387096774, "acc_stderr": 0.015490002961591028, "acc_norm": 0.9193548387096774, "acc_norm_stderr": 0.015490002961591028 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.6699507389162561, "acc_stderr": 0.03308530426228258, "acc_norm": 0.6699507389162561, "acc_norm_stderr": 0.03308530426228258 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.82, "acc_stderr": 0.038612291966536955, "acc_norm": 0.82, "acc_norm_stderr": 0.038612291966536955 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.8787878787878788, "acc_stderr": 0.025485498373343237, "acc_norm": 0.8787878787878788, "acc_norm_stderr": 0.025485498373343237 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.9242424242424242, "acc_stderr": 0.018852670234993086, "acc_norm": 0.9242424242424242, "acc_norm_stderr": 0.018852670234993086 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9792746113989638, "acc_stderr": 0.010281417011909039, "acc_norm": 0.9792746113989638, "acc_norm_stderr": 0.010281417011909039 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.8307692307692308, "acc_stderr": 0.01901100452365105, "acc_norm": 0.8307692307692308, "acc_norm_stderr": 0.01901100452365105 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.42592592592592593, "acc_stderr": 0.03014913560136595, "acc_norm": 0.42592592592592593, "acc_norm_stderr": 0.03014913560136595 }, "harness

5,000+

优质数据集

54 个

任务类型

进入经典数据集