open-llm-leaderboard/details_aboros98__merlin1.4
收藏Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_aboros98__merlin1.4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在模型aboros98/merlin1.4的评估运行期间自动创建的,用于在Open LLM Leaderboard上进行评估。数据集由63个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都可以在特定配置中找到,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,results配置存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。
该数据集是在模型aboros98/merlin1.4的评估运行期间自动创建的,用于在Open LLM Leaderboard上进行评估。数据集由63个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都可以在特定配置中找到,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,results配置存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard
原始信息汇总
数据集概述
数据集基本信息
- 名称: Evaluation run of aboros98/merlin1.4
- 创建目的: 自动创建于模型 aboros98/merlin1.4 在 Open LLM Leaderboard 上的评估运行过程中。
- 数据集组成: 包含63个配置,每个配置对应一个评估任务。
数据集结构
-
配置详情:
- 每个配置包含一个特定的任务评估结果。
- 每个配置中的数据分为多个分割,以运行的时间戳命名。
- "train"分割指向最新的结果。
-
额外配置:
- "results"配置存储所有运行的聚合结果,用于计算和显示聚合指标。
数据集加载示例
python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_aboros98__merlin1.4", "harness_winogrande_5", split="train")
最新结果
- 结果概览: 提供了一系列任务的评估结果,包括准确率(acc)、标准误差(acc_stderr)等指标。
- 示例结果:
- 任务 "harness|arc:challenge|25" 的准确率为0.5631399317406144。
- 任务 "harness|hellaswag|10" 的准确率为0.5630352519418442。
- 任务 "harness|hendrycksTest-abstract_algebra|5" 的准确率为0.27。
- 任务 "harness|hendrycksTest-anatomy|5" 的准确率为0.4444444444444444。
- 任务 "harness|hendrycksTest-astronomy|5" 的准确率为0.5723684210526315。
- 任务 "harness|hendrycksTest-business_ethics|5" 的准确率为0.55。
- 任务 "harness|hendrycksTest-clinical_knowledge|5" 的准确率为0.5849056603773585。
- 任务 "harness|hendrycksTest-college_biology|5" 的准确率为0.6041666666666666。
- 任务 "harness|hendrycksTest-college_chemistry|5" 的准确率为0.36。
- 任务 "harness|hendrycksTest-college_computer_science|5" 的准确率为0.43。
- 任务 "harness|hendrycksTest-college_mathematics|5" 的准确率为0.42。
- 任务 "harness|hendrycksTest-college_medicine|5" 的准确率为0.5491329479768786。
- 任务 "harness|hendrycksTest-college_physics|5" 的准确率为0.29411764705882354。
- 任务 "harness|hendrycksTest-computer_security|5" 的准确率为0.71。
- 任务 "harness|hendrycksTest-conceptual_physics|5" 的准确率为0.5276595744680851。
- 任务 "harness|hendrycksTest-econometrics|5" 的准确率为0.35964912280701755。
- 任务 "harness|hendrycksTest-electrical_engineering|5" 的准确率为0.5793103448275863。
- 任务 "harness|hendrycksTest-elementary_mathematics|5" 的准确率为0.41798941798941797。
- 任务 "harness|hendrycksTest-formal_logic|5" 的准确率为0.36507936507936506。
- 任务 "harness|hendrycksTest-global_facts|5" 的准确率为0.4。
- 任务 "harness|hendrycksTest-high_school_biology|5" 的准确率为0.6709677419354839。
- 任务 "harness|hendrycksTest-high_school_chemistry|5" 的准确率为0.49261083743842365。
- 任务 "harness|hendrycksTest-high_school_computer_science|5" 的准确率为0.65。
- 任务 "harness|hendrycksTest-high_school_european_history|5" 的准确率为0.6363636363636364。
- 任务 "harness|hendrycksTest-high_school_geography|5" 的准确率为0.702020202020202。
- 任务 "harness|hendrycksTest-high_school_government_and_politics|5" 的准确率为0.7616580310880829。
- 任务 "harness|hendrycksTest-high_school_macroeconomics|5" 的准确率为0.5461538461538461。
- 任务 "harness|hendrycksTest-high_school_mathematics|5" 的准确率为0.31851851851851853。
- 任务 "harness|hendrycksTest-high_school_microeconomics|5" 的准确率为0.5798319327731093。
- 任务 "harness|hendrycksTest-high_school_physics|5" 的准确率为0.3443708609271523。
- 任务 "harness|hendrycksTest-high_school_psychology|5" 的准确率为0.7743119266055046。
- 任务 "harness|hendrycksTest-high_school_statistics|5" 的准确率为0.4212962962962963。
- 任务 "harness|hendrycksTest-high_school_us_history|5" 的准确率为0.6421568627450981。
- 任务 "harness|hendrycksTest-high_school_world_history|5" 的准确率为0.7088607594936709。
- 任务 "harness|hendrycksTest-human_aging|5" 的准确率为0.6322869955156951。
- 任务 "harness|hendrycksTest-human_sexuality|5" 的准确率为0.6717557251908397。
- 任务 "harness|hendrycksTest-international_law|5" 的准确率为0.71900826446281。
- 任务 "harness|hendrycksTest-jurisprudence|5" 的准确率为0.7222222222222222。
- 任务 "harness|hendrycksTest-logical_fallacies|5" 的准确率为0.6993865030674846。
- 任务 "harness|hendrycksTest-machine_learning|5" 的准确率为0.5446428571428571。
- 任务 "harness|hendrycksTest-management|5" 的准确率为0.7184466019417476。
- 任务 "harness|hendrycksTest-marketing|5" 的准确率为0.8162393162393162。
- 任务 "harness|hendrycksTest-medical_genetics|5" 的准确率为0.63。
- 任务 "harness|hendrycksTest-miscellaneous|5" 的准确率为0.6896551724137931。
- 任务 "harness|hendrycksTest-moral_disputes|5" 的准确率为0.6705202312138728。
- 任务 "harness|hendrycksTest-moral_scenarios|5" 的准确率为0.264804469273743。
- 任务 "harness|hendrycksTest-nutrition|5" 的准确率为0.6143790849673203。
- 任务 "harness|hendrycksTest-philosophy|5" 的准确率为0.6334405144694534。
- 任务 "harness|hendrycksTest-prehistory|5" 的准确率为0.6049382716049383。
- 任务 "harness|hendrycksTest-professional_accounting|5" 的准确率为0.4219858156028369。
- 任务 "harness|hendrycksTest-professional_law|5" 的准确率为0.4048239895697523。
- 任务 "harness|hendrycksTest-professional_medicine|5" 的准确率为0.4375。
- 任务 "harness|hendrycksTest-professional_psychology|5" 的准确率为0.5620915032679739。
- 任务 "harness|hendrycksTest-public_relations|5" 的准确率为0.6636363636363637。
- 任务 "harness|hendrycksTest-security_studies|5" 的准确率为0.6612244897959184。
- 任务 "harness|hendrycksTest-sociology|5" 的准确率为0.7661691542288557。
- 任务 "harness|hendrycksTest-us_foreign_policy|5" 的准确率为0.73。
- 任务 "harness|hendrycksTest-virology|5" 的准确率为0.4819277108433735。
- 任务 "harness|hendrycksTest-world_religions|5" 的准确率为0.6666666666666666。
- 任务 "harness|truthfulqa:mc|0" 的 mc1 为0.32558139534883723,mc2 为0.4735785703076855。
- 任务 "harness|winogrande|5" 的准确率为0.749802683504341。
- 任务 "harness|gsm8k|5" 的准确率为0.4844579226686884。
这些结果提供了模型在多个任务上的性能评估,有助于理解和分析模型的能力。



