open-llm-leaderboard/details_aboros98__merlin1.4

Name: open-llm-leaderboard/details_aboros98__merlin1.4
Creator: open-llm-leaderboard
Published: 2024-03-15 13:01:38
License: 暂无描述

Hugging Face2024-03-15 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_aboros98__merlin1.4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型aboros98/merlin1.4的评估运行期间自动创建的，用于在Open LLM Leaderboard上进行评估。数据集由63个配置组成，每个配置对应一个评估任务。数据集是从1次运行中创建的，每次运行都可以在特定配置中找到，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，results配置存储了所有运行的聚合结果，并用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集基本信息

名称: Evaluation run of aboros98/merlin1.4
创建目的: 自动创建于模型 aboros98/merlin1.4 在 Open LLM Leaderboard 上的评估运行过程中。
数据集组成: 包含63个配置，每个配置对应一个评估任务。

数据集结构

配置详情:
- 每个配置包含一个特定的任务评估结果。
- 每个配置中的数据分为多个分割，以运行的时间戳命名。
- "train"分割指向最新的结果。
额外配置:
- "results"配置存储所有运行的聚合结果，用于计算和显示聚合指标。

数据集加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_aboros98__merlin1.4", "harness_winogrande_5", split="train")

最新结果

结果概览: 提供了一系列任务的评估结果，包括准确率（acc）、标准误差（acc_stderr）等指标。
示例结果:
- 任务 "harness|arc:challenge|25" 的准确率为0.5631399317406144。
- 任务 "harness|hellaswag|10" 的准确率为0.5630352519418442。
- 任务 "harness|hendrycksTest-abstract_algebra|5" 的准确率为0.27。
- 任务 "harness|hendrycksTest-anatomy|5" 的准确率为0.4444444444444444。
- 任务 "harness|hendrycksTest-astronomy|5" 的准确率为0.5723684210526315。
- 任务 "harness|hendrycksTest-business_ethics|5" 的准确率为0.55。
- 任务 "harness|hendrycksTest-clinical_knowledge|5" 的准确率为0.5849056603773585。
- 任务 "harness|hendrycksTest-college_biology|5" 的准确率为0.6041666666666666。
- 任务 "harness|hendrycksTest-college_chemistry|5" 的准确率为0.36。
- 任务 "harness|hendrycksTest-college_computer_science|5" 的准确率为0.43。
- 任务 "harness|hendrycksTest-college_mathematics|5" 的准确率为0.42。
- 任务 "harness|hendrycksTest-college_medicine|5" 的准确率为0.5491329479768786。
- 任务 "harness|hendrycksTest-college_physics|5" 的准确率为0.29411764705882354。
- 任务 "harness|hendrycksTest-computer_security|5" 的准确率为0.71。
- 任务 "harness|hendrycksTest-conceptual_physics|5" 的准确率为0.5276595744680851。
- 任务 "harness|hendrycksTest-econometrics|5" 的准确率为0.35964912280701755。
- 任务 "harness|hendrycksTest-electrical_engineering|5" 的准确率为0.5793103448275863。
- 任务 "harness|hendrycksTest-elementary_mathematics|5" 的准确率为0.41798941798941797。
- 任务 "harness|hendrycksTest-formal_logic|5" 的准确率为0.36507936507936506。
- 任务 "harness|hendrycksTest-global_facts|5" 的准确率为0.4。
- 任务 "harness|hendrycksTest-high_school_biology|5" 的准确率为0.6709677419354839。
- 任务 "harness|hendrycksTest-high_school_chemistry|5" 的准确率为0.49261083743842365。
- 任务 "harness|hendrycksTest-high_school_computer_science|5" 的准确率为0.65。
- 任务 "harness|hendrycksTest-high_school_european_history|5" 的准确率为0.6363636363636364。
- 任务 "harness|hendrycksTest-high_school_geography|5" 的准确率为0.702020202020202。
- 任务 "harness|hendrycksTest-high_school_government_and_politics|5" 的准确率为0.7616580310880829。
- 任务 "harness|hendrycksTest-high_school_macroeconomics|5" 的准确率为0.5461538461538461。
- 任务 "harness|hendrycksTest-high_school_mathematics|5" 的准确率为0.31851851851851853。
- 任务 "harness|hendrycksTest-high_school_microeconomics|5" 的准确率为0.5798319327731093。
- 任务 "harness|hendrycksTest-high_school_physics|5" 的准确率为0.3443708609271523。
- 任务 "harness|hendrycksTest-high_school_psychology|5" 的准确率为0.7743119266055046。
- 任务 "harness|hendrycksTest-high_school_statistics|5" 的准确率为0.4212962962962963。
- 任务 "harness|hendrycksTest-high_school_us_history|5" 的准确率为0.6421568627450981。
- 任务 "harness|hendrycksTest-high_school_world_history|5" 的准确率为0.7088607594936709。
- 任务 "harness|hendrycksTest-human_aging|5" 的准确率为0.6322869955156951。
- 任务 "harness|hendrycksTest-human_sexuality|5" 的准确率为0.6717557251908397。
- 任务 "harness|hendrycksTest-international_law|5" 的准确率为0.71900826446281。
- 任务 "harness|hendrycksTest-jurisprudence|5" 的准确率为0.7222222222222222。
- 任务 "harness|hendrycksTest-logical_fallacies|5" 的准确率为0.6993865030674846。
- 任务 "harness|hendrycksTest-machine_learning|5" 的准确率为0.5446428571428571。
- 任务 "harness|hendrycksTest-management|5" 的准确率为0.7184466019417476。
- 任务 "harness|hendrycksTest-marketing|5" 的准确率为0.8162393162393162。
- 任务 "harness|hendrycksTest-medical_genetics|5" 的准确率为0.63。
- 任务 "harness|hendrycksTest-miscellaneous|5" 的准确率为0.6896551724137931。
- 任务 "harness|hendrycksTest-moral_disputes|5" 的准确率为0.6705202312138728。
- 任务 "harness|hendrycksTest-moral_scenarios|5" 的准确率为0.264804469273743。
- 任务 "harness|hendrycksTest-nutrition|5" 的准确率为0.6143790849673203。
- 任务 "harness|hendrycksTest-philosophy|5" 的准确率为0.6334405144694534。
- 任务 "harness|hendrycksTest-prehistory|5" 的准确率为0.6049382716049383。
- 任务 "harness|hendrycksTest-professional_accounting|5" 的准确率为0.4219858156028369。
- 任务 "harness|hendrycksTest-professional_law|5" 的准确率为0.4048239895697523。
- 任务 "harness|hendrycksTest-professional_medicine|5" 的准确率为0.4375。
- 任务 "harness|hendrycksTest-professional_psychology|5" 的准确率为0.5620915032679739。
- 任务 "harness|hendrycksTest-public_relations|5" 的准确率为0.6636363636363637。
- 任务 "harness|hendrycksTest-security_studies|5" 的准确率为0.6612244897959184。
- 任务 "harness|hendrycksTest-sociology|5" 的准确率为0.7661691542288557。
- 任务 "harness|hendrycksTest-us_foreign_policy|5" 的准确率为0.73。
- 任务 "harness|hendrycksTest-virology|5" 的准确率为0.4819277108433735。
- 任务 "harness|hendrycksTest-world_religions|5" 的准确率为0.6666666666666666。
- 任务 "harness|truthfulqa:mc|0" 的 mc1 为0.32558139534883723，mc2 为0.4735785703076855。
- 任务 "harness|winogrande|5" 的准确率为0.749802683504341。
- 任务 "harness|gsm8k|5" 的准确率为0.4844579226686884。

这些结果提供了模型在多个任务上的性能评估，有助于理解和分析模型的能力。

5,000+

优质数据集

54 个

任务类型

进入经典数据集