open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1

Name: open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1
Creator: open-llm-leaderboard
Published: 2024-04-20 15:48:42
License: 暂无描述

Hugging Face2024-04-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 kuotient/Seagull-Llama-3-8B-orpo-v0.1 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成，每个配置对应一个评估任务。它包含 1 次运行的结果，每次运行都存储为一个特定的分割，分割名称由运行的时间戳命名。train 分割始终指向最新的结果。此外，还有一个 results 配置存储了所有运行的聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库中的 `load_dataset` 函数加载数据集的示例。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集名称

名称: Evaluation run of kuotient/Seagull-Llama-3-8B-orpo-v0.1

数据集描述

创建目的: 自动创建于模型kuotient/Seagull-Llama-3-8B-orpo-v0.1在Open LLM Leaderboard的评估运行期间。
数据组成: 包含63个配置，每个配置对应一个评估任务。
数据来源: 数据集由1次运行创建，每次运行以特定的时间戳命名。
特殊配置: 包含一个名为"results"的配置，用于存储所有聚合的运行结果，用于计算和显示聚合指标。

数据集使用示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1", "harness_winogrande_5", split="train")

最新结果

结果概览: 提供了包括准确率、标准误差等在内的多项指标，涵盖多个任务的评估结果。
示例结果:
- 任务: harness|arc:challenge|25
  - 准确率: 0.5435153583617748
  - 标准误差: 0.014555949760496439
- 任务: harness|hellaswag|10
  - 准确率: 0.6148177653853814
  - 标准误差: 0.0048564379557198565
- 任务: harness|hendrycksTest-abstract_algebra|5
  - 准确率: 0.35
  - 标准误差: 0.0479372485441102
- 任务: harness|hendrycksTest-anatomy|5
  - 准确率: 0.6666666666666666
  - 标准误差: 0.04072314811876837
- 任务: harness|hendrycksTest-astronomy|5
  - 准确率: 0.6644736842105263
  - 标准误差: 0.038424985593952694
- 任务: harness|hendrycksTest-business_ethics|5
  - 准确率: 0.61
  - 标准误差: 0.04902071300001975
- 任务: harness|hendrycksTest-clinical_knowledge|5
  - 准确率: 0.7358490566037735
  - 标准误差: 0.027134291628741695
- 任务: harness|hendrycksTest-college_biology|5
  - 准确率: 0.7361111111111112
  - 标准误差: 0.03685651095897532
- 任务: harness|hendrycksTest-college_chemistry|5
  - 准确率: 0.52
  - 标准误差: 0.050211673156867795
- 任务: harness|hendrycksTest-college_computer_science|5
  - 准确率: 0.51
  - 标准误差: 0.05024183937956912
- 任务: harness|hendrycksTest-college_mathematics|5
  - 准确率: 0.38
  - 标准误差: 0.048783173121456316
- 任务: harness|hendrycksTest-college_medicine|5
  - 准确率: 0.6416184971098265
  - 标准误差: 0.036563436533531585
- 任务: harness|hendrycksTest-college_physics|5
  - 准确率: 0.47058823529411764
  - 标准误差: 0.04966570903978529
- 任务: harness|hendrycksTest-computer_security|5
  - 准确率: 0.8
  - 标准误差: 0.04020151261036846
- 任务: harness|hendrycksTest-conceptual_physics|5
  - 准确率: 0.574468085106383
  - 标准误差: 0.03232146916224468
- 任务: harness|hendrycksTest-econometrics|5
  - 准确率: 0.4473684210526316
  - 标准误差: 0.04677473004491199
- 任务: harness|hendrycksTest-electrical_engineering|5
  - 准确率: 0.5862068965517241
  - 标准误差: 0.04104269211806232
- 任务: harness|hendrycksTest-elementary_mathematics|5
  - 准确率: 0.42857142857142855
  - 标准误差: 0.025487187147859372
- 任务: harness|hendrycksTest-formal_logic|5
  - 准确率: 0.4603174603174603
  - 标准误差: 0.04458029125470973
- 任务: harness|hendrycksTest-global_facts|5
  - 准确率: 0.38
  - 标准误差: 0.04878317312145632
- 任务: harness|hendrycksTest-high_school_biology|5
  - 准确率: 0.7709677419354839
  - 标准误差: 0.02390491431178265
- 任务: harness|hendrycksTest-high_school_chemistry|5
  - 准确率: 0.5221674876847291
  - 标准误差: 0.03514528562175008
- 任务: harness|hendrycksTest-high_school_computer_science|5
  - 准确率: 0.66
  - 标准误差: 0.04760952285695237
- 任务: harness|hendrycksTest-high_school_european_history|5
  - 准确率: 0.7575757575757576
  - 标准误差: 0.03346409881055953
- 任务: harness|hendrycksTest-high_school_geography|5
  - 准确率: 0.8232323232323232
  - 标准误差: 0.027178752639044915
- 任务: harness|hendrycksTest-high_school_government_and_politics|5
  - 准确率: 0.8860103626943006
  - 标准误差: 0.022935144053919436
- 任务: harness|hendrycksTest-high_school_macroeconomics|5
  - 准确率: 0.6384615384615384
  - 标准误差: 0.024359581465396993
- 任务: harness|hendrycksTest-high_school_mathematics|5
  - 准确率: 0.3962962962962963
  - 标准误差: 0.029822619458533997
- 任务: harness|hendrycksTest-high_school_microeconomics|5
  - 准确率: 0.6890756302521008
  - 标准误差: 0.030066761582977917
- 任务: harness|hendrycksTest-high_school_physics|5
  - 准确率: 0.423841059602649
  - 标准误差: 0.04034846678603397
- 任务: harness|hendrycksTest-high_school_psychology|5
  - 准确率: 0.8293577981651377
  - 标准误差: 0.016129271025099853
- 任务: harness|hendrycksTest-high_school_statistics|5
  - 准确率: 0.5787037037037037
  - 标准误差: 0.03367462138896078
- 任务: harness|hendrycksTest-high_school_us_history|5
  - 准确率: 0.8137254901960784
  - 标准误差: 0.027325470966716323
- 任务: harness|hendrycksTest-high_school_world_history|5
  - 准确率: 0.8143459915611815
  - 标准误差: 0.025310495376944863
- 任务: harness|hendrycksTest-human_aging|5
  - 准确率: 0.726457399103139
  - 标准误差: 0.029918586707798827
- 任务: harness|hendrycksTest-human_sexuality|5
  - 准确率: 0.7786259541984732
  - 标准误差: 0.03641297081313732
- 任务: harness|hendrycksTest-international_law|5
  - 准确率: 0.7603305785123967
  - 标准误差: 0.03896878985070416
- 任务: harness|hendrycksTest-jurisprudence|5
  - 准确率: 0.75
  - 标准误差: 0.04186091791394607
- 任务: harness|hendrycksTest-logical_fallacies|5
  - 准确率: 0.7239263803680982
  - 标准误差: 0.035123852837050475
- 任务: harness|hendrycksTest-machine_learning|5
  - 准确率: 0.5357142857142857
  - 标准误差: 0.04733667890053756
- 任务: harness|hendrycksTest-management|5
  - 准确率: 0.8543689320388349
  - 标准误差: 0.034926064766237906
- 任务: harness|hendrycksTest-marketing|5
  - 准确率: 0.8547008547008547
  - 标准误差: 0.023086635086841407
- 任务: harness|hendrycksTest-medical_genetics|5
  - 准确率: 0.8
  - 标准误差: 0.040201512610368445
- 任务: harness|hendrycksTest-miscellaneous|5
  - 准确率: 0.8199233716475096
  - 标准误差: 0.013740797258579825
- 任务: harness|hendrycksTest-moral_disputes|5
  - 准确率: 0.6994219653179191
  - 标准误差: 0.024685316867257796
- 任务: harness|hendrycksTest-moral_scenarios|5
  - 准确率: 0.37206703910614525
  - 标准误差: 0.016165847583563295
- 任务: harness|hendrycksTest-nutrition|5
  - 准确率: 0.7418300653594772
  - 标准误差: 0.02505850331695814
- 任务: harness|hendrycksTest-philosophy|5
  - 准确率: 0.7170418006430869
  - 标准误差: 0.02558306248998481
- 任务: harness|hendrycksTest-prehistory|5
  - 准确率: 0.7129629629629629
  - 标准误差: 0.02517104191530968
- 任务: harness|hendrycksTest-professional_accounting|5
  - 准确率: 0.49645390070921985
  - 标准误差: 0.02982674915328092
- 任务: harness|hendrycksTest-professional_law|5
  - 准确率: 0.45632333767926986
  - 标准误差: 0.012721420501462544
- 任务: harness|hendrycksTest-professional_medicine|5
  - 准确率: 0.7205882352941176
  - 标准误差: 0.02725720260611494
- 任务: harness|hendrycksTest-professional_psychology|5
  - 准确率: 0.6797385620915033
  - 标准误差: 0.01887568