five

open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1

收藏
Hugging Face2024-04-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 kuotient/Seagull-Llama-3-8B-orpo-v0.1 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。它包含 1 次运行的结果,每次运行都存储为一个特定的分割,分割名称由运行的时间戳命名。train 分割始终指向最新的结果。此外,还有一个 results 配置存储了所有运行的聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库中的 `load_dataset` 函数加载数据集的示例。

该数据集是在模型 kuotient/Seagull-Llama-3-8B-orpo-v0.1 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。它包含 1 次运行的结果,每次运行都存储为一个特定的分割,分割名称由运行的时间戳命名。train 分割始终指向最新的结果。此外,还有一个 results 配置存储了所有运行的聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库中的 `load_dataset` 函数加载数据集的示例。
提供机构:
open-llm-leaderboard
原始信息汇总

数据集概述

数据集名称

  • 名称: Evaluation run of kuotient/Seagull-Llama-3-8B-orpo-v0.1

数据集描述

  • 创建目的: 自动创建于模型kuotient/Seagull-Llama-3-8B-orpo-v0.1Open LLM Leaderboard的评估运行期间。
  • 数据组成: 包含63个配置,每个配置对应一个评估任务。
  • 数据来源: 数据集由1次运行创建,每次运行以特定的时间戳命名。
  • 特殊配置: 包含一个名为"results"的配置,用于存储所有聚合的运行结果,用于计算和显示聚合指标。

数据集使用示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1", "harness_winogrande_5", split="train")

最新结果

  • 结果概览: 提供了包括准确率、标准误差等在内的多项指标,涵盖多个任务的评估结果。
  • 示例结果:
    • 任务: harness|arc:challenge|25
      • 准确率: 0.5435153583617748
      • 标准误差: 0.014555949760496439
    • 任务: harness|hellaswag|10
      • 准确率: 0.6148177653853814
      • 标准误差: 0.0048564379557198565
    • 任务: harness|hendrycksTest-abstract_algebra|5
      • 准确率: 0.35
      • 标准误差: 0.0479372485441102
    • 任务: harness|hendrycksTest-anatomy|5
      • 准确率: 0.6666666666666666
      • 标准误差: 0.04072314811876837
    • 任务: harness|hendrycksTest-astronomy|5
      • 准确率: 0.6644736842105263
      • 标准误差: 0.038424985593952694
    • 任务: harness|hendrycksTest-business_ethics|5
      • 准确率: 0.61
      • 标准误差: 0.04902071300001975
    • 任务: harness|hendrycksTest-clinical_knowledge|5
      • 准确率: 0.7358490566037735
      • 标准误差: 0.027134291628741695
    • 任务: harness|hendrycksTest-college_biology|5
      • 准确率: 0.7361111111111112
      • 标准误差: 0.03685651095897532
    • 任务: harness|hendrycksTest-college_chemistry|5
      • 准确率: 0.52
      • 标准误差: 0.050211673156867795
    • 任务: harness|hendrycksTest-college_computer_science|5
      • 准确率: 0.51
      • 标准误差: 0.05024183937956912
    • 任务: harness|hendrycksTest-college_mathematics|5
      • 准确率: 0.38
      • 标准误差: 0.048783173121456316
    • 任务: harness|hendrycksTest-college_medicine|5
      • 准确率: 0.6416184971098265
      • 标准误差: 0.036563436533531585
    • 任务: harness|hendrycksTest-college_physics|5
      • 准确率: 0.47058823529411764
      • 标准误差: 0.04966570903978529
    • 任务: harness|hendrycksTest-computer_security|5
      • 准确率: 0.8
      • 标准误差: 0.04020151261036846
    • 任务: harness|hendrycksTest-conceptual_physics|5
      • 准确率: 0.574468085106383
      • 标准误差: 0.03232146916224468
    • 任务: harness|hendrycksTest-econometrics|5
      • 准确率: 0.4473684210526316
      • 标准误差: 0.04677473004491199
    • 任务: harness|hendrycksTest-electrical_engineering|5
      • 准确率: 0.5862068965517241
      • 标准误差: 0.04104269211806232
    • 任务: harness|hendrycksTest-elementary_mathematics|5
      • 准确率: 0.42857142857142855
      • 标准误差: 0.025487187147859372
    • 任务: harness|hendrycksTest-formal_logic|5
      • 准确率: 0.4603174603174603
      • 标准误差: 0.04458029125470973
    • 任务: harness|hendrycksTest-global_facts|5
      • 准确率: 0.38
      • 标准误差: 0.04878317312145632
    • 任务: harness|hendrycksTest-high_school_biology|5
      • 准确率: 0.7709677419354839
      • 标准误差: 0.02390491431178265
    • 任务: harness|hendrycksTest-high_school_chemistry|5
      • 准确率: 0.5221674876847291
      • 标准误差: 0.03514528562175008
    • 任务: harness|hendrycksTest-high_school_computer_science|5
      • 准确率: 0.66
      • 标准误差: 0.04760952285695237
    • 任务: harness|hendrycksTest-high_school_european_history|5
      • 准确率: 0.7575757575757576
      • 标准误差: 0.03346409881055953
    • 任务: harness|hendrycksTest-high_school_geography|5
      • 准确率: 0.8232323232323232
      • 标准误差: 0.027178752639044915
    • 任务: harness|hendrycksTest-high_school_government_and_politics|5
      • 准确率: 0.8860103626943006
      • 标准误差: 0.022935144053919436
    • 任务: harness|hendrycksTest-high_school_macroeconomics|5
      • 准确率: 0.6384615384615384
      • 标准误差: 0.024359581465396993
    • 任务: harness|hendrycksTest-high_school_mathematics|5
      • 准确率: 0.3962962962962963
      • 标准误差: 0.029822619458533997
    • 任务: harness|hendrycksTest-high_school_microeconomics|5
      • 准确率: 0.6890756302521008
      • 标准误差: 0.030066761582977917
    • 任务: harness|hendrycksTest-high_school_physics|5
      • 准确率: 0.423841059602649
      • 标准误差: 0.04034846678603397
    • 任务: harness|hendrycksTest-high_school_psychology|5
      • 准确率: 0.8293577981651377
      • 标准误差: 0.016129271025099853
    • 任务: harness|hendrycksTest-high_school_statistics|5
      • 准确率: 0.5787037037037037
      • 标准误差: 0.03367462138896078
    • 任务: harness|hendrycksTest-high_school_us_history|5
      • 准确率: 0.8137254901960784
      • 标准误差: 0.027325470966716323
    • 任务: harness|hendrycksTest-high_school_world_history|5
      • 准确率: 0.8143459915611815
      • 标准误差: 0.025310495376944863
    • 任务: harness|hendrycksTest-human_aging|5
      • 准确率: 0.726457399103139
      • 标准误差: 0.029918586707798827
    • 任务: harness|hendrycksTest-human_sexuality|5
      • 准确率: 0.7786259541984732
      • 标准误差: 0.03641297081313732
    • 任务: harness|hendrycksTest-international_law|5
      • 准确率: 0.7603305785123967
      • 标准误差: 0.03896878985070416
    • 任务: harness|hendrycksTest-jurisprudence|5
      • 准确率: 0.75
      • 标准误差: 0.04186091791394607
    • 任务: harness|hendrycksTest-logical_fallacies|5
      • 准确率: 0.7239263803680982
      • 标准误差: 0.035123852837050475
    • 任务: harness|hendrycksTest-machine_learning|5
      • 准确率: 0.5357142857142857
      • 标准误差: 0.04733667890053756
    • 任务: harness|hendrycksTest-management|5
      • 准确率: 0.8543689320388349
      • 标准误差: 0.034926064766237906
    • 任务: harness|hendrycksTest-marketing|5
      • 准确率: 0.8547008547008547
      • 标准误差: 0.023086635086841407
    • 任务: harness|hendrycksTest-medical_genetics|5
      • 准确率: 0.8
      • 标准误差: 0.040201512610368445
    • 任务: harness|hendrycksTest-miscellaneous|5
      • 准确率: 0.8199233716475096
      • 标准误差: 0.013740797258579825
    • 任务: harness|hendrycksTest-moral_disputes|5
      • 准确率: 0.6994219653179191
      • 标准误差: 0.024685316867257796
    • 任务: harness|hendrycksTest-moral_scenarios|5
      • 准确率: 0.37206703910614525
      • 标准误差: 0.016165847583563295
    • 任务: harness|hendrycksTest-nutrition|5
      • 准确率: 0.7418300653594772
      • 标准误差: 0.02505850331695814
    • 任务: harness|hendrycksTest-philosophy|5
      • 准确率: 0.7170418006430869
      • 标准误差: 0.02558306248998481
    • 任务: harness|hendrycksTest-prehistory|5
      • 准确率: 0.7129629629629629
      • 标准误差: 0.02517104191530968
    • 任务: harness|hendrycksTest-professional_accounting|5
      • 准确率: 0.49645390070921985
      • 标准误差: 0.02982674915328092
    • 任务: harness|hendrycksTest-professional_law|5
      • 准确率: 0.45632333767926986
      • 标准误差: 0.012721420501462544
    • 任务: harness|hendrycksTest-professional_medicine|5
      • 准确率: 0.7205882352941176
      • 标准误差: 0.02725720260611494
    • 任务: harness|hendrycksTest-professional_psychology|5
      • 准确率: 0.6797385620915033
      • 标准误差: 0.01887568
二维码
社区交流群
二维码
科研交流群
商业服务