open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1
收藏Hugging Face2024-04-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在模型 kuotient/Seagull-Llama-3-8B-orpo-v0.1 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。它包含 1 次运行的结果,每次运行都存储为一个特定的分割,分割名称由运行的时间戳命名。train 分割始终指向最新的结果。此外,还有一个 results 配置存储了所有运行的聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库中的 `load_dataset` 函数加载数据集的示例。
该数据集是在模型 kuotient/Seagull-Llama-3-8B-orpo-v0.1 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。它包含 1 次运行的结果,每次运行都存储为一个特定的分割,分割名称由运行的时间戳命名。train 分割始终指向最新的结果。此外,还有一个 results 配置存储了所有运行的聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库中的 `load_dataset` 函数加载数据集的示例。
提供机构:
open-llm-leaderboard
原始信息汇总
数据集概述
数据集名称
- 名称: Evaluation run of kuotient/Seagull-Llama-3-8B-orpo-v0.1
数据集描述
- 创建目的: 自动创建于模型kuotient/Seagull-Llama-3-8B-orpo-v0.1在Open LLM Leaderboard的评估运行期间。
- 数据组成: 包含63个配置,每个配置对应一个评估任务。
- 数据来源: 数据集由1次运行创建,每次运行以特定的时间戳命名。
- 特殊配置: 包含一个名为"results"的配置,用于存储所有聚合的运行结果,用于计算和显示聚合指标。
数据集使用示例
python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_kuotient__Seagull-Llama-3-8B-orpo-v0.1", "harness_winogrande_5", split="train")
最新结果
- 结果概览: 提供了包括准确率、标准误差等在内的多项指标,涵盖多个任务的评估结果。
- 示例结果:
- 任务: harness|arc:challenge|25
- 准确率: 0.5435153583617748
- 标准误差: 0.014555949760496439
- 任务: harness|hellaswag|10
- 准确率: 0.6148177653853814
- 标准误差: 0.0048564379557198565
- 任务: harness|hendrycksTest-abstract_algebra|5
- 准确率: 0.35
- 标准误差: 0.0479372485441102
- 任务: harness|hendrycksTest-anatomy|5
- 准确率: 0.6666666666666666
- 标准误差: 0.04072314811876837
- 任务: harness|hendrycksTest-astronomy|5
- 准确率: 0.6644736842105263
- 标准误差: 0.038424985593952694
- 任务: harness|hendrycksTest-business_ethics|5
- 准确率: 0.61
- 标准误差: 0.04902071300001975
- 任务: harness|hendrycksTest-clinical_knowledge|5
- 准确率: 0.7358490566037735
- 标准误差: 0.027134291628741695
- 任务: harness|hendrycksTest-college_biology|5
- 准确率: 0.7361111111111112
- 标准误差: 0.03685651095897532
- 任务: harness|hendrycksTest-college_chemistry|5
- 准确率: 0.52
- 标准误差: 0.050211673156867795
- 任务: harness|hendrycksTest-college_computer_science|5
- 准确率: 0.51
- 标准误差: 0.05024183937956912
- 任务: harness|hendrycksTest-college_mathematics|5
- 准确率: 0.38
- 标准误差: 0.048783173121456316
- 任务: harness|hendrycksTest-college_medicine|5
- 准确率: 0.6416184971098265
- 标准误差: 0.036563436533531585
- 任务: harness|hendrycksTest-college_physics|5
- 准确率: 0.47058823529411764
- 标准误差: 0.04966570903978529
- 任务: harness|hendrycksTest-computer_security|5
- 准确率: 0.8
- 标准误差: 0.04020151261036846
- 任务: harness|hendrycksTest-conceptual_physics|5
- 准确率: 0.574468085106383
- 标准误差: 0.03232146916224468
- 任务: harness|hendrycksTest-econometrics|5
- 准确率: 0.4473684210526316
- 标准误差: 0.04677473004491199
- 任务: harness|hendrycksTest-electrical_engineering|5
- 准确率: 0.5862068965517241
- 标准误差: 0.04104269211806232
- 任务: harness|hendrycksTest-elementary_mathematics|5
- 准确率: 0.42857142857142855
- 标准误差: 0.025487187147859372
- 任务: harness|hendrycksTest-formal_logic|5
- 准确率: 0.4603174603174603
- 标准误差: 0.04458029125470973
- 任务: harness|hendrycksTest-global_facts|5
- 准确率: 0.38
- 标准误差: 0.04878317312145632
- 任务: harness|hendrycksTest-high_school_biology|5
- 准确率: 0.7709677419354839
- 标准误差: 0.02390491431178265
- 任务: harness|hendrycksTest-high_school_chemistry|5
- 准确率: 0.5221674876847291
- 标准误差: 0.03514528562175008
- 任务: harness|hendrycksTest-high_school_computer_science|5
- 准确率: 0.66
- 标准误差: 0.04760952285695237
- 任务: harness|hendrycksTest-high_school_european_history|5
- 准确率: 0.7575757575757576
- 标准误差: 0.03346409881055953
- 任务: harness|hendrycksTest-high_school_geography|5
- 准确率: 0.8232323232323232
- 标准误差: 0.027178752639044915
- 任务: harness|hendrycksTest-high_school_government_and_politics|5
- 准确率: 0.8860103626943006
- 标准误差: 0.022935144053919436
- 任务: harness|hendrycksTest-high_school_macroeconomics|5
- 准确率: 0.6384615384615384
- 标准误差: 0.024359581465396993
- 任务: harness|hendrycksTest-high_school_mathematics|5
- 准确率: 0.3962962962962963
- 标准误差: 0.029822619458533997
- 任务: harness|hendrycksTest-high_school_microeconomics|5
- 准确率: 0.6890756302521008
- 标准误差: 0.030066761582977917
- 任务: harness|hendrycksTest-high_school_physics|5
- 准确率: 0.423841059602649
- 标准误差: 0.04034846678603397
- 任务: harness|hendrycksTest-high_school_psychology|5
- 准确率: 0.8293577981651377
- 标准误差: 0.016129271025099853
- 任务: harness|hendrycksTest-high_school_statistics|5
- 准确率: 0.5787037037037037
- 标准误差: 0.03367462138896078
- 任务: harness|hendrycksTest-high_school_us_history|5
- 准确率: 0.8137254901960784
- 标准误差: 0.027325470966716323
- 任务: harness|hendrycksTest-high_school_world_history|5
- 准确率: 0.8143459915611815
- 标准误差: 0.025310495376944863
- 任务: harness|hendrycksTest-human_aging|5
- 准确率: 0.726457399103139
- 标准误差: 0.029918586707798827
- 任务: harness|hendrycksTest-human_sexuality|5
- 准确率: 0.7786259541984732
- 标准误差: 0.03641297081313732
- 任务: harness|hendrycksTest-international_law|5
- 准确率: 0.7603305785123967
- 标准误差: 0.03896878985070416
- 任务: harness|hendrycksTest-jurisprudence|5
- 准确率: 0.75
- 标准误差: 0.04186091791394607
- 任务: harness|hendrycksTest-logical_fallacies|5
- 准确率: 0.7239263803680982
- 标准误差: 0.035123852837050475
- 任务: harness|hendrycksTest-machine_learning|5
- 准确率: 0.5357142857142857
- 标准误差: 0.04733667890053756
- 任务: harness|hendrycksTest-management|5
- 准确率: 0.8543689320388349
- 标准误差: 0.034926064766237906
- 任务: harness|hendrycksTest-marketing|5
- 准确率: 0.8547008547008547
- 标准误差: 0.023086635086841407
- 任务: harness|hendrycksTest-medical_genetics|5
- 准确率: 0.8
- 标准误差: 0.040201512610368445
- 任务: harness|hendrycksTest-miscellaneous|5
- 准确率: 0.8199233716475096
- 标准误差: 0.013740797258579825
- 任务: harness|hendrycksTest-moral_disputes|5
- 准确率: 0.6994219653179191
- 标准误差: 0.024685316867257796
- 任务: harness|hendrycksTest-moral_scenarios|5
- 准确率: 0.37206703910614525
- 标准误差: 0.016165847583563295
- 任务: harness|hendrycksTest-nutrition|5
- 准确率: 0.7418300653594772
- 标准误差: 0.02505850331695814
- 任务: harness|hendrycksTest-philosophy|5
- 准确率: 0.7170418006430869
- 标准误差: 0.02558306248998481
- 任务: harness|hendrycksTest-prehistory|5
- 准确率: 0.7129629629629629
- 标准误差: 0.02517104191530968
- 任务: harness|hendrycksTest-professional_accounting|5
- 准确率: 0.49645390070921985
- 标准误差: 0.02982674915328092
- 任务: harness|hendrycksTest-professional_law|5
- 准确率: 0.45632333767926986
- 标准误差: 0.012721420501462544
- 任务: harness|hendrycksTest-professional_medicine|5
- 准确率: 0.7205882352941176
- 标准误差: 0.02725720260611494
- 任务: harness|hendrycksTest-professional_psychology|5
- 准确率: 0.6797385620915033
- 标准误差: 0.01887568
- 任务: harness|arc:challenge|25



