OpenLLMTurkishLeadboardv2/details_aerdincdal__CBDDO-LLM-8B-Instruct-v1

Name: OpenLLMTurkishLeadboardv2/details_aerdincdal__CBDDO-LLM-8B-Instruct-v1
Creator: OpenLLMTurkishLeadboardv2
Published: 2024-05-02 16:42:35
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/OpenLLMTurkishLeadboardv2/details_aerdincdal__CBDDO-LLM-8B-Instruct-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型aerdincdal/CBDDO-LLM-8B-Instruct-v1在Open LLM Turkish Leaderboardv0.2上的表现时自动创建的。数据集包含了多个任务的评估结果，如winogrande_tr_v0.2、truthfulqa_v0.2、mmlu_tr_v0.2等，每个任务都有对应的准确率和标准误差。数据集的主要目的是记录模型在不同任务上的表现，以便进行进一步的模型优化和比较。

提供机构：

OpenLLMTurkishLeadboardv2

原始信息汇总

数据集概述

数据集是在评估模型 aerdincdal/CBDDO-LLM-8B-Instruct-v1 在 Open LLM Turkish Leaderboard v0.2 上的运行过程中自动创建的。

评估结果

准确率（Acc）和标准误差（Acc_stderr）

Winogrande_tr_v0.2:
- 准确率: 0.5379
- 标准误差: 0.0140
TruthfulQA_v0.2:
- 准确率: 0.4657
- 标准误差: 0.0151
MMLU_tr_v0.2:
- 准确率: 0.4370
- 标准误差: 0.0042
MMLU_humanities_v0.2:
- 准确率: 0.4086
- 标准误差: 0.0072
MMLU_formal_logic_v0.2:
- 准确率: 0.3175
- 标准误差: 0.0416
MMLU_high_school_european_history_v0.2:
- 准确率: 0.5800
- 标准误差: 0.0404
MMLU_high_school_us_history_v0.2:
- 准确率: 0.5754
- 标准误差: 0.0370
MMLU_high_school_world_history_v0.2:
- 准确率: 0.5634
- 标准误差: 0.0341
MMLU_international_law_v0.2:
- 准确率: 0.5702
- 标准误差: 0.0452
MMLU_jurisprudence_v0.2:
- 准确率: 0.5660
- 标准误差: 0.0484
MMLU_logical_fallacies_v0.2:
- 准确率: 0.4224
- 标准误差: 0.0390
MMLU_moral_disputes_v0.2:
- 准确率: 0.4805
- 标准误差: 0.0285
MMLU_moral_scenarios_v0.2:
- 准确率: 0.2936
- 标准误差: 0.0154
MMLU_philosophy_v0.2:
- 准确率: 0.4950
- 标准误差: 0.0290
MMLU_prehistory_v0.2:
- 准确率: 0.4733
- 标准误差: 0.0289
MMLU_professional_law_v0.2:
- 准确率: 0.3235
- 标准误差: 0.0126
MMLU_world_religions_v0.2:
- 准确率: 0.6190
- 标准误差: 0.0376
MMLU_other_v0.2:
- 准确率: 0.4917
- 标准误差: 0.0089
MMLU_business_ethics_v0.2:
- 准确率: 0.5354
- 标准误差: 0.0504
MMLU_clinical_knowledge_v0.2:
- 准确率: 0.4844
- 标准误差: 0.0313
MMLU_college_medicine_v0.2:
- 准确率: 0.3988
- 标准误差: 0.0379
MMLU_global_facts_v0.2:
- 准确率: 0.3469
- 标准误差: 0.0483
MMLU_human_aging_v0.2:
- 准确率: 0.4953
- 标准误差: 0.0344
MMLU_management_v0.2:
- 准确率: 0.5253
- 标准误差: 0.0504
MMLU_marketing_v0.2:
- 准确率: 0.6359
- 标准误差: 0.0327
MMLU_medical_genetics_v0.2:
- 准确率: 0.5789
- 标准误差: 0.0509
MMLU_miscellaneous_v0.2:
- 准确率: 0.5849
- 标准误差: 0.0178
MMLU_nutrition_v0.2:
- 准确率: 0.4984
- 标准误差: 0.0287
MMLU_professional_accounting_v0.2:
- 准确率: 0.2760
- 标准误差: 0.0268
MMLU_professional_medicine_v0.2:
- 准确率: 0.4291
- 标准误差: 0.0307
MMLU_virology_v0.2:
- 准确率: 0.4088
- 标准误差: 0.0391
MMLU_social_sciences_v0.2:
- 准确率: 0.4852
- 标准误差: 0.0090
MMLU_econometrics_v0.2:
- 准确率: 0.3421
- 标准误差: 0.0446
MMLU_high_school_geography_v0.2:
- 准确率: 0.5838
- 标准误差: 0.0352
MMLU_high_school_government_and_politics_v0.2:
- 准确率: 0.5080
- 标准误差: 0.0367
MMLU_high_school_macroeconomics_v0.2:
- 准确率: 0.4308
- 标准误差: 0.0251
MMLU_high_school_microeconomics_v0.2:
- 准确率: 0.3755
- 标准误差: 0.0315
MMLU_high_school_psychology_v0.2:
- 准确率: 0.5385
- 标准误差: 0.0216
MMLU_human_sexuality_v0.2:
- 准确率: 0.5391
- 标准误差: 0.0467
MMLU_professional_psychology_v0.2:
- 准确率: 0.4040
- 标准误差: 0.0202
MMLU_public_relations_v0.2:
- 准确率: 0.5370
- 标准误差: 0.0482
MMLU_security_studies_v0.2:
- 准确率: 0.4658
- 标准误差: 0.0327
MMLU_sociology_v0.2:
- 准确率: 0.6615
- 标准误差: 0.0340
MMLU_us_foreign_policy_v0.2:
- 准确率: 0.6667
- 标准误差: 0.0476
MMLU_stem_v0.2:
- 准确率: 0.3778
- 标准误差: 0.0085
MMLU_abstract_algebra_v0.2:
- 准确率: 0.2800
- 标准误差: 0.0451
MMLU_anatomy_v0.2:
- 准确率: 0.4733
- 标准误差: 0.0438
MMLU_astronomy:
- 准确率: 0.4371
- 标准误差: 0.0405
MMLU_college_biology_v0.2:
- 准确率: 0.5070
- 标准误差: 0.0421
MMLU_college_chemistry_v0.2:
- 准确率: 0.2828
- 标准误差: 0.0455
MMLU_college_computer_science_v0.2:
- 准确率: 0.3636
- 标准误差: 0.0486
MMLU_college_mathematics_v0.2:
- 准确率: 0.3800
- 标准误差: 0.0488
MMLU_college_physics_v0.2:
- 准确率: 0.2574
- 标准误差: 0.0437
MMLU_computer_security_v0.2:
- 准确率: 0.5400
- 标准误差: 0.0501
MMLU_conceptual_physics_v0.2:
- 准确率: 0.3820
- 标准误差: 0.0319
MMLU_electrical_engineering_v0.2:
- 准确率: 0.4861
- 标准误差: 0.0418
MMLU_elementary_mathematics_v0.2:
- 准确率: 0.2761
- 标准误差: 0.0232
MMLU_high_school_biology_v0.2:
- 准确率: 0.5100
- 标准误差: 0.0289
MMLU_high_school_chemistry_v0.2:
- 准确率: 0.4061
- 标准误差: 0.0351
MMLU_high_school_computer_science_v0.2:
- 准确率: 0.5100
- 标准误差: 0.0502
MMLU_high_school_mathematics_v0.2:
- 准确率: 0.2741
- 标准误差: 0.0272
MMLU_high_school_physics_v0.2:
- 准确率: 0.3129
- 标准误差: 0.0384
MMLU_high_school_statistics_v0.2:
- 准确率: 0.2593
- 标准误差: 0.0299
MMLU_machine_learning_v0.2:
- 准确率: 0.4018
- 标准误差: 0.0465
Hellaswag_tr-v0.2:
- 准确率: 0.3695
- 标准误差: 0.0051
Gsm8k_tr-v0.2:
- 准确率（严格匹配）: 0.0091
- 标准误差（严格匹配）: 0.0026
- 准确率（灵活提取）: 0.1807
- 标准误差（灵活提取）: 0.0106
Arc_tr-v0.2:
- 准确率: 0.3797
- 标准误差: 0.0142

数据集创建背景

该数据集是在评估模型 aerdincdal/CBDDO-LLM-8B-Instruct-v1 在 Open LLM Turkish Leaderboard v0.2 上的运行过程中自动创建的。

5,000+

优质数据集

54 个

任务类型

进入经典数据集