OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1

Name: OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1
Creator: OpenLLMTurkishLeadboardv2
Published: 2024-04-27 12:52:17
License: 暂无描述

Hugging Face2024-04-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Turkish Leaderboardv0.2上对TURKCELL/Turkcell-LLM-7b-v1模型进行评估时自动创建的。数据集包含了多个评估任务的结果，如winogrande_tr-v0.2、truthfulqa_v0.2、mmlu_tr_v0.2等，每个任务都有对应的准确率和标准误差。此外，还详细列出了每个任务的配置信息，包括任务名称、数据集路径、测试分割、少样本分割、文档到文本的转换方式等。

提供机构：

OpenLLMTurkishLeadboardv2

原始信息汇总

数据集概述

数据集名称

TURKCELL/Turkcell-LLM-7b-v1评估运行数据集

数据集创建

该数据集是在模型TURKCELL/Turkcell-LLM-7b-v1在Open LLM土耳其排行榜v0.2上的评估运行期间自动创建的。

数据集内容

数据集包含多个子任务的评估结果，涵盖了多个领域和主题，具体包括：
- 语言理解
- 知识问答
- 多任务学习
- 社会科学
- 自然科学
- 工程技术
- 医学健康
- 人文历史
- 法律伦理
- 数学逻辑

评估指标

每个子任务的评估指标主要为准确率（acc）和准确率标准误差（acc_stderr）。

子任务详情

语言理解
- winogrande_tr-v0.2: 准确率0.5687203791469194，标准误差0.013924627981346338
- hellaswag_tr-v0.2: 准确率0.3924579428700463，标准误差0.005188788051996135
- arc_tr-v0.2: 准确率0.3856655290102389，标准误差0.014224250973257182
知识问答
- truthfulqa_v0.2: 准确率0.41621221524767754，标准误差0.014917601359939898
- gsm8k_tr-v0.2: 精确匹配率0.23538344722854973，标准误差0.011694505503272582
多任务学习
- mmlu_tr_v0.2: 准确率0.3903719588848628，标准误差0.004121848834819819
- mmlu_humanities_v0.2: 准确率0.3700751537235254，标准误差0.007155446534725673
- mmlu_other_v0.2: 准确率0.43364299933642997，标准误差0.008922179088597262
- mmlu_social_sciences_v0.2: 准确率0.4279054279054279，标准误差0.008905015663674302
- mmlu_stem_v0.2: 准确率0.34093097913322634，标准误差0.008380366672142222
其他详细子任务
- 包括但不限于：mmlu_formal_logic_v0.2, mmlu_high_school_european_history_v0.2, mmlu_high_school_us_history_v0.2等，每个子任务都有详细的准确率和标准误差记录。

数据集用途

用于评估模型TURKCELL/Turkcell-LLM-7b-v1在不同任务和领域的表现，以优化模型性能和应用范围。

5,000+

优质数据集

54 个

任务类型

进入经典数据集