OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1
收藏Hugging Face2024-04-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在Open LLM Turkish Leaderboardv0.2上对TURKCELL/Turkcell-LLM-7b-v1模型进行评估时自动创建的。数据集包含了多个评估任务的结果,如winogrande_tr-v0.2、truthfulqa_v0.2、mmlu_tr_v0.2等,每个任务都有对应的准确率和标准误差。此外,还详细列出了每个任务的配置信息,包括任务名称、数据集路径、测试分割、少样本分割、文档到文本的转换方式等。
该数据集是在Open LLM Turkish Leaderboardv0.2上对TURKCELL/Turkcell-LLM-7b-v1模型进行评估时自动创建的。数据集包含了多个评估任务的结果,如winogrande_tr-v0.2、truthfulqa_v0.2、mmlu_tr_v0.2等,每个任务都有对应的准确率和标准误差。此外,还详细列出了每个任务的配置信息,包括任务名称、数据集路径、测试分割、少样本分割、文档到文本的转换方式等。
提供机构:
OpenLLMTurkishLeadboardv2
原始信息汇总
数据集概述
数据集名称
- TURKCELL/Turkcell-LLM-7b-v1评估运行数据集
数据集创建
- 该数据集是在模型TURKCELL/Turkcell-LLM-7b-v1在Open LLM土耳其排行榜v0.2上的评估运行期间自动创建的。
数据集内容
- 数据集包含多个子任务的评估结果,涵盖了多个领域和主题,具体包括:
- 语言理解
- 知识问答
- 多任务学习
- 社会科学
- 自然科学
- 工程技术
- 医学健康
- 人文历史
- 法律伦理
- 数学逻辑
评估指标
- 每个子任务的评估指标主要为准确率(acc)和准确率标准误差(acc_stderr)。
子任务详情
-
语言理解
- winogrande_tr-v0.2: 准确率0.5687203791469194,标准误差0.013924627981346338
- hellaswag_tr-v0.2: 准确率0.3924579428700463,标准误差0.005188788051996135
- arc_tr-v0.2: 准确率0.3856655290102389,标准误差0.014224250973257182
-
知识问答
- truthfulqa_v0.2: 准确率0.41621221524767754,标准误差0.014917601359939898
- gsm8k_tr-v0.2: 精确匹配率0.23538344722854973,标准误差0.011694505503272582
-
多任务学习
- mmlu_tr_v0.2: 准确率0.3903719588848628,标准误差0.004121848834819819
- mmlu_humanities_v0.2: 准确率0.3700751537235254,标准误差0.007155446534725673
- mmlu_other_v0.2: 准确率0.43364299933642997,标准误差0.008922179088597262
- mmlu_social_sciences_v0.2: 准确率0.4279054279054279,标准误差0.008905015663674302
- mmlu_stem_v0.2: 准确率0.34093097913322634,标准误差0.008380366672142222
-
其他详细子任务
- 包括但不限于:mmlu_formal_logic_v0.2, mmlu_high_school_european_history_v0.2, mmlu_high_school_us_history_v0.2等,每个子任务都有详细的准确率和标准误差记录。
数据集用途
- 用于评估模型TURKCELL/Turkcell-LLM-7b-v1在不同任务和领域的表现,以优化模型性能和应用范围。



