five

OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1

收藏
Hugging Face2024-04-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OpenLLMTurkishLeadboardv2/details_TURKCELL__Turkcell-LLM-7b-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在Open LLM Turkish Leaderboardv0.2上对TURKCELL/Turkcell-LLM-7b-v1模型进行评估时自动创建的。数据集包含了多个评估任务的结果,如winogrande_tr-v0.2、truthfulqa_v0.2、mmlu_tr_v0.2等,每个任务都有对应的准确率和标准误差。此外,还详细列出了每个任务的配置信息,包括任务名称、数据集路径、测试分割、少样本分割、文档到文本的转换方式等。

该数据集是在Open LLM Turkish Leaderboardv0.2上对TURKCELL/Turkcell-LLM-7b-v1模型进行评估时自动创建的。数据集包含了多个评估任务的结果,如winogrande_tr-v0.2、truthfulqa_v0.2、mmlu_tr_v0.2等,每个任务都有对应的准确率和标准误差。此外,还详细列出了每个任务的配置信息,包括任务名称、数据集路径、测试分割、少样本分割、文档到文本的转换方式等。
提供机构:
OpenLLMTurkishLeadboardv2
原始信息汇总

数据集概述

数据集名称

  • TURKCELL/Turkcell-LLM-7b-v1评估运行数据集

数据集创建

  • 该数据集是在模型TURKCELL/Turkcell-LLM-7b-v1在Open LLM土耳其排行榜v0.2上的评估运行期间自动创建的。

数据集内容

  • 数据集包含多个子任务的评估结果,涵盖了多个领域和主题,具体包括:
    • 语言理解
    • 知识问答
    • 多任务学习
    • 社会科学
    • 自然科学
    • 工程技术
    • 医学健康
    • 人文历史
    • 法律伦理
    • 数学逻辑

评估指标

  • 每个子任务的评估指标主要为准确率(acc)和准确率标准误差(acc_stderr)。

子任务详情

  • 语言理解

    • winogrande_tr-v0.2: 准确率0.5687203791469194,标准误差0.013924627981346338
    • hellaswag_tr-v0.2: 准确率0.3924579428700463,标准误差0.005188788051996135
    • arc_tr-v0.2: 准确率0.3856655290102389,标准误差0.014224250973257182
  • 知识问答

    • truthfulqa_v0.2: 准确率0.41621221524767754,标准误差0.014917601359939898
    • gsm8k_tr-v0.2: 精确匹配率0.23538344722854973,标准误差0.011694505503272582
  • 多任务学习

    • mmlu_tr_v0.2: 准确率0.3903719588848628,标准误差0.004121848834819819
    • mmlu_humanities_v0.2: 准确率0.3700751537235254,标准误差0.007155446534725673
    • mmlu_other_v0.2: 准确率0.43364299933642997,标准误差0.008922179088597262
    • mmlu_social_sciences_v0.2: 准确率0.4279054279054279,标准误差0.008905015663674302
    • mmlu_stem_v0.2: 准确率0.34093097913322634,标准误差0.008380366672142222
  • 其他详细子任务

    • 包括但不限于:mmlu_formal_logic_v0.2, mmlu_high_school_european_history_v0.2, mmlu_high_school_us_history_v0.2等,每个子任务都有详细的准确率和标准误差记录。

数据集用途

  • 用于评估模型TURKCELL/Turkcell-LLM-7b-v1在不同任务和领域的表现,以优化模型性能和应用范围。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作