TurkishMMLU

Hugging Face2024-09-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AYueksel/TurkishMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

TurkishMMLU是一个多选题数据集，专为土耳其自然语言处理（NLP）社区设计，基于土耳其高中课程，涵盖九个学科。该数据集包含超过10,000个由课程专家编写的问题，适用于土耳其的高中教育。数据集分为四个类别：自然科学、数学、语言和社会科学与人文科学。

创建时间：

2024-08-30

原始信息汇总

TurkishMMLU 数据集概述

基本信息

任务类别: 问答
语言: 土耳其语
数据集名称: TurkishMMLU

数据集配置

Biology:
- 开发集: dev/TurkishMMLU_Biology.json
- 测试集: test/TurkishMMLU_Biology.json
Geography:
- 开发集: dev/TurkishMMLU_Geography.json
- 测试集: test/TurkishMMLU_Geography.json
Chemistry:
- 开发集: dev/TurkishMMLU_Chemistry.json
- 测试集: test/TurkishMMLU_Chemistry.json
History:
- 开发集: dev/TurkishMMLU_History.json
- 测试集: test/TurkishMMLU_History.json
Mathematics:
- 开发集: dev/TurkishMMLU_Mathematics.json
- 测试集: test/TurkishMMLU_Mathematics.json
Philosophy:
- 开发集: dev/TurkishMMLU_Philosophy.json
- 测试集: test/TurkishMMLU_Philosophy.json
Physics:
- 开发集: dev/TurkishMMLU_Physics.json
- 测试集: test/TurkishMMLU_Physics.json
Religion_and_Ethics:
- 开发集: dev/TurkishMMLU_Religion and Ethics.json
- 测试集: test/TurkishMMLU_Religion and Ethics.json
Turkish_Language_and_Literature:
- 开发集: dev/TurkishMMLU_Turkish Language and Literature.json
- 测试集: test/TurkishMMLU_Turkish Language and Literature.json
All:
- 测试集: turkishmmlu_sub.json

数据集描述

主题: 涵盖土耳其高中教育的九个科目，包括自然科学、数学、语言和社会科学及人文科学。
问题类型: 多选题，用于评估大型语言模型（LLMs）的理解能力。
难度指标: 问题包含正确率作为难度指标。

评估结果

模型评估: 包括开放源和闭源的SOTA LLM，测试了多语言和土耳其适配模型。
评估方法: 5-Shot评估，包括零样本和少样本评估、链式思维推理和问题难度分析。

引用

@misc{yüksel2024turkishmmlumeasuringmassivemultitask, title={TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish}, author={Arda Yüksel and Abdullatif Köksal and Lütfi Kerem Şenel and Anna Korhonen and Hinrich Schütze}, year={2024}, eprint={2407.12402}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.12402}, }

搜集汇总

数据集介绍

构建方式

TurkishMMLU数据集的构建基于土耳其高中教育课程，涵盖了九个不同学科的多项选择题。这些题目由课程专家编写，确保其与土耳其高中课程内容的高度契合。数据集分为开发集和测试集，每个学科均有对应的JSON文件，便于模型评估与分析。通过这种方式，数据集不仅反映了土耳其教育体系的知识结构，还为多任务语言理解提供了丰富的测试场景。

使用方法

TurkishMMLU数据集主要用于评估大型语言模型在土耳其语多任务理解中的表现。用户可通过访问HuggingFace平台获取数据集，并按照学科分类加载对应的JSON文件。数据集支持零样本和少样本评估，同时提供链式推理和题目难度分析功能。研究人员可通过对比不同模型在自然语言处理任务中的表现，深入分析模型在土耳其语环境下的能力与局限性，为未来模型优化提供参考。

背景与挑战

背景概述

TurkishMMLU数据集是专为土耳其自然语言处理（NLP）社区设计的多选题问答数据集，基于土耳其高中课程内容，涵盖九个学科领域。该数据集由土耳其慕尼黑工业大学（TUM）和慕尼黑大学（LMU）的研究团队于2024年创建，旨在评估大型语言模型（LLMs）在土耳其语环境下的推理、理解和数学能力。数据集包含超过10,000道题目，涵盖自然科学、数学、语言及社会科学与人文等多个领域，题目由课程专家编写，确保与土耳其高中课程内容一致。TurkishMMLU的发布填补了土耳其语多任务问答基准的空白，为土耳其语NLP研究提供了重要的评估工具。

当前挑战

TurkishMMLU数据集在构建和应用过程中面临多重挑战。首先，数据集旨在解决土耳其语环境下多任务问答的评估问题，但由于土耳其语的语言结构和文化背景的独特性，自动翻译方法容易引入错误和文化偏见，尤其是在社会科学领域。其次，数据集的构建依赖于课程专家的参与，确保题目的准确性和文化代表性，这一过程耗时且复杂。此外，数据集的评估涉及多种语言模型，包括多语言开源模型、闭源模型以及土耳其语适配模型，如何在不同模型架构下进行公平且全面的性能评估也是一个重要挑战。最后，数据集的公开访问受到限制，需通过邮件申请，这在一定程度上影响了其广泛使用和推广。

常用场景

经典使用场景

TurkishMMLU数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）在土耳其语环境下的多任务理解能力。该数据集通过涵盖土耳其高中课程的九个不同学科，提供了超过10,000道选择题，能够全面测试模型在自然语言理解、推理和数学能力方面的表现。研究人员可以通过该数据集进行零样本和少样本评估，分析模型在不同学科中的表现差异，从而为土耳其语NLP模型的优化提供有力支持。

解决学术问题

TurkishMMLU数据集解决了现有多语言评估基准中存在的自动翻译误差和文化偏见问题。通过提供由土耳其课程专家编写的问题，该数据集确保了问题的文化代表性和语言准确性。这不仅为土耳其语NLP研究提供了高质量的评估工具，还为多语言模型的跨文化适应性研究提供了新的视角。该数据集的引入填补了土耳其语多任务评估基准的空白，推动了土耳其语NLP领域的发展。

实际应用

在实际应用中，TurkishMMLU数据集被广泛用于教育技术领域，特别是在智能辅导系统和在线学习平台的开发中。通过利用该数据集，开发者可以训练和评估能够理解土耳其语课程内容的AI模型，从而为学生提供个性化的学习建议和自动化的作业批改服务。此外，该数据集还可用于语言模型的本地化研究，帮助企业在土耳其市场推出更符合当地文化和语言习惯的AI产品。

数据集最近研究