TurkishMMLU
收藏Hugging Face2024-09-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/AYueksel/TurkishMMLU
下载链接
链接失效反馈官方服务:
资源简介:
TurkishMMLU是一个多选题数据集,专为土耳其自然语言处理(NLP)社区设计,基于土耳其高中课程,涵盖九个学科。该数据集包含超过10,000个由课程专家编写的问题,适用于土耳其的高中教育。数据集分为四个类别:自然科学、数学、语言和社会科学与人文科学。
创建时间:
2024-08-30
原始信息汇总
TurkishMMLU 数据集概述
基本信息
- 任务类别: 问答
- 语言: 土耳其语
- 数据集名称: TurkishMMLU
数据集配置
- Biology:
- 开发集:
dev/TurkishMMLU_Biology.json - 测试集:
test/TurkishMMLU_Biology.json
- 开发集:
- Geography:
- 开发集:
dev/TurkishMMLU_Geography.json - 测试集:
test/TurkishMMLU_Geography.json
- 开发集:
- Chemistry:
- 开发集:
dev/TurkishMMLU_Chemistry.json - 测试集:
test/TurkishMMLU_Chemistry.json
- 开发集:
- History:
- 开发集:
dev/TurkishMMLU_History.json - 测试集:
test/TurkishMMLU_History.json
- 开发集:
- Mathematics:
- 开发集:
dev/TurkishMMLU_Mathematics.json - 测试集:
test/TurkishMMLU_Mathematics.json
- 开发集:
- Philosophy:
- 开发集:
dev/TurkishMMLU_Philosophy.json - 测试集:
test/TurkishMMLU_Philosophy.json
- 开发集:
- Physics:
- 开发集:
dev/TurkishMMLU_Physics.json - 测试集:
test/TurkishMMLU_Physics.json
- 开发集:
- Religion_and_Ethics:
- 开发集:
dev/TurkishMMLU_Religion and Ethics.json - 测试集:
test/TurkishMMLU_Religion and Ethics.json
- 开发集:
- Turkish_Language_and_Literature:
- 开发集:
dev/TurkishMMLU_Turkish Language and Literature.json - 测试集:
test/TurkishMMLU_Turkish Language and Literature.json
- 开发集:
- All:
- 测试集:
turkishmmlu_sub.json
- 测试集:
数据集描述
- 主题: 涵盖土耳其高中教育的九个科目,包括自然科学、数学、语言和社会科学及人文科学。
- 问题类型: 多选题,用于评估大型语言模型(LLMs)的理解能力。
- 难度指标: 问题包含正确率作为难度指标。
评估结果
- 模型评估: 包括开放源和闭源的SOTA LLM,测试了多语言和土耳其适配模型。
- 评估方法: 5-Shot评估,包括零样本和少样本评估、链式思维推理和问题难度分析。
引用
@misc{yüksel2024turkishmmlumeasuringmassivemultitask, title={TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish}, author={Arda Yüksel and Abdullatif Köksal and Lütfi Kerem Şenel and Anna Korhonen and Hinrich Schütze}, year={2024}, eprint={2407.12402}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.12402}, }
搜集汇总
数据集介绍

构建方式
TurkishMMLU数据集的构建基于土耳其高中教育课程,涵盖了九个不同学科的多项选择题。这些题目由课程专家编写,确保其与土耳其高中课程内容的高度契合。数据集分为开发集和测试集,每个学科均有对应的JSON文件,便于模型评估与分析。通过这种方式,数据集不仅反映了土耳其教育体系的知识结构,还为多任务语言理解提供了丰富的测试场景。
使用方法
TurkishMMLU数据集主要用于评估大型语言模型在土耳其语多任务理解中的表现。用户可通过访问HuggingFace平台获取数据集,并按照学科分类加载对应的JSON文件。数据集支持零样本和少样本评估,同时提供链式推理和题目难度分析功能。研究人员可通过对比不同模型在自然语言处理任务中的表现,深入分析模型在土耳其语环境下的能力与局限性,为未来模型优化提供参考。
背景与挑战
背景概述
TurkishMMLU数据集是专为土耳其自然语言处理(NLP)社区设计的多选题问答数据集,基于土耳其高中课程内容,涵盖九个学科领域。该数据集由土耳其慕尼黑工业大学(TUM)和慕尼黑大学(LMU)的研究团队于2024年创建,旨在评估大型语言模型(LLMs)在土耳其语环境下的推理、理解和数学能力。数据集包含超过10,000道题目,涵盖自然科学、数学、语言及社会科学与人文等多个领域,题目由课程专家编写,确保与土耳其高中课程内容一致。TurkishMMLU的发布填补了土耳其语多任务问答基准的空白,为土耳其语NLP研究提供了重要的评估工具。
当前挑战
TurkishMMLU数据集在构建和应用过程中面临多重挑战。首先,数据集旨在解决土耳其语环境下多任务问答的评估问题,但由于土耳其语的语言结构和文化背景的独特性,自动翻译方法容易引入错误和文化偏见,尤其是在社会科学领域。其次,数据集的构建依赖于课程专家的参与,确保题目的准确性和文化代表性,这一过程耗时且复杂。此外,数据集的评估涉及多种语言模型,包括多语言开源模型、闭源模型以及土耳其语适配模型,如何在不同模型架构下进行公平且全面的性能评估也是一个重要挑战。最后,数据集的公开访问受到限制,需通过邮件申请,这在一定程度上影响了其广泛使用和推广。
常用场景
经典使用场景
TurkishMMLU数据集在自然语言处理领域中被广泛用于评估大型语言模型(LLMs)在土耳其语环境下的多任务理解能力。该数据集通过涵盖土耳其高中课程的九个不同学科,提供了超过10,000道选择题,能够全面测试模型在自然语言理解、推理和数学能力方面的表现。研究人员可以通过该数据集进行零样本和少样本评估,分析模型在不同学科中的表现差异,从而为土耳其语NLP模型的优化提供有力支持。
解决学术问题
TurkishMMLU数据集解决了现有多语言评估基准中存在的自动翻译误差和文化偏见问题。通过提供由土耳其课程专家编写的问题,该数据集确保了问题的文化代表性和语言准确性。这不仅为土耳其语NLP研究提供了高质量的评估工具,还为多语言模型的跨文化适应性研究提供了新的视角。该数据集的引入填补了土耳其语多任务评估基准的空白,推动了土耳其语NLP领域的发展。
实际应用
在实际应用中,TurkishMMLU数据集被广泛用于教育技术领域,特别是在智能辅导系统和在线学习平台的开发中。通过利用该数据集,开发者可以训练和评估能够理解土耳其语课程内容的AI模型,从而为学生提供个性化的学习建议和自动化的作业批改服务。此外,该数据集还可用于语言模型的本地化研究,帮助企业在土耳其市场推出更符合当地文化和语言习惯的AI产品。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,多语言模型的性能评估成为研究热点。TurkishMMLU作为首个基于土耳其高中课程的多任务、多选问答数据集,填补了土耳其语自然语言处理领域的空白。该数据集涵盖了生物学、地理学、化学、历史、数学、哲学、物理学、宗教与伦理学以及土耳其语言与文学等九大学科,共计超过10,000道题目,均由课程专家编写,确保了题目的文化代表性和教育相关性。通过对包括GPT-4、Claude-3、Llama-3等在内的20多个多语言开源和闭源模型的评估,TurkishMMLU不仅揭示了当前大型语言模型在土耳其语理解上的局限性,还为未来模型的优化提供了重要参考。该数据集的发布,推动了土耳其语自然语言处理的研究进展,特别是在多任务学习和跨文化理解方面,具有重要的学术价值和实际意义。
以上内容由遇见数据集搜集并总结生成



