TUMLU (Turkic Unified Multilingual Language Understanding)

Name: TUMLU (Turkic Unified Multilingual Language Understanding)
Creator: ADA University, The George Washington University, New York University, Saarland University, Microsoft, Baku Higher Oil School, KAIST, Queensland University of Technology, CETOBaC EHESS, Turan University, Nazarbayev University, LMU Munich, MCML, Independent researcher
Published: 2025-02-16 15:07:38
License: 暂无描述

arXiv2025-02-16 更新2025-02-19 收录

下载链接：

https://github.com/ceferisbarov/TUMLU

下载链接

链接失效反馈

官方服务：

资源简介：

TUMLU是一个包含8种土耳其语系语言和11个学科领域的多项选择题的多元化、多语言数据集，共38139条题目。该数据集由公开书籍和网站收集的问题组成，经过母语人士的验证，涵盖了从中学到大学入学考试水平的题目。TUMLU的创建旨在为土耳其语系提供一个原生的、全面的语言理解评估基准，解决多语言模型在资源较少语言中的评估问题。

提供机构：

ADA University, The George Washington University, New York University, Saarland University, Microsoft, Baku Higher Oil School, KAIST, Queensland University of Technology, CETOBaC EHESS, Turan University, Nazarbayev University, LMU Munich, MCML, Independent researcher

创建时间：

2025-02-16

搜集汇总

数据集介绍

构建方式

TUMLU数据集的构建旨在为突厥语系语言提供一个全面的、多语言的、本族语言理解的基准。该数据集包含来自阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语的中学和高中学历水平的问题，涵盖11个学术科目。数据收集主要来自公开可用的书籍和网站，所有问题均为4选1的选择题，并由各语言的母语者进行质量验证。此外，还创建了针对阿塞拜疆语、哈萨克语、土耳其语和乌兹别克语的5个CoT提示，以便比较模型的CoT性能。

使用方法

使用TUMLU数据集时，可以将其作为单语言基准，也可以用于比较不同语言之间的模型性能。实验设置包括5-shot和5-shot CoT推理两种情境，所有提示均使用相应语言的本地语言。TUMLU-mini版本包含每个科目100个随机选择的手动验证问题，适用于大规模实验。通过TUMLU数据集，可以系统地评估各种开放和专有的多语言大型语言模型（LLM）在不同语言、科目和字母表上的表现。

背景与挑战

背景概述

在多任务语言理解（MMLU）能力的评估方面，高质量原语言基准的缺乏限制了评估数据集的代表性和多语言语言模型的应用性。TUMLU数据集应运而生，旨在解决这一难题。由Jafar Isbarov等研究人员于2025年提出，TUMLU是一个综合性的多语言和原语言理解基准，专为突厥语系设计。该数据集包含了来自阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语等11个学科的中学和高中水平的四选一问题。此外，TUMLU-mini作为数据集的子集，包含了每个学科100个经过手动验证的问题，旨在为大规模实验提供更加平衡的数据。TUMLU的提出，为突厥语系的多语言语言理解研究提供了重要的参考和评估工具，填补了该领域基准的空白，对相关领域的研究和发展产生了深远的影响。

当前挑战

尽管TUMLU数据集在突厥语系的多语言语言理解评估方面取得了重要进展，但仍面临着一些挑战。首先，数据集中不同语言的问题难度水平不匹配，导致跨语言比较存在困难。其次，数据集中未包含所有重要的突厥语系语言，如土库曼语、吉尔吉斯语和巴什基尔语等，限制了其代表性和普适性。此外，尽管LLMs在突厥语系的语言理解方面表现出色，但在生成这些语言文本方面能力较弱，往往使用相似的高资源语言来回答问题。这些挑战需要进一步的研究和发展来解决，以提高多语言语言模型的性能和适用性。

常用场景

经典使用场景

TUMLU 数据集是一个为突厥语系设计的全面、多语言和本地开发的语言理解基准。它包含来自 11 个学术科目的中等到高中学水平的 4 个选项问题，涵盖阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语。该数据集旨在评估多语言语言模型在突厥语系中的能力，并通过提供真实、本地化的语言理解任务来挑战模型。此外，TUMLU 还包含一个更简洁、平衡且经过人工验证的数据子集 TUMLU-mini，包含每个科目 100 个问题，适合大规模实验。TUMLU 和 TUMLU-mini 都被用于评估各种开源和专有多语言大型语言模型（LLMs），包括 Claude、Gemini、GPT 和 LLaMA，并分析它们在不同语言、科目和字母表上的性能。

解决学术问题

TUMLU 数据集解决了多语言语言模型在低资源语言中性能下降的问题。它提供了一个真实、本地化的语言理解基准，可以帮助研究人员和开发者更好地评估和改进多语言语言模型。此外，TUMLU 还包含了一个平衡且经过人工验证的数据子集 TUMLU-mini，可以减少实验成本并提高实验效率。TUMLU 的发布有助于推动多语言语言理解领域的研究和发展。

实际应用

TUMLU 数据集可以用于各种实际应用场景，例如机器翻译、文本分类、情感分析和问答系统。通过使用 TUMLU 进行训练和评估，可以开发出更准确、更可靠的多语言语言模型，从而提高机器翻译的准确性、文本分类的精确性、情感分析的有效性和问答系统的智能化。此外，TUMLU 还可以用于教育和研究领域，帮助学生和研究人员更好地理解和掌握突厥语系的语言和文化。

数据集最近研究