universitytehran/MMLUAuxiliary

Name: universitytehran/MMLUAuxiliary
Creator: universitytehran
Published: 2024-12-05 22:00:20
License: 暂无描述

Hugging Face2024-12-05 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/universitytehran/MMLUAuxiliary

下载链接

链接失效反馈

官方服务：

资源简介：

这是MMLU数据集的波斯语翻译版本，具体是`auxiliary_train`分割的翻译。数据集包含指令、输入和输出三个特征，主要用于多项选择任务。

This is a Persian translation of the auxiliary_train split of the MMLU dataset. The dataset includes three features: instruction, input, and output, all of which are string type. The dataset is divided into a training set, containing 99,842 samples, with a total size of 275,852,684 bytes. The download size of the dataset is 62,752,122 bytes. The task category of the dataset is multiple-choice.

提供机构：

universitytehran

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言数据集对于模型泛化能力的提升至关重要。本数据集基于著名的MMLU（大规模多任务语言理解）基准测试中的辅助训练集，通过专业翻译流程将其转化为波斯语版本。构建过程中，原始英语指令、输入与输出内容被精准地译为波斯语，确保了语言转换的准确性与文化适应性，同时保留了原数据集的结构与任务范畴，为波斯语自然语言理解研究提供了高质量资源。

特点

作为波斯语环境下的重要语言理解数据集，其核心特点在于全面覆盖多任务选择场景，涵盖广泛的知识领域。数据集以波斯语呈现，包含近十万条训练样本，每条样本均包含指令、输入和输出三个关键字段，结构清晰且一致。这种设计不仅支持模型在波斯语语境下的推理与判断能力训练，还通过多样化的任务类型促进了跨语言学习的兼容性，为多语言模型评估提供了实用基准。

使用方法

在应用层面，该数据集主要用于训练与评估波斯语语言模型的多任务理解性能。研究人员可直接加载数据集进行监督学习，利用指令与输入字段引导模型生成对应输出，特别适用于多项选择任务的微调与测试。通过整合到现有训练流程中，能够有效提升模型在波斯语上的逻辑推理与知识应用能力，同时支持跨语言对比研究，推动自然语言处理技术的全球化发展。

背景与挑战

背景概述

在自然语言处理领域，多语言模型的评估与训练数据稀缺性一直是制约其发展的关键因素。MMLUAuxiliary数据集由University of Tehran的研究团队于近年构建，其核心目标在于将著名的MMLU基准测试的辅助训练集翻译为波斯语，以填补波斯语在复杂推理与知识理解任务上的数据空白。该数据集的创建不仅促进了波斯语自然语言处理模型的发展，也为跨语言知识迁移研究提供了重要资源，推动了多语言人工智能技术的公平性与包容性。

当前挑战

该数据集旨在解决波斯语在复杂多领域知识问答任务中的评估挑战，其核心难点在于如何准确捕捉源语言（英语）中的细微语义与专业术语，并在波斯语中保持逻辑一致性与文化适应性。在构建过程中，研究人员面临双重挑战：一是波斯语与英语在语法结构、表达习惯上的显著差异，导致翻译过程中易出现信息损失或歧义；二是确保翻译后的数据在科学、人文等专业领域仍保持高准确性与可靠性，这需要深厚的语言学与领域知识作为支撑。

常用场景

经典使用场景

在自然语言处理领域，波斯语作为资源相对稀缺的语言，其模型评估常面临挑战。MMLUAuxiliary数据集作为MMLU基准的波斯语翻译版本，为研究者提供了评估波斯语语言模型在多项选择题任务上性能的标准化工具。该数据集通过涵盖科学、人文、社会科学等广泛学科的知识性问题，能够系统测试模型在复杂推理、知识理解和跨语言迁移方面的能力，成为波斯语NLP社区中模型对比与优化的核心资源。

衍生相关工作

围绕MMLUAuxiliary数据集，研究社区已衍生出多项经典工作。这些工作主要集中于探索有效的跨语言知识迁移方法，例如通过翻译数据对多语言大模型进行针对性微调，或设计适配波斯语语言特性的新型评估指标。此外，该数据集也常被用作基准，用于比较不同架构的模型在低资源语言场景下的鲁棒性与泛化能力，从而催生了针对波斯语等语言的模型压缩、数据增强及少样本学习等一系列创新研究。

数据集最近研究