MBZUAI/ArabicMMLU

Name: MBZUAI/ArabicMMLU
Creator: MBZUAI
Published: 2024-09-17 13:54:43
License: 暂无描述

Hugging Face2024-09-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MBZUAI/ArabicMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

ArabicMMLU是第一个针对阿拉伯语的多任务语言理解基准测试数据集，来源于不同国家的学校考试，涵盖了北非、黎凡特和海湾地区的多个教育层次。数据集包含40个任务和14,575个现代标准阿拉伯语（MSA）的多项选择题，由该地区的母语者精心构建。每个问题都是多项选择题，最多有5个选项，只有一个正确答案。数据集的构建过程涉及10位来自不同国家的阿拉伯语母语者，问题来源国家包括约旦、埃及和巴勒斯坦等。数据集的问题被分类为不同的学科领域，包括STEM、社会科学、人文科学、阿拉伯语和其他。

提供机构：

MBZUAI

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-4.0
任务类别: 问答
语言: 阿拉伯语
标签: MMLU, exams
数据集大小: 10K<n<100K

数据集介绍

名称: ArabicMMLU
类型: 多任务语言理解基准
来源: 来自北非、黎凡特和海湾地区不同国家的学校考试
数据构成: 40个任务，14,575个多项选择题，使用现代标准阿拉伯语（MSA）
合作者: 与该地区的母语者合作精心构建

数据详情

问题类型: 每个问题是一个多项选择题，最多有5个选项，只有一个正确答案
加载方式: python import datasets data = datasets.load_dataset(MBZUAI/ArabicMMLU)

数据统计

参与者: 10名来自不同国家的阿拉伯母语者（6名内部工作者，4名外部工作者）
来源国家: 8个国家，其中约旦、埃及和巴勒斯坦是前三大来源
分类: 问题分为以下领域：
1. STEM（科学、技术、工程和数学）
2. 社会科学
3. 人文学科
4. 阿拉伯语
5. 其他

评估

评估模型: 22个开源多语言模型，11个开源阿拉伯语模型，2个闭源模型
实验: 使用阿拉伯语和英语的不同提示，发现英语提示效果最佳
评估类型: 零样本评估和少量样本评估

引用

bibtex @misc{koto2024arabicmmlu, title={"ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic"}, author={"Fajri Koto and Haonan Li and Sara Shatanawi and Jad Doughman and Abdelrahman Boda Sadallah and Aisha Alraeesi and Khalid Almubarak and Zaid Alyafeai and Neha Sengupta and Shady Shehata and Nizar Habash and Preslav Nakov and Timothy Baldwin"}, eprint={"2402.12840"}, year={"2024"}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在阿拉伯语自然语言处理领域，构建一个全面且具有代表性的评估基准至关重要。ArabicMMLU数据集的构建过程体现了严谨的学术方法，其核心在于从阿拉伯世界多个地区（涵盖北非、黎凡特和海湾地区）的学校考试中系统性地收集原始资料。研究团队与来自约旦、埃及、沙特阿拉伯等国的十位阿拉伯语母语者紧密合作，确保了数据来源的真实性与文化相关性。通过对收集到的试题进行人工整理与分类，最终形成了包含40个任务、总计14,575道现代标准阿拉伯语（MSA）单项选择题的语料库，并依据学科领域和教育层级进行了精细化配置。

使用方法

对于旨在评估或提升阿拉伯语理解能力的研究者与开发者而言，ArabicMMLU提供了便捷的接入途径。用户可通过Hugging Face的`datasets`库直接加载整个数据集或特定的学科配置，例如`Islamic Studies (High School)`。数据集的标准化格式便于进行零样本或少样本评估实验。实践表明，结合恰当的提示词（Prompt）设计，该数据集能有效用于测试各类多语言或阿拉伯语中心模型的知识掌握与推理能力。其内置的开发集（dev）与测试集（test）划分也为模型的迭代优化与最终性能验证提供了支持。

背景与挑战

背景概述

在自然语言处理领域，多任务语言理解能力的评估对于衡量模型在复杂认知任务上的表现至关重要。阿拉伯语作为全球重要语言之一，长期以来缺乏一个全面、标准化的基准测试集。为此，MBZUAI等机构的研究团队于2024年联合推出了ArabicMMLU数据集，这是首个专为阿拉伯语设计的大规模多任务理解基准。该数据集源自北非、黎凡特和海湾地区多个国家的学校考试题目，涵盖了从小学到大学不同教育阶段的40个任务类别，共计14,575道现代标准阿拉伯语选择题。其核心研究问题在于系统评估模型在阿拉伯语语境下的跨学科知识理解与推理能力，填补了该语言在综合性评估资源上的空白，对推动阿拉伯语人工智能技术的发展具有里程碑意义。

当前挑战

ArabicMMLU数据集致力于解决阿拉伯语多任务语言理解这一核心领域问题，其首要挑战在于如何构建一个能够全面反映语言复杂性、文化多样性和学科广度的评估体系。具体而言，领域问题的挑战体现在模型需同时应对STEM、社会科学、人文、阿拉伯语言及其他学科中高度专业且语境丰富的选择题，这对模型的深度知识融合与跨领域推理能力提出了极高要求。在构建过程中，研究团队面临了多重挑战：一是数据收集需跨越八个阿拉伯语国家，协调来自不同地域和文化背景的十位母语者，确保题目的代表性与语言的地道性；二是题目需涵盖从小学到大学的多个教育层级，并在现代标准阿拉伯语的框架下保持难度与质量的一致性；三是数据标注与分类工作涉及大量人工校对，以保障超过一万四千道题目的准确性与学科划分的严谨性。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，评估模型的多任务语言理解能力一直是核心挑战。ArabicMMLU数据集作为首个面向阿拉伯语的大规模多任务理解基准，其经典使用场景在于系统性地测评各类语言模型在阿拉伯语学术考试题目上的表现。该数据集涵盖了从小学到大学多个教育阶段的40项任务，包括STEM、社会科学、人文科学等广泛学科，为研究者提供了标准化的零样本和少样本评估框架，用以衡量模型在复杂、专业的阿拉伯语语境下的推理与知识应用能力。

解决学术问题

长期以来，阿拉伯语缺乏一个全面、高质量的多学科评估基准，这制约了针对该语言的大语言模型能力测评研究。ArabicMMLU的构建有效解决了这一学术空白，它通过收集来自多个阿拉伯国家标准化考试的真实题目，确保了数据的多样性和文化相关性。该数据集使得研究者能够定量分析模型在不同知识领域和语言变体上的性能差异，为理解模型在低资源语言上的泛化能力、知识迁移以及跨语言偏差等关键问题提供了坚实的实证基础。

实际应用

超越纯粹的学术研究，ArabicMMLU数据集在现实世界中也展现出重要价值。它能够直接服务于阿拉伯语教育科技领域，为开发智能辅导系统、自适应学习平台提供高质量的评估与训练数据。同时，该数据集可用于优化搜索引擎、问答系统以及内容推荐引擎在阿拉伯语环境下的准确性与相关性。对于企业和机构而言，利用此基准测试其阿拉伯语AI产品的知识水平和语言理解深度，已成为确保技术落地效果与可靠性的关键步骤。

数据集最近研究