DIALECTALARABICMMLU

Name: DIALECTALARABICMMLU
Creator: IBM Research AI, New York University Abu Dhabi, Mohamed bin Zayed University of Artificial Intelligence Abu Dhabi, UAE
Published: 2025-10-31 23:17:06
License: 暂无描述

arXiv2025-10-31 更新2025-11-04 收录

下载链接：

https://huggingface.co/DiaL.SYR

下载链接

链接失效反馈

官方服务：

资源简介：

DIALECTALARABICMMLU是一个专为评估大型语言模型（LLMs）在阿拉伯方言中的表现而设计的新基准。该数据集基于MMLU-Redux框架，通过手动翻译和调整，将3K个多项选择题-答案对翻译成五个主要方言（叙利亚、埃及、阿联酋、沙特和摩洛哥），共产生15K个QA对。数据集涵盖了32个学术和专业领域，总共包含21,945个QA对，包括阿拉伯标准语和英语。该基准测试支持对LLMs在阿拉伯语方言中的推理和理解的系统性评估，并促进了对阿拉伯语方言理解能力的更包容性评估和未来模型的发展。

DIALECTALARABICMMLU is a novel benchmark specifically developed to evaluate the performance of Large Language Models (LLMs) in Arabic dialectal contexts. Grounded in the MMLU-Redux framework, this dataset leverages manual translation and adaptation work to convert 3,000 multiple-choice question-answer pairs into five prominent Arabic dialects: Syrian, Egyptian, Emirati, Saudi, and Moroccan, yielding a total of 15,000 QA pairs. Spanning 32 academic and professional domains, the dataset contains an overall total of 21,945 QA pairs, including both Modern Standard Arabic and English. This benchmark enables systematic assessment of LLMs' reasoning and comprehension capabilities across Arabic dialects, and supports more inclusive evaluations of Arabic dialect understanding alongside the advancement of future language models.

提供机构：

IBM Research AI, New York University Abu Dhabi, Mohamed bin Zayed University of Artificial Intelligence Abu Dhabi, UAE

创建时间：

2025-10-31

搜集汇总

数据集介绍

构建方式

在阿拉伯语自然语言处理领域，方言资源长期匮乏，DIALECTALARABICMMLU通过系统化人工翻译构建填补了这一空白。该数据集以MMLU-Redux框架为基础，由母语者团队将3135个英文多选问答对手动转化为叙利亚、埃及、阿联酋、沙特和摩洛哥五种方言，最终形成涵盖32个学术领域的15675个方言问答对。翻译过程遵循正确性、自然度与简洁性三大原则，并经过双重审核与质量验证，确保方言表达的准确性与文化适应性。

使用方法

该数据集支持三种实验范式以全面测评语言模型性能。默认设置保留原始提示结构，评估模型在无方言线索下的基础理解能力；先知设置通过显式标注方言类型，探究方言提示对模型性能的影响；方言识别任务则要求模型从六类选项（五方言+现代标准阿拉伯语）中判别输入文本的方言类别。评估采用对数似然预测机制，通过五次重复实验计算平均准确率，确保结果的可复现性与统计显著性，为阿拉伯语多方言NLP研究提供标准化测评框架。

背景与挑战

背景概述

随着大语言模型在多语言自然语言处理领域的快速发展，阿拉伯语方言的评估资源长期匮乏。2025年，由IBM研究院、纽约大学阿布扎比分校及穆罕默德·本·扎耶德人工智能大学联合推出的DIALECTALARABICMMLU数据集填补了这一空白。该数据集基于MMLU-Redux框架，通过人工翻译将3,135个多选问答对转化为叙利亚、埃及、阿联酋、沙特和摩洛哥五种主要方言，涵盖32个学术与专业领域，首次构建了面向阿拉伯方言理解的大规模评估基准。其核心研究目标在于系统衡量模型在方言语境下的推理与理解能力，推动阿拉伯语自然语言处理向真实语言生态的拓展。

当前挑战

该数据集致力于解决阿拉伯语方言问答任务中的核心挑战：现代标准阿拉伯语与方言在形态、句法和词汇层面的显著差异导致模型泛化能力不足，而现有资源多集中于标准变体，忽视了方言在日常交流中的主导地位。构建过程中面临双重挑战：一是方言缺乏标准拼写规范，需通过母语者团队进行多轮人工翻译与校验以保障语言自然度与文化适应性；二是需平衡五大方言的区域代表性，避免因地理或社会语言变异引入偏差，例如阿联酋方言初期出现的沙特词汇倾向问题即通过二次修订得以纠正。

常用场景

经典使用场景

在阿拉伯语自然语言处理研究中，DIALECTALARABICMMLU数据集主要用于评估大语言模型在五大阿拉伯方言（叙利亚、埃及、阿联酋、沙特和摩洛哥）上的推理与理解能力。该数据集通过人工翻译MMLU-Redux框架中的3150个多选题对，构建了覆盖32个学术领域的15750个方言问答对，为系统评估模型在方言环境下的知识掌握和逻辑推理提供了标准化测试平台。

解决学术问题

该数据集有效解决了阿拉伯语自然语言处理领域长期存在的方言评估缺失问题。传统基准主要关注现代标准阿拉伯语（MSA），而忽视了方言在真实交流中的主导地位。通过构建首个大规模人工标注的方言理解基准，该研究揭示了现有模型在方言泛化能力上的显著差距，为开发更具包容性的阿拉伯语评估体系奠定了理论基础，推动了方言感知训练策略的发展。

实际应用

在实际应用层面，该数据集为阿拉伯语智能助手的方言适配提供了关键评估工具。在社交媒体分析、方言客服系统和教育科技领域，模型需要准确理解不同地区的方言表达。通过测试模型在五大方言上的表现，开发者能够针对性优化模型参数，提升在真实场景中的服务效果，特别是在医疗咨询、法律辅助等需要精确理解方言术语的专业领域。

数据集最近研究