AraLingBench

github2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/hammoudhasan/AraLingBench

下载链接

链接失效反馈

官方服务：

资源简介：

AraLingBench是一个包含150个问题、由专家编写的基准测试，专门隔离了阿拉伯语能力的五个基本支柱——语法、形态学、拼写、阅读理解和句法，用于诊断大型语言模型是否具备真正的语言能力而非表面流利度。该数据集包含由训练有素的阿拉伯语语言学家审查的原创项目，涵盖不同难度级别，采用零样本评估协议。

AraLingBench is an expert-developed benchmark containing 150 questions, which is specifically constructed to isolate the five core pillars of Arabic language proficiency: grammar, morphology, spelling, reading comprehension, and syntax, aiming to diagnose whether large language models (LLMs) possess genuine linguistic competence rather than just superficial fluency. This dataset includes original items reviewed by trained Arabic linguists, covers a range of difficulty levels, and adopts a zero-shot evaluation protocol.

创建时间：

2025-11-14

原始信息汇总

AraLingBench 数据集概述

数据集简介

AraLingBench 是一个人工标注的基准测试，专门用于压力测试大型语言模型的阿拉伯语语言核心能力。该基准测试包含150个专家编写的问题，重点评估阿拉伯语的语言结构理解能力。

核心特征

基准规模

问题总数：150个多项选择题
类别数量：5个语言学类别
难度分布：33%简单、49%中等、17%困难

语言学类别

每个类别包含30个题目：

语法（Grammar）
形态学（Morphology）
拼写与正字法（Spelling & Orthography）
阅读理解（Reading Comprehension）
句法（Syntax）

答案格式

83%为四选一题目
17%为三选一题目
答案键平衡分布：A(34%)、B(27.3%)、C(26%)、D(12.7%)

评估方法

评估协议：零样本评估
评分方式：按单字母响应计算准确率
评估维度：按类别和整体准确率评分

数据质量保证

人工编写：所有题目由专家原创编写
语言学验证：经训练的阿拉伯语语言学家审核
质量控制：资深语言学家确保类别对齐、表述明确、唯一正确答案
难度标注：三位独立标注者通过多数投票标注难度级别

模型性能表现

领先模型在基准测试中的平均准确率：

Navid-AI/Yehia-7B-preview：74.0%
ALLaM-7B-Instruct-preview：74.0%
Yehia-7B-Reasoning-preview：72.0%

获取与使用

Hugging Face数据集：https://huggingface.co/datasets/hammh0a/AraLingBench
论文链接：https://arxiv.org/abs/2511.14295
评估代码：基于lighteval代码库构建

搜集汇总

数据集介绍

构建方式

在阿拉伯语语言学评估领域，AraLingBench的构建采用了多阶段专家协作模式。五位语言学专家基于阿拉伯语传统语法（النحو）、形态学（الصرف）、正字法（الإملاء）、句法（التركيب اللغوي）及阅读理解（فهم اللغة）五大核心领域，原创设计了150道多项选择题。所有题目经过母语者清晰度验证和资深语言学家质量把控，确保每道题目仅存在唯一正确答案，并通过三位独立标注者的难度分级投票形成最终数据集。

特点

该数据集最显著的特征在于其精准的语言学定位，将评估焦点集中于阿拉伯语的结构性理解能力而非表层流畅度。每个语言类别均包含30道平衡分布的题目，难度梯度涵盖33%简单题、49%中等题与17%高难题，形成了具有判别力的评估谱系。题目设计采用83%四选项与17%三选项的混合形式，答案键经过科学平衡以消除选择偏差，为零样本评估提供了可靠基础。

使用方法

研究人员可通过安装评估工具包快速启动验证流程，使用内置脚本对模型进行零样本多维度测试。评估体系同步考察模型在五个语言学维度的表现，并按照预设的难度层级进行交叉分析。用户仅需修改脚本中的模型路径变量，即可对自定义模型展开全面测评，系统将自动生成在语法、形态、拼写、句法与阅读理解等核心能力上的量化指标。

背景与挑战

背景概述

阿拉伯语作为全球重要语言之一，其复杂的语法结构和丰富的形态变化对自然语言处理技术提出了独特挑战。AraLingBench由阿卜杜拉国王科技大学与贝鲁特美国大学的研究团队于2025年联合创建，聚焦于系统评估大语言模型对阿拉伯语核心语言能力的掌握程度。该基准通过150道专家编写的多选题，精准覆盖语法、形态学、拼写、阅读理解和句法五大语言维度，填补了现有阿拉伯语评测体系在结构语言学分析方面的空白，为阿拉伯语自然语言处理研究提供了重要的诊断工具。

当前挑战

在阿拉伯语自然语言处理领域，模型往往表现出表面流畅性而缺乏深层语言理解能力。AraLingBench针对这一核心问题，要求模型准确处理阿拉伯语特有的语法格位变化、动词变位规则和复杂的句法结构。构建过程中面临多重挑战：专家团队需要基于古典阿拉伯语言学理论设计原创题目，确保每个问题仅存在唯一正确答案；通过三位独立标注者的多数投票机制确定题目难度等级，维持中等难度题目占比以增强区分度；同时需平衡五大语言类别的题目数量，保证评测体系能全面反映模型的语言能力短板。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，AraLingBench作为专业评估工具，主要用于系统检验大语言模型对阿拉伯语核心语言结构的掌握程度。该数据集通过精心设计的150道多选题，覆盖语法、形态学、拼写、句法和阅读理解五大语言维度，为研究者提供零样本评估框架，帮助识别模型在特定语言技能上的优势与短板。

衍生相关工作

基于该数据集衍生的经典研究包括对Yehia系列模型的深度语言学分析，揭示了7B参数模型在拼写与形态学任务上的卓越表现。后续研究进一步探索了指令调优对句法理解的影响，推动开发出专攻阿拉伯语复杂句式解析的Saka模型，这些工作共同构建了阿拉伯语大模型能力评估的方法论体系。

数据集最近研究