SadeedDiac-25

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/Misraj/SadeedDiac-25

下载链接

链接失效反馈

官方服务：

资源简介：

SadeedDiac-25是一个全面的、语言学多样化的基准数据集，专为评估阿拉伯文字加音符模型而设计。它将现代标准阿拉伯语和古典阿拉伯语统一在单个数据集中，解决了现有基准的关键局限性。

创建时间：

2025-04-27

原始信息汇总

SadeedDiac-25: 阿拉伯语变音符号标注基准数据集

数据集概述

目的：专为评估阿拉伯语变音符号标注模型设计的综合性基准
语言：阿拉伯语 (ar)
特点：
- 统一现代标准阿拉伯语(MSA)和古典阿拉伯语(CA)
- 覆盖多领域内容
- 经过多阶段专家评审的高质量标注
- 避免大规模预训练语料污染

数据集构成

总样本量：1,200个段落
数据划分：
- 训练集：1,200个样本 (926,418字节)
现代标准阿拉伯语(50%)：
- 454个原创MSA段落
- 146个WikiNews段落
- 段落长度：40-50词
古典阿拉伯语(50%)：
- 600个来自Fadel测试集的段落

技术特性

特征字段：
- filename (字符串)
- ground_truth (字符串)
任务类别：文本生成
规模分类：1K<n<10K

评估结果

性能指标对比表

模型	DER(CE)	WER(CE)	DER(无CE)	WER(无CE)	幻觉率
Claude-3-7-Sonnet-Latest	1.3941	4.6718	0.7693	2.3098	0.821
GPT-4	3.8645	5.2719	3.8645	10.9274	1.0242
Gemini-Flash-2.0	3.1926	7.9942	2.3783	5.5044	1.1713
Sadeed	7.2915	13.7425	5.2625	9.9245	7.1946
Aya-23-8B	25.6274	47.4908	19.7584	40.2478	5.7793

注：CE表示格尾变化

使用信息

下载大小：407,863字节
数据集大小：926,418字节
评估代码：https://github.com/misraj-ai/Sadeed
许可协议：CC BY-NC-SA 4.0

引用格式

bibtex @misc{aldallal2025sadeedadvancingarabicdiacritization, title={Sadeed: Advancing Arabic Diacritization Through Small Language Model}, author={Zeina Aldallal and Sara Chrouf and Khalil Hennara and Mohamed Motaism Hamed and Muhammad Hreden and Safwan AlModhayan}, year={2025}, eprint={2504.21635}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.21635}, }

联系方式

联系方：Misraj-AI (https://misraj.ai/)

搜集汇总

数据集介绍

构建方式

SadeedDiac-25数据集的构建过程体现了对阿拉伯语变音符号标注任务的深度考量。该数据集精心整合了现代标准阿拉伯语和古典阿拉伯语两大语系，通过多源数据采集策略获取原始语料。现代标准阿拉伯语部分包含454篇原创内容和146篇WikiNews精选段落，古典阿拉伯语部分则采用Fadel测试集中的600个段落。所有文本均经过40-50词的段落化处理，并经由专家团队进行多阶段质量审核，确保标注准确性和领域多样性。

特点

该数据集最显著的特点在于其语言覆盖的全面性和领域分布的均衡性。作为首个同时涵盖现代标准阿拉伯语和古典阿拉伯语的基准数据集，其1200个段落均匀分布于两大语系。语料覆盖新闻、宗教、政治、体育及烹饪艺术等多个领域，有效避免了传统数据集领域单一的局限性。技术层面提供文件名和标注文本两个核心特征，支持变音错误率、词错误率等多维度评估指标，为阿拉伯语变音模型提供了可靠的性能测试平台。

使用方法

使用该数据集时，研究者可通过Hugging Face平台直接下载包含训练集的压缩文件。数据集采用标准文本生成任务格式，每个样本包含文件名和对应的标注文本。建议用户参考提供的GitHub仓库中的评估代码，采用变音错误率(DER)和词错误率(WER)作为核心指标进行模型性能测试。对于学术引用，需遵循CC BY-NC-SA 4.0许可协议，并在研究中注明原始文献的arXiv编号2504.21635。

背景与挑战

背景概述

SadeedDiac-25数据集由Misraj-AI团队于2025年发布，旨在解决阿拉伯语变音符号标注领域的关键问题。该数据集整合了现代标准阿拉伯语和古典阿拉伯语两大语系，覆盖新闻、宗教、政治等多元领域，填补了现有基准测试在语言多样性和质量一致性方面的空白。通过严格的专家多阶段评审机制，数据集确保了标注的高准确性，避免了大规模预训练语料的污染问题，为阿拉伯语自然语言处理研究提供了重要基准。

当前挑战

阿拉伯语变音符号标注面临双重挑战：在领域层面，复杂的词形变化和方言变体导致模型泛化能力不足，现有系统在古典阿拉伯语与现代标准阿拉伯语间的性能差异显著；在构建层面，需平衡语料覆盖广度与标注深度，专家评审机制虽提升质量但大幅增加时间成本，同时避免预训练数据泄露要求严格的来源筛选流程。评测结果显示，即使先进模型在变音错误率和词错误率等核心指标上仍存在显著提升空间。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，SadeedDiac-25数据集作为首个融合现代标准阿拉伯语和古典阿拉伯语的基准测试集，为阿拉伯语变音恢复任务提供了标准化评估平台。该数据集通过涵盖新闻、宗教、政治等多领域文本，支持研究者全面测试模型在不同语体和语境下的性能表现，尤其在对比分析现代与古典阿拉伯语变音规则差异方面具有独特价值。

实际应用

在阿拉伯语智能教育系统中，该数据集支撑的变音恢复技术可自动生成标准发音文本，辅助非母语学习者掌握精确发音。数字人文领域利用其古典阿拉伯语标注数据，实现历史文献的智能标注与检索。新闻媒体则基于现代标准阿拉伯语模块，开发自动校对工具确保出版文本符合规范变音标准。

衍生相关工作

基于该数据集的开源评估框架催生了Sadeed等专用阿拉伯语变音模型的优化研究。多项工作探索了Transformer架构在混合阿拉伯语变体上的迁移学习策略，其中Claude-3-7-Sonnet的变音错误率优化方案被证实具有跨语言适应性。相关研究还拓展至阿拉伯语语音合成领域，提升了合成语音的韵律自然度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集