Sadeed_Tashkeela
收藏Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/Misraj/Sadeed_Tashkeela
下载链接
链接失效反馈官方服务:
资源简介:
Sadeed数据集是一个大型的、高质量的阿拉伯语标注语料库,专为训练和评估阿拉伯语标注模型而优化。该数据集完全由Tashkeela语料库的训练集和一个精炼的Fadel Tashkeela测试集构建而成。数据集经过彻底的清洗和归一化处理,确保了文本的语法和风格一致性,并按标准阿拉伯语规则进行了标注。数据集分为训练集和测试集,训练集包含约5300万个单词的1042698个示例,测试集包含2485个示例。数据集适用于阿拉伯语标注模型的训练和测试,以及需要完全注音文本的阿拉伯语自然语言处理任务。
创建时间:
2025-04-27
原始信息汇总
Sadeed Tashkeela阿拉伯语变音符号数据集
数据集概述
- 用途:阿拉伯语变音符号标注模型的训练和评估
- 语言:阿拉伯语(ar)
- 规模分类:1M<n<10M
- 任务类别:文本生成(text-generation)
数据组成
训练集
- 来源:清理后的Tashkeela语料库(约7500万单词,主要包含古典阿拉伯语,约1.15%现代标准阿拉伯语)
- 样本数量:1,042,698
- 总单词数:约5300万
- 文件大小:924,672,739字节
测试集
- 来源:修正后的Fadel Tashkeela测试集
- 样本数量:2,485
- 文件大小:1,789,952字节
- 特点:根据标准阿拉伯语规则进行音系一致性修正
数据集特征
- 字段:
- filename(字符串)
- cleaned_sentence(字符串)
- 特点:
- 完全标准化的阿拉伯语文本
- 最小化缺失变音符号
- 分块为连贯样本(50-60个单词)
- 保留句法和上下文依赖性
预处理细节
文本清理
- 统一变音符号风格
- 修正常见错误的变音符号
- 根据标准音系规则解决辅音簇规则不一致问题
- 应用全面的预处理流程(基于Kuwain阿拉伯语清理器)
文本分块
- 分割为50-60个单词的样本
- 采用分层策略优先考虑自然语言断点
- 保留文本块的句法和上下文连贯性
数据集过滤
- 排除超过两个未标注变音符号单词的样本
- 移除包含三个或以上部分标注变音符号单词的样本
- 与Fadel Tashkeela测试集的重叠率降至0.4%
下载信息
- 下载大小:354,596,619字节
- 数据集总大小:926,462,691字节
使用场景
- 阿拉伯语变音符号标注模型训练
- 变音符号系统的评估
- 需要完全发音文本的阿拉伯语NLP任务
引用信息
bibtex @misc{aldallal2025sadeedadvancingarabicdiacritization, title={Sadeed: Advancing Arabic Diacritization Through Small Language Model}, author={Zeina Aldallal and Sara Chrouf and Khalil Hennara and Mohamed Motaism Hamed and Muhammad Hreden and Safwan AlModhayan}, year={2025}, eprint={2504.21635}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.21635}, }
许可信息
- 许可类型:仅限研究用途
- 原始许可:需参考Tashkeela语料库许可条款
搜集汇总
数据集介绍

构建方式
Sadeed_Tashkeela数据集的构建基于Tashkeela语料库和Fadel Tashkeela测试集的优化版本,专注于阿拉伯语标音任务。训练集源自Tashkeela语料库的清理版本,包含约75百万词,其中古典阿拉伯语占主导,现代标准阿拉伯语占比约1.15%。测试集则通过修正Fadel Tashkeela测试集中的音韵不一致问题,确保符合标准阿拉伯语规则。预处理过程中,统一了标音风格,纠正了常见错误,并通过分段策略将文本划分为50-60词的连贯样本,以保持句法和上下文依赖性。
特点
该数据集以其高质量和一致性著称,所有文本均经过全面规范化处理,标音缺失率极低。样本被精心划分为50-60词的块,确保句法和语境连贯性。测试集经过严格筛选,与训练集的重叠率仅为0.4%,显著提升了评估的可靠性。此外,数据集还保留了非阿拉伯字符和符号,适用于多种阿拉伯语自然语言处理任务。
使用方法
Sadeed_Tashkeela数据集适用于阿拉伯语标音模型的训练和评估。研究人员可利用其清理后的训练集优化模型性能,并通过修正后的测试集验证模型效果。数据集的设计特别注重语境连贯性,适合需要完全标音文本的阿拉伯语NLP任务。使用前建议查阅相关许可协议,确保符合研究用途的要求。
背景与挑战
背景概述
Sadeed_Tashkeela数据集是专为阿拉伯语变音符号标注任务设计的大规模高质量语料库,由Zeina Aldallal等研究人员于2025年构建。该数据集基于经典的Tashkeela语料库和经过优化的Fadel Tashkeela测试集,旨在解决阿拉伯语自然语言处理中的关键挑战——自动变音符号标注问题。阿拉伯语作为形态复杂的闪族语言,其变音符号对语义理解和语音合成具有决定性作用,而该数据集通过提供约5300万词的标注数据,显著提升了该领域模型的训练效果。其语料主要涵盖古典阿拉伯语(占比98.85%)和少量现代标准阿拉伯语,经过严格的文本清洗和标准化处理,已成为阿拉伯语变音符号研究的重要基准资源。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,阿拉伯语变音符号标注需解决复杂的形态学变化和上下文依赖问题,如相邻辅音无介入元音(iltiqā` as-sākinayn)等特殊语音现象的标准化标注;在构建过程中,研究人员需克服原始语料中约75万词语料的不一致性,包括统一变音风格、纠正高频错误标注,以及通过分层策略将文本分割为50-60词的连贯片段以保持句法关联性。测试集的构建尤其严谨,需确保与训练集仅有0.4%的重叠率,并通过排除超过两个未标注词或三个部分标注词的样本来维持数据纯净度。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,Sadeed_Tashkeela数据集作为高质量的阿拉伯语标音语料库,主要用于训练和评估阿拉伯语自动标音模型。该数据集通过精心清理和标准化处理,保留了古典阿拉伯语和现代标准阿拉伯语的标音特征,为研究者提供了可靠的基准数据。其分块处理策略确保了文本的句法和语境连贯性,使得模型能够学习到更准确的标音规则。
实际应用
在实际应用中,Sadeed_Tashkeela数据集被广泛用于阿拉伯语文本的自动标音系统开发,例如在语音合成、机器翻译和文本朗读等场景中。其高质量的标音数据使得生成的文本更符合阿拉伯语的语音规则,提升了自然语言处理系统的性能和用户体验。
衍生相关工作
基于Sadeed_Tashkeela数据集,研究者开发了多种先进的阿拉伯语标音模型,例如使用小型语言模型进行标音优化的方法。这些工作进一步推动了阿拉伯语自然语言处理领域的发展,并为后续研究提供了重要的参考和基准。
以上内容由遇见数据集搜集并总结生成



