DAH (DAtaset Hassaniya)
收藏github2025-10-20 更新2025-10-21 收录
下载链接:
https://github.com/Hassan-IA/DAH
下载链接
链接失效反馈官方服务:
资源简介:
DAH(哈桑尼亚数据集)是首个公开可用的哈桑尼亚阿拉伯语开源数据集。哈桑尼亚是毛里塔尼亚使用的一种阿拉伯语方言。该数据集是一个平行语料库,每个条目包含一个英语句子及其哈桑尼亚语翻译,支持机器翻译、语言研究和语言保护。数据来源于Tatoeba项目,经过质量审查,采用CC-BY-4.0许可。
DAH (Hassaniya Dataset) is the first publicly available open-source dataset for the Hassaniya Arabic language. Hassaniya is an Arabic dialect spoken in Mauritania. This dataset is a parallel corpus where each entry contains an English sentence and its corresponding Hassaniya translation, supporting machine translation, linguistic research and language conservation. The data is sourced from the Tatoeba Project, has undergone quality review, and is licensed under CC-BY-4.0.
创建时间:
2025-10-14
原始信息汇总
DAH (DAtaset Hassaniya) 数据集概述
项目简介
DAH (DAtaset Hassaniya) 是首个公开可用的哈桑尼亚阿拉伯语开源数据集。哈桑尼亚是毛里塔尼亚使用的阿拉伯语方言,该语言在数字资源中代表性不足。本项目旨在通过创建高质量数据集填补这一空白。
主要目标
- 机器翻译:开发英语与哈桑尼亚语之间的准确翻译工具
- 语言学研究:为研究哈桑尼亚方言语法、词汇和语言特点提供结构化数据
- 语言保护:以数字格式记录哈桑尼亚语,供哈桑尼亚语使用群体和全球用户访问
数据集详情
数据结构
平行语料库结构,每条记录包含:
english:英语源语句hassaniya-ar:传统阿拉伯文字书写的哈桑尼亚语翻译hassaniya-en:拉丁文字书写的哈桑尼亚语翻译(Arabizi)
数据特征
- 来源:基于Tatoeba项目(https://tatoeba.org)句子改编
- 质量:所有条目均经Hassan-IA社区创始人审核
- 许可:采用CC-BY-4.0许可协议
创建者
- Ahlam Abdelkader
- Emani Babe
- Oumoukelthoum Sidenna
哈桑尼亚拉丁文字转写系统
采用标准化转写系统将阿拉伯文字转换为拉丁文字:
| 阿拉伯字母 | 转写符号 |
|---|---|
| ء | 2 |
| ح | 7 |
| خ | 5 |
| ذ | 4 |
| ط | 6 |
| ظ | 8 |
| ق | 9 |
| ع | 3 |
| غ | gh |
| ض | dh |
| گ | G |
参与贡献
- Fork项目仓库
- 访问
data/contributions/文件夹 - 选择CSV文件进行翻译或审核
- 按照转写指南翻译、审核或修正条目
- 提交更改并创建Pull Request
搜集汇总
数据集介绍

构建方式
在阿拉伯语方言资源稀缺的背景下,DAH数据集采用平行语料库构建模式,每条数据包含英语原句与哈桑尼亚语的双重译文。该数据集以Tatoeba项目为源语料基础,通过哈桑尼亚语母语专家团队进行严格的质量审核,确保翻译的准确性与语言的地道性。构建过程中特别注重语言变体的自然呈现,如元音拼写的多样性,真实反映了数字环境下年轻使用者的语言习惯。
特点
作为首个公开的哈桑尼亚语数据集,DAH最显著的特点是采用三列式数据结构:英语原句、阿拉伯字母书写的哈桑尼亚译文,以及拉丁化转写的哈桑尼亚译文。这种设计不仅保留了传统书写形式,还通过数字与字母组合的转写系统,精确呈现了阿拉伯语特有的语音特征。数据集遵循CC-BY-4.0开放许可协议,为学术研究和商业应用提供了灵活的使用空间。
使用方法
研究者可通过GitHub仓库直接访问数据集文件,其中平行句对适用于机器翻译模型的训练与评估。对于语言学研究者,可借助拉丁转写列分析哈桑尼亚语的音系特征,而阿拉伯原文列则便于研究书写规范。社区贡献机制允许用户通过提交翻译修订或新增句对来扩展数据集,所有修改需经过严格的质量审核流程方可并入主分支。
背景与挑战
背景概述
在阿拉伯语方言资源稀缺的背景下,DAH数据集于2023年由哈桑-IA社区的Ahlam Abdelkader、Emani Babe和Oumoukelthoum Sidenna等研究者共同创建。作为首个公开的哈桑尼亚阿拉伯语平行语料库,该数据集聚焦于解决毛里塔尼亚地区方言在自然语言处理领域的表征空白。通过构建英语与哈桑尼亚语的双语对照语料,不仅为机器翻译系统提供了关键训练数据,更推动了濒危语言保护与计算语言学研究的交叉融合,对全球低资源语言技术发展具有里程碑意义。
当前挑战
构建过程中面临双重挑战:在领域问题层面,需克服哈桑尼亚语字符音素与拉丁字母的非对称映射难题,例如通过数字符号表征阿拉伯语特有辅音;在技术实施层面,既要保持传统阿拉伯文字与拉丁化转写(Arabizi)的并行一致性,又需兼容年轻使用者实际书写中‘ou/u’等元音变体的动态特征。此外,基于社区协作的质控机制要求对塔托贝达项目原始语句进行跨文化适配,确保语言样本兼具语言学规范与生活化真实性。
常用场景
经典使用场景
在阿拉伯语方言资源稀缺的背景下,DAH数据集作为首个哈桑尼亚阿拉伯语平行语料库,其经典应用场景聚焦于机器翻译模型的训练与评估。该数据集通过精心构建的英语-哈桑尼亚双语对照文本,为跨语言自然语言处理任务提供了标准化实验平台,尤其在低资源语言技术开发领域具有里程碑意义。研究者可借助该数据训练神经机器翻译系统,探索方言与标准语之间的语义映射规律,推动边缘语言数字化进程。
解决学术问题
本数据集有效解决了哈桑尼亚语在计算语言学领域的三大核心问题:其一,填补了该方言在数字资源方面的空白,为语言本体研究提供结构化数据支撑;其二,通过双文字标注体系(阿拉伯文字与拉丁转写)破解了方言音系转写标准化难题;其三,为低资源语言机器翻译建立了可复现的基准测试框架。这些突破不仅深化了对马格里布阿拉伯语变体的认知,更为全球6000余种濒危语言的数字化保存提供了技术范式。
衍生相关工作
该数据集的发布催生了系列延伸研究,其中最具代表性的是哈桑尼亚语语音识别系统Hassan-ASR的研发,其声学模型训练直接受益于本数据的转写规范。此外,摩洛哥穆罕默德五世大学基于本数据集开展的方言地理信息系统研究,通过语言特征可视化揭示了撒哈拉地区语言接触现象。近期更有学者将本数据与北非其他阿拉伯语变体语料进行对比分析,构建出首个马格里布方言演化谱系模型。
以上内容由遇见数据集搜集并总结生成



