Darija Open Dataset (DODa)
收藏arXiv2024-05-14 更新2024-07-23 收录
下载链接:
https://huggingface.co/datasets/atlasia/darija-translation
下载链接
链接失效反馈官方服务:
资源简介:
Darija Open Dataset (DODa) 是一个针对摩洛哥方言Darija的开源项目,旨在提升自然语言处理能力。该数据集包含约100,000条记录,是Darija-English翻译领域最大的合作项目。数据集内容丰富,包括语义和句法分类、拼写变体、多时态动词变位以及数以万计的翻译句子。数据集支持拉丁和阿拉伯字母,反映不同来源和应用中的语言变异和偏好。DODa的创建旨在解决Darija语言资源稀缺的问题,支持摩洛哥社区的语言需求,并可能扩展到邻近地区的类似方言。数据集的应用领域广泛,旨在通过翻译技术,使Darija能够利用现有的NLP技术和基础设施,加速高质量NLP工具的开发,确保Darija在全球数字景观中的整合。
Darija Open Dataset (DODa) is an open-source initiative targeting the Moroccan Darija dialect, aimed at enhancing natural language processing (NLP) capabilities. Containing approximately 100,000 records, it stands as the largest collaborative project in the Darija-English translation domain. The dataset boasts rich content, covering semantic and syntactic classifications, spelling variations, multi-tense verb conjugations, as well as tens of thousands of translated sentence pairs. It supports both Latin and Arabic scripts, reflecting linguistic variations and preferences across different sources and use cases. The development of DODa aims to address the scarcity of Darija language resources, support the linguistic needs of the Moroccan community, and potentially extend to similar dialects in neighboring regions. With a wide range of application scenarios, the dataset intends to enable Darija to leverage existing NLP technologies and infrastructure via translation technologies, accelerate the development of high-quality NLP tools, and ensure the integration of Darija into the global digital landscape.
提供机构:
未提及
创建时间:
2024-05-14
原始信息汇总
数据集概述
项目概览
- 翻译接口:使用用户友好的AtlasIA界面,展示Darija句子供翻译,贡献者提供英语或法语的翻译。
- 附加功能:贡献者可以选择提供Darija句子的音频录音,以及与翻译相关的置信度。
- 数据存储:收集的数据(包括Darija句子、翻译、音频录音和置信度)最初存储在Firestore DB中,经过处理后移至本仓库以公开。
如何贡献
- 访问:访问AtlasIA。
- 翻译句子:阅读提供的句子,选择翻译语言(EN/FR),并将句子翻译成所选语言。
- 可选功能:贡献者可以录制原始句子的音频(可选)并提交。
- 报告错误句子:如果遇到错误句子,可以使用“报告”按钮发送警报。
- 预处理:在将数据添加到本仓库之前,我们的团队将预处理数据以确保数据质量和一致性。
- 欢迎贡献:我们邀请对Darija-English翻译感兴趣的个人贡献翻译或改进数据集。
数据集结构
数据集以结构化格式组织,每个条目包含:
- Darija句子
- 英语或法语翻译
- 可选的音频录音
- 置信度
许可证
本数据集在CC BY-NC-SA 4.0许可下发布,对所有人开放用于研究和开源工作。



