Darija Open Dataset (DODa)

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/darija-open-dataset/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Darija Open Dataset (DODa)是一个致力于摩洛哥方言的开源项目，包含约150,000条记录，是Darija与英语翻译中最大的开源协作项目，用于自然语言处理目的。该数据集不仅进行语义分类，还进行句法分类，提供不同拼写的单词，包括动词到名词和男性到女性的对应关系，包含数百个动词在不同时态的变位，以及超过86,000个翻译句子。此外，考虑到Darija在不同上下文中的拼写多样性，使其成为语言爱好者和NLP实践者的多功能资源。数据集包含拉丁字母和阿拉伯字母的条目，反映了不同来源和应用中的语言变异和偏好。

The Darija Open Dataset (DODa) is an open-source initiative dedicated to the Moroccan dialect, encompassing approximately 150,000 records, making it the largest open-source collaborative project for Darija-to-English translation aimed at natural language processing purposes. This dataset not only performs semantic classification but also syntactic classification, offering words with different spellings, including correspondences from verbs to nouns and from masculine to feminine forms, featuring conjugations of hundreds of verbs across various tenses, and including over 86,000 translated sentences. Moreover, considering the orthographic diversity of Darija across different contexts, it serves as a versatile resource for language enthusiasts and NLP practitioners. The dataset includes entries in both Latin and Arabic scripts, reflecting linguistic variations and preferences from diverse sources and applications.

创建时间：

2021-02-05

原始信息汇总

数据集概述

数据集名称

Darija Open Dataset (DODa)

数据集描述

DODa是一个专注于摩洛哥方言的开源项目，包含约150,000条记录，是目前最大的Darija与英语互译的开源协作项目，主要用于自然语言处理目的。
数据集不仅进行语义分类，还采用句法分类，提供不同拼写的单词，包括动词到名词和阳性到阴性的对应关系，包含数百个动词在不同时态的变位，以及超过86,000个翻译句子。
考虑到Darija拼写的多样性，数据集包括拉丁字母和阿拉伯字母的条目，反映不同来源和应用中的语言变异和偏好。

数据集目标

旨在将DODa建立为Darija自然语言处理的首选参考，通过提供一个强大且多样化的数据集，促进满足摩洛哥社区特定语言需求的NLP应用的开发。

数据集状态

部分数据集仍在审查或进行中，特别是在sentences.csv文件中。

数据集贡献指南

贡献者可以直接通过AtlasIA界面开始贡献，或通过GitHub的Issues进行。
贡献步骤包括选择问题、分派任务、分叉数据集仓库、翻译和修正拼写、提交Pull Request。

数据集使用指南

提供了详细的拼写和语法规则，以确保数据集的一致性和准确性。
建议在每行中始终从最常用的单词形式开始，并为相似的单词变体保留单独的行。

数据集工具

PyDODa：一个Python库，简化了DODa数据集的访问和分析，提供了访问各种数据集类别、检索拼写和翻译的直观界面。

使用条款

允许免费用于研究、个人项目和教育目的。
商业用途或其他未涵盖的使用需联系版权持有者讨论许可选项。

引用信息

提供了两个引用条目，分别描述了数据集的演变和基本信息。

搜集汇总

数据集介绍

构建方式

Darija Open Dataset (DODa) 的构建基于对摩洛哥方言（Darija）与英语之间的翻译需求，通过大规模的协作项目汇集了约15万条数据。该数据集不仅涵盖了语义分类，还引入了句法分类，展示了不同拼写方式的词汇，并提供了动词与名词、阳性与阴性之间的对应关系。此外，数据集还包括数百个动词在不同时态中的变位，以及超过86,000条翻译句子。为了反映Darija在不同语境中的拼写多样性，数据集同时收录了拉丁字母和阿拉伯字母的条目，确保了其广泛适用性。

特点

DODa 数据集的显著特点在于其多样性和全面性。它不仅包含了大量的词汇和句子翻译，还特别关注了Darija在不同语境中的拼写差异，提供了动词变位和性别对应等详细信息。此外，数据集的条目涵盖了从日常用语到专业术语的广泛范围，使其成为自然语言处理（NLP）领域中研究摩洛哥方言的宝贵资源。通过结合拉丁和阿拉伯字母的拼写，DODa 能够满足不同应用场景的需求，为语言学者和NLP从业者提供了丰富的语言素材。

使用方法

DODa 数据集的使用可以通过其官方提供的 Python 库 PyDODa 进行，该库简化了数据集的访问和分析过程。用户可以通过 pip 安装 PyDODa，并利用其提供的接口轻松获取词汇的Darija翻译、英语翻译以及拼写变体等信息。例如，用户可以指定语义类别（如动物）并查询特定词汇的翻译。此外，数据集的结构化设计使得用户能够方便地进行语义和句法分析，适用于多种NLP任务，如机器翻译、文本分类等。

背景与挑战

背景概述

Darija Open Dataset (DODa) 是一个致力于摩洛哥方言的开源项目，由Aissam Outchakoucht和Hamza Es-Samaali等研究人员主导，旨在为自然语言处理（NLP）领域提供一个全面的摩洛哥方言与英语翻译的数据集。该数据集包含约150,000条记录，涵盖语义分类、拼写变体、动词与名词的对应关系、动词的时态变化以及超过86,000条翻译句子。DODa不仅考虑了不同上下文中的拼写多样性，还提供了拉丁字母和阿拉伯字母的双重表示，反映了摩洛哥方言的多样性和复杂性。通过这一数据集，研究人员和开发者能够更好地理解和处理摩洛哥方言，推动NLP技术在该地区的应用与发展。

当前挑战

Darija Open Dataset (DODa) 在构建过程中面临多项挑战。首先，摩洛哥方言的多样性和拼写变体使得数据的标准化和一致性成为一个难题。其次，动词的时态变化和名词的性别对应关系增加了数据处理的复杂性。此外，数据集的部分内容仍在审查和完善中，特别是在*sentences.csv*文件中，这要求社区的持续贡献以确保数据的准确性和完整性。最后，如何有效地整合和利用这些多样化的语言特征，以支持NLP应用的开发，是该数据集面临的一个重要挑战。

常用场景

经典使用场景

Darija Open Dataset (DODa) 的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是在摩洛哥方言（Darija）与英语之间的翻译任务中。该数据集提供了丰富的词汇、句法和语义信息，使得研究人员和开发者能够构建高效的机器翻译系统、语言模型以及语音识别工具。通过利用DODa，研究者可以深入探索Darija的语法结构和词汇多样性，从而推动针对摩洛哥方言的NLP应用的发展。

衍生相关工作

Darija Open Dataset (DODa) 的推出催生了一系列相关的经典工作，尤其是在摩洛哥方言的自然语言处理领域。基于DODa，研究者们开发了多种机器翻译模型，显著提升了Darija与英语之间的翻译质量。此外，DODa还启发了对Darija语法结构和词汇变体的深入研究，推动了语音识别和文本分类技术的进步。Pydoda库的开发也是DODa衍生的重要成果之一，它为研究人员和开发者提供了便捷的接口，进一步促进了DODa在实际应用中的推广和使用。

数据集最近研究