M-A-D/DarijaBridge
收藏Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/M-A-D/DarijaBridge
下载链接
链接失效反馈官方服务:
资源简介:
DarijaBridge是一个社区驱动的双语语料库,专为Darija(摩洛哥阿拉伯语)和英语之间的机器翻译任务设计。由MAD-Community创建,涵盖了广泛的摩洛哥方言和口语表达,反映了摩洛哥的语言多样性。该数据集对于开发和微调领先的机器翻译模型(如NLLB)特别有价值,可以提高翻译的准确性和文化相关性。
DarijaBridge是一个社区驱动的双语语料库,专为Darija(摩洛哥阿拉伯语)和英语之间的机器翻译任务设计。由MAD-Community创建,涵盖了广泛的摩洛哥方言和口语表达,反映了摩洛哥的语言多样性。该数据集对于开发和微调领先的机器翻译模型(如NLLB)特别有价值,可以提高翻译的准确性和文化相关性。
提供机构:
M-A-D
原始信息汇总
DarijaBridge 数据集概述
数据集基本信息
- 数据集名称: DarijaBridge
- 版本: 1.0
- 创建者: MAD-Community
- 语言: Darija(摩洛哥阿拉伯语)和英语
- 总词数: 41,845,467(在 sentence 列中)
- 任务: 机器翻译
数据集摘要
DarijaBridge 是一个社区驱动的双语语料库,旨在用于 Darija(摩洛哥阿拉伯语)和英语之间的机器翻译任务。由 MAD-Community 创建,涵盖了摩洛哥“方言”和口语表达的广泛范围,反映了摩洛哥的语言多样性。该数据集对于开发和微调领先的机器翻译模型(如 NLLB)特别有价值,可以提高翻译的准确性和文化相关性。
预期用途
该数据集旨在用于机器翻译研究和应用,特别是那些关注像 Darija 这样的非主流语言和方言的研究。它适用于训练模型在英语和 Darija 之间进行翻译,并且对于语言研究和促进跨文化交流至关重要。
数据收集和准备
数据来源
DarijaBridge 中的数据由 MAD-Community 贡献,包括母语为 Darija 的说话人和语言专家。贡献是持续进行的,数据集定期更新新的翻译和语言输入。
方法论
数据通过社区贡献收集,确保方言和使用的多样性。Darija 中的每个句子都与其英语翻译配对,并由语言专家和专家模型(如 GPT-4)审查和纠正以确保准确性。
数据集结构
数据字段
sentence:包含原始的 Darija 句子。translation:包含 Darija 句子的相应英语翻译。quality:表示句子列中文本的质量(1 表示高质量)。metadata:包括额外的信息,如语言、方言、来源等。
数据分割
数据集目前没有分割成标准的训练、验证和测试集。用户可以根据其特定的研究或应用需求创建分割。
附加信息
限制和偏差
由于数据集是社区贡献的,翻译质量和风格可能会有所不同。虽然努力标准化和审查翻译,但用户应注意潜在的不一致性。
许可信息
DarijaBridge 数据集根据 Apache 2.0 许可证提供。
搜集汇总
数据集介绍

背景与挑战
背景概述
DarijaBridge是一个由MAD-Community创建的社区驱动双语语料库,专门用于摩洛哥阿拉伯语(Darija)和英语之间的机器翻译任务。该数据集涵盖广泛的摩洛哥方言和口语表达,总令牌数超过4100万,包含约124万行数据,采用Apache 2.0许可证,旨在提升翻译模型的文化相关性和准确性。
以上内容由遇见数据集搜集并总结生成



