five

M-A-D/DarijaBridge

收藏
Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/M-A-D/DarijaBridge
下载链接
链接失效反馈
官方服务:
资源简介:
DarijaBridge是一个社区驱动的双语语料库,专为Darija(摩洛哥阿拉伯语)和英语之间的机器翻译任务设计。由MAD-Community创建,涵盖了广泛的摩洛哥方言和口语表达,反映了摩洛哥的语言多样性。该数据集对于开发和微调领先的机器翻译模型(如NLLB)特别有价值,可以提高翻译的准确性和文化相关性。

DarijaBridge是一个社区驱动的双语语料库,专为Darija(摩洛哥阿拉伯语)和英语之间的机器翻译任务设计。由MAD-Community创建,涵盖了广泛的摩洛哥方言和口语表达,反映了摩洛哥的语言多样性。该数据集对于开发和微调领先的机器翻译模型(如NLLB)特别有价值,可以提高翻译的准确性和文化相关性。
提供机构:
M-A-D
原始信息汇总

DarijaBridge 数据集概述

数据集基本信息

  • 数据集名称: DarijaBridge
  • 版本: 1.0
  • 创建者: MAD-Community
  • 语言: Darija(摩洛哥阿拉伯语)和英语
  • 总词数: 41,845,467(在 sentence 列中)
  • 任务: 机器翻译

数据集摘要

DarijaBridge 是一个社区驱动的双语语料库,旨在用于 Darija(摩洛哥阿拉伯语)和英语之间的机器翻译任务。由 MAD-Community 创建,涵盖了摩洛哥“方言”和口语表达的广泛范围,反映了摩洛哥的语言多样性。该数据集对于开发和微调领先的机器翻译模型(如 NLLB)特别有价值,可以提高翻译的准确性和文化相关性。

预期用途

该数据集旨在用于机器翻译研究和应用,特别是那些关注像 Darija 这样的非主流语言和方言的研究。它适用于训练模型在英语和 Darija 之间进行翻译,并且对于语言研究和促进跨文化交流至关重要。

数据收集和准备

数据来源

DarijaBridge 中的数据由 MAD-Community 贡献,包括母语为 Darija 的说话人和语言专家。贡献是持续进行的,数据集定期更新新的翻译和语言输入。

方法论

数据通过社区贡献收集,确保方言和使用的多样性。Darija 中的每个句子都与其英语翻译配对,并由语言专家和专家模型(如 GPT-4)审查和纠正以确保准确性。

数据集结构

数据字段

  • sentence:包含原始的 Darija 句子。
  • translation:包含 Darija 句子的相应英语翻译。
  • quality:表示句子列中文本的质量(1 表示高质量)。
  • metadata:包括额外的信息,如语言、方言、来源等。

数据分割

数据集目前没有分割成标准的训练、验证和测试集。用户可以根据其特定的研究或应用需求创建分割。

附加信息

限制和偏差

由于数据集是社区贡献的,翻译质量和风格可能会有所不同。虽然努力标准化和审查翻译,但用户应注意潜在的不一致性。

许可信息

DarijaBridge 数据集根据 Apache 2.0 许可证提供。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DarijaBridge是一个由MAD-Community创建的社区驱动双语语料库,专门用于摩洛哥阿拉伯语(Darija)和英语之间的机器翻译任务。该数据集涵盖广泛的摩洛哥方言和口语表达,总令牌数超过4100万,包含约124万行数据,采用Apache 2.0许可证,旨在提升翻译模型的文化相关性和准确性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作