indonlp/NusaX-MT

Name: indonlp/NusaX-MT
Creator: indonlp
Published: 2023-01-24 17:21:03
License: 暂无描述

Hugging Face2023-01-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/indonlp/NusaX-MT

下载链接

链接失效反馈

官方服务：

资源简介：

NusaX-MT是一个高质量的多语言平行语料库，涵盖了12种语言，包括印尼语、英语和10种印尼本地语言，即亚齐语、巴厘语、班贾尔语、布吉语、马都拉语、米南加保语、爪哇语、恩加朱语、巽他语和托巴巴塔克语。NusaX-MT是一个用于训练和基准测试机器翻译模型的平行语料库，支持10种印尼本地语言与印尼语和英语之间的翻译。数据以CSV格式呈现，每种语言一列。

NusaX-MT is a high-quality multilingual parallel corpus covering 12 languages, including Indonesian, English, and 10 local Indonesian languages, namely Acehnese, Balinese, Banjar, Buginese, Madurese, Minangkabau, Javanese, Ngaju, Sundanese, and Toba Batak. NusaX-MT is a parallel corpus designed for training and benchmarking machine translation models, supporting translation between the 10 local Indonesian languages and both Indonesian and English. The data is presented in CSV format, with one column per language.

提供机构：

indonlp

原始信息汇总

数据集概述

数据集基本信息

名称: NusaX-MT
标注创建者: 专家生成
语言创建者: 专家生成
许可证: CC-BY-SA-4.0
多语言性: 多语言
语言:
- ace (亚齐语)
- ban (巴厘语)
- bjn (班查尔语)
- bug (布吉语)
- en (英语)
- id (印尼语)
- jv (爪哇语)
- mad (马都拉语)
- min (米南卡保语)
- nij (恩加朱语)
- su (巽他语)
- bbc (托巴语)
数据集大小: 10K<n<100K
源数据集: 原始数据
任务类别: 翻译

数据集特征

id: 字符串
text_1: 字符串
text_2: 字符串
text_1_lang: 字符串
text_2_lang: 字符串

数据集摘要

NusaX-MT 是一个高质量的多语言平行语料库，涵盖12种语言，包括印尼语、英语和10种印尼地方语言，即亚齐语、巴厘语、班查尔语、布吉语、马都拉语、米南卡保语、爪哇语、恩加朱语、巽他语和托巴语。该数据集以csv格式呈现，每种语言对应一列。

支持的任务和排行榜

印尼语言的机器翻译

数据集创建

策划理由

由于印尼有超过700种语言，但针对印尼语言的自然语言处理研究和资源相对匮乏。因此，我们创建了这个数据集，以支持未来对印尼未被充分代表的语言的研究。

源数据

初始数据收集和规范化

NusaX-MT 是一个由母语者专家翻译的印尼语言机器翻译数据集。

源语言生产者

数据由人类（母语者）生产。

标注

标注过程

NusaX-MT 源自 SmSA，这是印尼情感分析最大的公开可用数据集。它包含来自多个在线平台的评论和评论。为了确保数据集的质量，我们通过手动审查所有句子来过滤掉任何辱骂性语言和个人身份信息。为了确保标签分布的平衡，我们通过分层抽样随机选择了1,000个样本，然后将它们翻译成相应的语言。

标注者

印尼语和相应语言的母语者。标注者根据翻译样本的数量获得报酬。

个人和敏感信息

个人身份信息已被移除。

使用数据的注意事项

数据集的社会影响

更多信息需补充

偏见讨论

NusaX 是从评论文本中创建的。这些数据源可能包含一些偏见。

其他已知限制

无其他已知限制

附加信息

许可信息

CC-BY-SA 4.0。

署名 — 您必须给出适当的署名，提供指向许可证的链接，并指出是否进行了更改。您可以用任何合理的方式这样做，但不以任何方式暗示许可人认可您或您的使用。
相同方式共享 — 如果您 remix、变换或构建此材料，您必须基于与原始材料相同的许可证分发您的贡献。
无附加限制 — 您不得应用法律条款或技术措施，这些法律条款或技术措施在法律上限制他人进行许可证允许的任何事情。

引用信息

@misc{winata2022nusax, title={NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages}, author={Winata, Genta Indra and Aji, Alham Fikri and Cahyawijaya, Samuel and Mahendra, Rahmad and Koto, Fajri and Romadhony, Ade and Kurniawan, Kemal and Moeljadi, David and Prasojo, Radityo Eko and Fung, Pascale and Baldwin, Timothy and Lau, Jey Han and Sennrich, Rico and Ruder, Sebastian}, year={2022}, eprint={2205.15960}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @afaji 添加此数据集。

搜集汇总

数据集介绍

构建方式

NusaX-MT数据集的构建基于对印度尼西亚多种语言的专家翻译，涵盖了12种语言，包括印度尼西亚语、英语以及10种印度尼西亚地方语言。数据集的原始数据来源于SmSA，这是一个公开的印度尼西亚情感分析数据集，包含了来自多个在线平台的评论和评价。为了确保数据质量，研究团队通过人工审查移除了所有包含辱骂性语言和个人身份信息的内容。随后，通过分层抽样方法随机选取1000个样本，并由母语者将其翻译成相应的语言，从而形成了高质量的多语言平行语料库。

特点

NusaX-MT数据集的主要特点在于其多语言性和高质量的平行语料。该数据集支持12种语言之间的翻译任务，涵盖了印度尼西亚语、英语以及10种地方语言，为机器翻译模型提供了丰富的训练和评估资源。此外，数据集通过专家人工翻译和严格的质量控制，确保了翻译的准确性和语言的多样性，特别适合用于支持印度尼西亚地方语言的自然语言处理研究。

使用方法

NusaX-MT数据集适用于机器翻译任务，用户可以通过加载该数据集来训练和评估多语言翻译模型。数据集以CSV格式提供，包含每对语言的平行文本及其对应的语言标识。使用时，用户可以根据需要选择特定的语言对进行模型训练，或利用整个数据集进行多语言翻译模型的开发。数据集的许可证为CC-BY-SA 4.0，使用时需遵守相应的版权规定，并提供适当的引用信息。

背景与挑战

背景概述

NusaX-MT数据集是由IndoNLP团队创建的高质量多语言平行语料库，旨在支持印度尼西亚语言的机器翻译研究。该数据集涵盖了12种语言，包括印度尼西亚语、英语以及10种印度尼西亚的本土语言，如亚齐语、巴厘语、班查尔语等。NusaX-MT的创建源于对印度尼西亚语言资源匮乏的认知，尤其是对这些本土语言在自然语言处理（NLP）研究中的不足。通过提供高质量的平行语料，该数据集为未来的多语言机器翻译研究奠定了基础，并有望推动印度尼西亚本土语言的NLP技术发展。

当前挑战

NusaX-MT数据集在构建过程中面临多项挑战。首先，印度尼西亚拥有超过700种语言，其中许多语言在NLP研究中缺乏足够的资源，这使得数据集的创建需要克服语言多样性和资源稀缺性的问题。其次，数据集的注释过程依赖于母语者的专业翻译，确保了数据的高质量，但也增加了成本和时间投入。此外，数据集的平衡性和无偏性也是一个挑战，尤其是在从评论文本中提取数据时，可能存在潜在的偏见。最后，如何确保数据集中不包含个人敏感信息，同时保持数据的多样性和代表性，也是构建过程中需要解决的问题。

常用场景

经典使用场景

NusaX-MT数据集的经典使用场景主要集中在多语言机器翻译任务中，尤其是在印度尼西亚语及其地方语言之间的翻译。该数据集涵盖了12种语言，包括印度尼西亚语、英语以及10种印度尼西亚地方语言，如亚齐语、巴厘语、班查尔语等。通过使用该数据集，研究者和开发者可以训练和评估机器翻译模型，以实现这些语言之间的准确翻译，从而促进跨语言交流和文化理解。

实际应用

NusaX-MT数据集在实际应用中具有广泛的潜力，特别是在跨语言信息交流和文化传播领域。例如，该数据集可以用于开发多语言翻译工具，帮助印度尼西亚地方语言的使用者与外界进行有效沟通。此外，该数据集还可应用于教育、旅游、政府服务等多个领域，通过提供准确的语言翻译服务，促进不同语言群体之间的交流与合作，提升社会服务的质量和效率。

衍生相关工作

NusaX-MT数据集的发布激发了大量相关研究工作，特别是在多语言机器翻译和低资源语言处理领域。例如，基于该数据集的研究者们开发了多种先进的翻译模型，提升了印度尼西亚语及其地方语言的翻译质量。此外，该数据集还促进了跨语言情感分析、文本生成等领域的研究，推动了印度尼西亚地方语言在NLP中的应用和发展。这些衍生工作不仅丰富了NLP领域的研究内容，还为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集