SEACrowd/ntrex_128

Name: SEACrowd/ntrex_128
Creator: SEACrowd
Published: 2024-06-24 13:23:01
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/ntrex_128

下载链接

链接失效反馈

官方服务：

资源简介：

NTREX-128是一个用于机器翻译评估的数据集，包含从英语翻译成128种目标语言的123个文档（1,997个句子，42k单词）。其中9种语言是东南亚地区的主要语言，包括缅甸语、菲律宾语、苗语、印度尼西亚语、高棉语、老挝语、马来语、泰语和越南语。

NTREX-128, a data set for machine translation (MT) evaluation, includes 123 documents (1,997 sentences, 42k words) translated from English into 128 target languages. 9 languages are natively spoken in Southeast Asia, i.e., Burmese, Filipino, Hmong, Indonesian, Khmer, Lao, Malay, Thai, and Vietnamese.

提供机构：

SEACrowd

原始信息汇总

Ntrex 128 数据集概述

基本信息

名称: Ntrex 128
任务类别: 机器翻译
语言:
- 缅甸语 (mya)
- 菲律宾语 (fil)
- 印度尼西亚语 (ind)
- 高棉语 (khm)
- 老挝语 (lao)
- 马来语 (zlm)
- 泰语 (tha)
- 越南语 (vie)
- Hmong (hmv)
- 英语 (eng)
数据量: 123 文档，1,997 句子，42k 单词
目标语言: 128 种语言
东南亚语言: 缅甸语、菲律宾语、Hmong、印度尼西亚语、高棉语、老挝语、马来语、泰语、越南语

数据集版本

源版本: 2022年11月24日
SEACrowd版本: 2024年6月20日

许可证

许可证: Creative Commons Attribution Share Alike 4.0 (cc-by-sa-4.0)

引用

Ntrex 128:

@inproceedings{federmann-etal-2022-ntrex, title = "{NTREX}-128 {--} News Test References for {MT} Evaluation of 128 Languages", author = "Federmann, Christian and Kocmi, Tom and Xin, Ying", editor = "Ahuja, Kabir and Anastasopoulos, Antonios and Patra, Barun and Neubig, Graham and Choudhury, Monojit and Dandapat, Sandipan and Sitaram, Sunayana and Chaudhary, Vishrav", booktitle = "Proceedings of the First Workshop on Scaling Up Multilingual Evaluation", month = nov, year = "2022", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.sumeval-1.4", pages = "21--24", }
SEACrowd:

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，构建高质量的多语言测试集对于衡量模型性能至关重要。NTREX-128数据集的构建基于从英语到128种目标语言的翻译任务，涵盖了东南亚地区九种本土语言，包括缅甸语、菲律宾语、印尼语等。该数据集选取了123篇文档，共计1997个句子和约4.2万个单词，通过专业翻译流程确保参考译文的准确性和一致性，为跨语言机器翻译系统提供了标准化的评估基准。

特点

NTREX-128数据集以其广泛的语言覆盖和精细的文档结构脱颖而出，特别聚焦于东南亚语言资源相对稀缺的语境。该数据集包含英语与128种目标语言之间的平行语料，其中九种东南亚语言作为核心组成部分，增强了区域语言研究的代表性。其文档级别的组织方式便于进行上下文相关的翻译评估，同时采用Creative Commons Attribution Share Alike 4.0许可，促进了学术和工业界的开放使用与共享。

使用方法

利用NTREX-128数据集进行机器翻译评估时，研究人员可通过`datasets`库或专门的`seacrowd`库便捷加载数据。使用`datasets.load_dataset`函数并指定数据集名称即可获取完整语料，而`seacrowd`库则提供了更灵活的配置选项，允许用户按需选择特定语言子集。该数据集适用于训练后模型的性能测试，支持跨语言对比分析，为东南亚语言机器翻译系统的优化与基准测试提供了可靠工具。

背景与挑战

背景概述

在机器翻译领域，评估多语言翻译系统的性能一直是一项核心研究课题。NTREX-128数据集由微软翻译团队于2022年创建，旨在为128种目标语言提供高质量的翻译评估基准。该数据集包含从英语翻译而来的123篇文档，总计1997个句子，覆盖了东南亚地区的九种本土语言，如缅甸语、菲律宾语、印尼语等。其核心研究问题在于解决低资源语言翻译评估中缺乏标准化测试数据的问题，为多语言机器翻译模型的性能比较提供了统一且可靠的依据，显著推动了机器翻译评估的公平性和可扩展性。

当前挑战

NTREX-128数据集面临的挑战主要体现在两个方面：在领域问题层面，机器翻译评估需应对低资源语言数据稀缺、语言结构多样性以及翻译质量评估标准难以统一的难题；在构建过程中，挑战包括从英语源文本到128种目标语言的精准翻译，确保翻译的流畅性和文化适应性，以及协调多语言专家进行质量控制和标注，以维持数据集的高一致性和可靠性。

常用场景

经典使用场景

在机器翻译评估领域，NTREX-128数据集为多语言翻译系统的性能评测提供了标准化基准。该数据集包含从英语翻译至128种目标语言的新闻文本，特别涵盖了东南亚地区的九种本土语言，如缅甸语、菲律宾语和越南语等。研究人员通常利用这些平行语料，通过自动评估指标（如BLEU、chrF）或人工评估，系统性地衡量翻译模型在低资源语言上的准确性与流畅度，从而推动跨语言技术的均衡发展。

实际应用

在实际应用中，NTREX-128被广泛用于优化商业翻译引擎与多语言信息处理系统。科技公司可借助该数据集测试其翻译服务在东南亚市场本地化中的可靠性，确保新闻、文档等内容翻译的文化适应性。同时，政府机构与非营利组织在跨境沟通、教育资料分发等场景中，亦能依据此类评估结果选择适配的翻译工具，提升多语言社会的信息可达性与公共服务效率。

衍生相关工作

基于NTREX-128的评估框架，学术界衍生了一系列经典研究工作。例如，其在2022年SUMEVAL研讨会中被用作多语言评估基准，推动了如mT5、NLLB等大规模多语言模型的迭代优化。后续研究进一步结合该数据集分析语言特征对翻译质量的影响，或开发针对低资源语言的领域自适应方法。这些工作共同丰富了机器翻译的评估生态，为区域性语言技术发展奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集