davidstap/NTREX

Name: davidstap/NTREX
Creator: davidstap
Published: 2024-04-23 17:47:51
License: 暂无描述

Hugging Face2024-04-23 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/davidstap/NTREX

下载链接

链接失效反馈

官方服务：

资源简介：

NTREX数据集是一个用于机器翻译评估的新闻测试参考文本集合，包含从英语翻译到128种目标语言的文本。该数据集由专家生成，支持多种语言，并采用CC BY-SA 4.0许可证。数据集的主要任务是翻译，适用于多语言翻译任务。

提供机构：

davidstap

原始信息汇总

数据集概述

数据集描述

NTREX -- News Test References for MT Evaluation from English into a total of 128 target languages.

数据集创建者

标注创建者：专家生成
语言创建者：专家生成

语言

数据集包含以下语言：

af, am, ar, az, ba, be, bg, bn, bo, bs, ca, cs, cy, da, de, dv, dz, ee, el, et, eu, fa, fi, fil, fj, fo, fr, gd, gu, ha, he, hi, hmn, hr, hu, hy, id, ig, is, it, ja, kk, km, kn, ko, ku, ky, lb, lo, lt, lv, mi, mk, mn, mr, ms, mt, my, nb, nd, ne, nl, nn, ny, om, or, pa, ps, pt, ro, ru, rw, sd, sh, shi, si, sk, sl, sm, sn, so, sq, sr, ss, st, sv, sw, ta, te, tg, th, tk, tn, to, tr, tt, ty, uk, ur, uz, ve, vi, wo, xh, yo, zh, zu

许可证

cc-by-sa-4.0

多语言性

翻译

任务类别

翻译

数据集大小

"1997"

配置

数据集包含多个配置，每个配置对应一种语言和脚本类型，例如：

afr_Latn：测试集路径为 data/afr_Latn/newstest2019-ref.afr.txt
amh_Ethi：测试集路径为 data/amh_Ethi/newstest2019-ref.amh.txt
arb_Arab：测试集路径为 data/arb_Arab/newstest2019-ref.arb.txt
...

示例加载

python dataset = load_dataset("davidstap/NTREX", "rus_Cyrl", trust_remote_code=True)

搜集汇总

数据集介绍

构建方式

NTREX数据集是为机器翻译评估而构建的，涵盖了从英语到128种目标语言的翻译任务。该数据集的构建依赖于专家生成的注释和翻译内容，确保了数据的准确性和权威性。每个语言对的数据文件均以文本格式存储，便于直接加载和使用。数据集的构建过程严格遵循多语言翻译的标准，确保了语言覆盖的广泛性和数据质量的一致性。

特点

NTREX数据集的一个显著特点是其广泛的语言覆盖范围，涵盖了从常见的欧洲语言到较少见的非洲和亚洲语言。每个语言对的数据均经过专家审核，确保了翻译的准确性和一致性。此外，数据集的结构清晰，每个语言对的数据文件独立存储，便于用户根据需求选择特定的语言进行加载和分析。这种设计使得NTREX成为机器翻译领域的一个重要基准数据集。

使用方法

使用NTREX数据集时，用户可以通过Hugging Face的`load_dataset`函数加载特定语言对的数据。例如，加载俄语（Cyrillic）数据时，可以使用`load_dataset("davidstap/NTREX", "rus_Cyrl", trust_remote_code=True)`。加载后的数据可以直接用于机器翻译模型的训练和评估。用户还可以根据需求选择不同的语言对进行对比分析，或将其与其他翻译数据集结合使用，以提升模型的泛化能力。

背景与挑战

背景概述

NTREX数据集由微软翻译团队开发，旨在为机器翻译（MT）评估提供高质量的新闻测试参考数据。该数据集涵盖了从英语到128种目标语言的翻译任务，涵盖了全球多种语言和方言，包括非洲、亚洲、欧洲等地区的语言。NTREX的创建时间可追溯至2019年，其核心研究问题在于如何为低资源语言提供有效的翻译评估基准，从而推动多语言机器翻译技术的发展。该数据集通过专家生成的翻译参考，确保了数据的准确性和权威性，为机器翻译模型的性能评估提供了重要支持。NTREX的发布对多语言翻译领域的研究具有深远影响，尤其是在低资源语言的翻译任务中，填补了现有数据集的空白。

当前挑战

NTREX数据集在解决多语言机器翻译评估问题时面临诸多挑战。首先，低资源语言的翻译任务由于缺乏足够的平行语料，导致模型训练和评估的难度显著增加。其次，数据集中涵盖的语言种类繁多，语言之间的差异性较大，如何确保翻译质量的一致性成为一大难题。在数据构建过程中，专家生成的翻译参考虽然提高了数据的准确性，但也带来了时间和成本的挑战。此外，部分语言的书写系统复杂，如阿拉伯语、藏语等，进一步增加了数据标注和处理的难度。这些挑战不仅影响了数据集的构建效率，也对机器翻译模型的性能提出了更高的要求。

常用场景

经典使用场景

NTREX数据集在机器翻译领域中被广泛用于评估从英语到128种目标语言的翻译质量。其经典使用场景包括多语言翻译模型的性能测试和基准比较，尤其是在新闻文本的翻译任务中。通过提供高质量的参考翻译，NTREX为研究人员和开发者提供了一个标准化的评估框架，帮助他们在多语言翻译任务中优化模型表现。

解决学术问题

NTREX数据集解决了机器翻译领域中多语言翻译模型评估的难题。传统的数据集往往局限于少数几种语言，难以全面评估模型的跨语言能力。NTREX通过涵盖128种语言，填补了这一空白，使得研究人员能够更全面地评估模型在低资源语言上的表现，推动了多语言翻译技术的发展。

衍生相关工作

NTREX数据集催生了一系列相关研究，特别是在多语言翻译模型的优化和低资源语言翻译领域。许多研究基于NTREX提出了新的翻译模型架构和训练方法，显著提升了低资源语言的翻译质量。此外，NTREX还被用于开发多语言翻译评估工具，如BLEU和METEOR的扩展版本，进一步推动了机器翻译领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集