davidstap/NTREX
收藏Hugging Face2024-04-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davidstap/NTREX
下载链接
链接失效反馈官方服务:
资源简介:
NTREX数据集是一个用于机器翻译评估的新闻测试参考文本集合,包含从英语翻译到128种目标语言的文本。该数据集由专家生成,支持多种语言,并采用CC BY-SA 4.0许可证。数据集的主要任务是翻译,适用于多语言翻译任务。
NTREX数据集是一个用于机器翻译评估的新闻测试参考文本集合,包含从英语翻译到128种目标语言的文本。该数据集由专家生成,支持多种语言,并采用CC BY-SA 4.0许可证。数据集的主要任务是翻译,适用于多语言翻译任务。
提供机构:
davidstap
原始信息汇总
数据集概述
数据集描述
NTREX -- News Test References for MT Evaluation from English into a total of 128 target languages.
数据集创建者
- 标注创建者:专家生成
- 语言创建者:专家生成
语言
数据集包含以下语言:
- af, am, ar, az, ba, be, bg, bn, bo, bs, ca, cs, cy, da, de, dv, dz, ee, el, et, eu, fa, fi, fil, fj, fo, fr, gd, gu, ha, he, hi, hmn, hr, hu, hy, id, ig, is, it, ja, kk, km, kn, ko, ku, ky, lb, lo, lt, lv, mi, mk, mn, mr, ms, mt, my, nb, nd, ne, nl, nn, ny, om, or, pa, ps, pt, ro, ru, rw, sd, sh, shi, si, sk, sl, sm, sn, so, sq, sr, ss, st, sv, sw, ta, te, tg, th, tk, tn, to, tr, tt, ty, uk, ur, uz, ve, vi, wo, xh, yo, zh, zu
许可证
- cc-by-sa-4.0
多语言性
- 翻译
任务类别
- 翻译
数据集大小
- "1997"
配置
数据集包含多个配置,每个配置对应一种语言和脚本类型,例如:
afr_Latn:测试集路径为data/afr_Latn/newstest2019-ref.afr.txtamh_Ethi:测试集路径为data/amh_Ethi/newstest2019-ref.amh.txtarb_Arab:测试集路径为data/arb_Arab/newstest2019-ref.arb.txt- ...
示例加载
python dataset = load_dataset("davidstap/NTREX", "rus_Cyrl", trust_remote_code=True)
搜集汇总
数据集介绍

构建方式
NTREX数据集是为机器翻译评估而构建的,涵盖了从英语到128种目标语言的翻译任务。该数据集的构建依赖于专家生成的注释和翻译内容,确保了数据的准确性和权威性。每个语言对的数据文件均以文本格式存储,便于直接加载和使用。数据集的构建过程严格遵循多语言翻译的标准,确保了语言覆盖的广泛性和数据质量的一致性。
特点
NTREX数据集的一个显著特点是其广泛的语言覆盖范围,涵盖了从常见的欧洲语言到较少见的非洲和亚洲语言。每个语言对的数据均经过专家审核,确保了翻译的准确性和一致性。此外,数据集的结构清晰,每个语言对的数据文件独立存储,便于用户根据需求选择特定的语言进行加载和分析。这种设计使得NTREX成为机器翻译领域的一个重要基准数据集。
使用方法
使用NTREX数据集时,用户可以通过Hugging Face的`load_dataset`函数加载特定语言对的数据。例如,加载俄语(Cyrillic)数据时,可以使用`load_dataset("davidstap/NTREX", "rus_Cyrl", trust_remote_code=True)`。加载后的数据可以直接用于机器翻译模型的训练和评估。用户还可以根据需求选择不同的语言对进行对比分析,或将其与其他翻译数据集结合使用,以提升模型的泛化能力。
背景与挑战
背景概述
NTREX数据集由微软翻译团队开发,旨在为机器翻译(MT)评估提供高质量的新闻测试参考数据。该数据集涵盖了从英语到128种目标语言的翻译任务,涵盖了全球多种语言和方言,包括非洲、亚洲、欧洲等地区的语言。NTREX的创建时间可追溯至2019年,其核心研究问题在于如何为低资源语言提供有效的翻译评估基准,从而推动多语言机器翻译技术的发展。该数据集通过专家生成的翻译参考,确保了数据的准确性和权威性,为机器翻译模型的性能评估提供了重要支持。NTREX的发布对多语言翻译领域的研究具有深远影响,尤其是在低资源语言的翻译任务中,填补了现有数据集的空白。
当前挑战
NTREX数据集在解决多语言机器翻译评估问题时面临诸多挑战。首先,低资源语言的翻译任务由于缺乏足够的平行语料,导致模型训练和评估的难度显著增加。其次,数据集中涵盖的语言种类繁多,语言之间的差异性较大,如何确保翻译质量的一致性成为一大难题。在数据构建过程中,专家生成的翻译参考虽然提高了数据的准确性,但也带来了时间和成本的挑战。此外,部分语言的书写系统复杂,如阿拉伯语、藏语等,进一步增加了数据标注和处理的难度。这些挑战不仅影响了数据集的构建效率,也对机器翻译模型的性能提出了更高的要求。
常用场景
经典使用场景
NTREX数据集在机器翻译领域中被广泛用于评估从英语到128种目标语言的翻译质量。其经典使用场景包括多语言翻译模型的性能测试和基准比较,尤其是在新闻文本的翻译任务中。通过提供高质量的参考翻译,NTREX为研究人员和开发者提供了一个标准化的评估框架,帮助他们在多语言翻译任务中优化模型表现。
解决学术问题
NTREX数据集解决了机器翻译领域中多语言翻译模型评估的难题。传统的数据集往往局限于少数几种语言,难以全面评估模型的跨语言能力。NTREX通过涵盖128种语言,填补了这一空白,使得研究人员能够更全面地评估模型在低资源语言上的表现,推动了多语言翻译技术的发展。
衍生相关工作
NTREX数据集催生了一系列相关研究,特别是在多语言翻译模型的优化和低资源语言翻译领域。许多研究基于NTREX提出了新的翻译模型架构和训练方法,显著提升了低资源语言的翻译质量。此外,NTREX还被用于开发多语言翻译评估工具,如BLEU和METEOR的扩展版本,进一步推动了机器翻译领域的技术进步。
以上内容由遇见数据集搜集并总结生成



