OPUS-100; NTREX-African

Name: OPUS-100; NTREX-African
Creator: 独立研究员
Published: 2026-01-28 02:37:09
License: 暂无描述

arXiv2026-01-28 更新2026-01-29 收录

下载链接：

https://github.com/Nickcheng123/reflective-translation-mt

下载链接

链接失效反馈

官方服务：

资源简介：

OPUS-100是由Jörg Tiedemann创建的多语言平行语料库，涵盖广泛的语言对；NTREX-African由Wilhelmina Nekoto等人构建，专注于非洲语言的评估数据集。两个数据集共同支撑了英语与isiZulu、isiXhosa等低资源语言的机器翻译研究，数据来源于公开的平行文本资源。数据集通过标准化预处理流程构建，用于评估反思式翻译框架在语义保真度方面的改进效果，旨在解决低资源语言因数据稀缺导致的翻译失真问题。

OPUS-100 is a multilingual parallel corpus created by Jörg Tiedemann, covering a wide range of language pairs. NTREX-African is an evaluation dataset focused on African languages, constructed by Wilhelmina Nekoto et al. These two datasets jointly support machine translation research between English and low-resource languages such as isiZulu and isiXhosa, with their data sourced from publicly available parallel text resources. Both datasets are built through a standardized preprocessing pipeline, and are used to evaluate the improvement effect of the reflexive translation framework on semantic fidelity, aiming to address the translation distortion issues caused by data scarcity in low-resource languages.

提供机构：

独立研究员

创建时间：

2026-01-28

原始信息汇总

Reflective Translation for Low-Resource Machine Translation 数据集概述

数据集基本信息

数据集名称：Reflective Translation for Low-Resource Machine Translation
核心内容：该仓库包含用于反射式翻译的代码与分析。反射式翻译是一种由反思引导的提示框架，旨在无需微调即可提升低资源语言的机器翻译质量。
评估任务：英语 → 祖鲁语（isiZulu）和英语 → 科萨语（isiXhosa）的翻译。
评估模型：GPT-3.5 和 Claude Haiku 3.5。
主要发现：报告了在反思、提示策略和置信度阈值方面，BLEU 和 COMET 分数的一致提升。

关联论文

论文标题：Reflective Translation: Enhancing Low-Resource Machine Translation through Self-Reflection
作者：Nicholas Cheng
预印本：arXiv:2601.19871 (2026)
论文链接：https://arxiv.org/abs/2601.19871

方法概述

反射式翻译引入了一个轻量级的推理时框架，语言模型在此框架中：

生成初始翻译。
生成结构化的自我批评，以识别翻译错误。
根据掩蔽的反思反馈生成修订后的翻译。该方法旨在不依赖额外训练数据或参数更新的情况下，提升低资源场景下的语义保真度和鲁棒性。

使用的数据源

所有数据集均在运行时从 HuggingFace 以编程方式加载。

OPUS-100（英语-祖鲁语，英语-科萨语）
- 地址：https://huggingface.co/datasets/Helsinki-NLP/opus-100
NTREX-African（祖鲁语、科萨语测试集）
- 地址：https://huggingface.co/datasets/masakhane/ntrex_african
数据说明：原始的平行语料库未在此仓库中重新分发。

数据可用性与仓库内容

包含内容：此仓库包含重现论文中所有图表所需的所有处理后评估输出（CSV 文件）。
不包含内容：由于许可限制，未包含原始数据集。
数据再生：提供了从原始数据集重新生成结果所需的所有脚本。

引用

如果使用此工作，请引用： Cheng, N. (2026). Reflective Translation: Enhancing Low-Resource Machine Translation through Self-Reflection. arXiv:2601.19871

许可证

此项目根据 MIT 许可证授权。详见 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

在低资源机器翻译领域，OPUS-100与NTREX-African数据集通过系统化方法构建而成。OPUS-100依托多语言平行语料库，从网络公开资源中自动抽取并清洗，形成覆盖广泛语言对的翻译数据。NTREX-African则专注于非洲语言评估，通过人工筛选与校对，构建了高质量、领域平衡的评测集合，特别针对祖鲁语和科萨语等资源稀缺语言提供了标准化的测试基准。

特点

该数据集展现出鲜明的低资源语言特性，其核心价值在于为祖鲁语和科萨语提供了稀缺的平行语料支持。OPUS-100以规模庞大、语言多样性丰富著称，而NTREX-African则强调数据质量与评估针对性，两者结合能够全面反映翻译模型在语义忠实度与上下文一致性方面的表现。数据集的结构化设计便于进行反射式翻译等前沿方法的验证，为低资源机器翻译研究提供了关键基础设施。

使用方法

研究者在应用该数据集时，通常将其作为低资源机器翻译任务的基准测试平台。通过提取英语与祖鲁语、科萨语之间的平行句对，可以评估大型语言模型在零样本、少样本及反射式提示等不同策略下的翻译性能。数据集支持BLEU和COMET等自动评估指标的计算，并允许研究者基于（源句、初译、反思、修订）四元组进行可重复分析，从而深入探究自我反思机制对翻译质量的影响。

背景与挑战

背景概述

在机器翻译领域，低资源语言如祖鲁语和科萨语长期面临平行语料匮乏的困境。OPUS-100数据集由Jörg Tiedemann于2012年构建，作为大规模多语言平行语料库，为百余种语言提供翻译对齐数据，尤其支持资源稀缺语言的基准研究。NTREX-African数据集则由Wilhelmina Nekoto等人于2023年发布，专注于非洲语言的评估集构建，旨在填补机器翻译评测中非洲语言代表性不足的空白。这两个数据集共同推动了低资源机器翻译的前沿探索，使研究者能够系统评估翻译模型在语义保真度和语言适应性方面的表现，为跨语言信息交换提供关键基础设施。

当前挑战

OPUS-100与NTREX-African数据集所应对的核心挑战在于低资源机器翻译的语义保真度提升。具体而言，祖鲁语和科萨语等语言缺乏高质量平行文本，导致翻译模型易产生语义扭曲、实体误译及文化语境丢失等问题。在数据集构建过程中，研究者需克服多语言对齐的复杂性，尤其是形态丰富语言的结构差异，以及非洲语言方言变体带来的标注一致性难题。此外，评估低资源翻译质量时，传统基于n-gram重叠的指标难以捕捉语义细微差别，需结合COMET等语义导向度量来全面衡量翻译的充分性与流畅性。

常用场景

经典使用场景

在低资源机器翻译研究领域，OPUS-100与NTREX-African常被联合用于评估新兴翻译方法的有效性。这些数据集为祖鲁语和科萨语等非洲语言提供了宝贵的平行语料，使得研究者能够在资源匮乏的语言对上测试翻译模型的鲁棒性。通过构建英语与这些语言之间的句子对，研究人员能够系统分析翻译模型在词汇覆盖、语义保真度以及语法一致性方面的表现。这种评估框架为比较不同提示策略或微调方法提供了标准化基准，推动了低资源机器翻译技术的迭代发展。

解决学术问题

OPUS-100与NTREX-African有效缓解了低资源语言机器翻译研究中平行数据稀缺的核心困境。这些数据集通过提供高质量的双语句对，使研究者能够深入探索翻译模型在有限监督信号下的泛化能力。它们为解决翻译中的幻觉现象、语义失真以及文化特定表达转换等经典问题提供了实证基础。基于这些数据构建的评估体系，学术界得以量化反思式提示、少样本学习等创新方法在提升翻译忠实度方面的实际贡献，为资源受限场景下的翻译技术发展指明了方向。

衍生相关工作

围绕OPUS-100与NTREX-African衍生的经典工作丰富多样。反思式翻译框架通过结构化自评机制显著提升了翻译的语义保真度，为无参数优化方法树立了范例。基于这些数据构建的反射增强数据集——包含源句、初译、批判与修订的元组——催生了针对翻译自我修正行为的新研究范式。相关工作进一步探索了少样本提示与链式推理策略在低资源语言上的适配性，推动了提示工程领域的理论发展，并为利用大型语言模型处理资源稀缺任务提供了可复现的实践蓝图。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集