英语-卢干达语数据集

Name: 英语-卢干达语数据集
Creator: 韩国汉东全球大学计算机科学与电气工程学院
Published: 2025-05-05 16:47:52
License: 暂无描述

arXiv2025-05-05 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02463v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由英语和卢干达语构成，旨在解决低资源语言训练神经机器翻译模型的数据稀缺问题。数据集由多个开源和网页爬取的语料库组成，并通过迭代和增量反向翻译技术进行增强。数据集适用于提高低资源语言的神经机器翻译模型的性能，并通过多种评估指标如SacreBLEU、ChrF2和TER进行了评估，以确保翻译质量。

This dataset comprises English and Luganda, aiming to address the data scarcity problem in training neural machine translation (NMT) models for low-resource languages. It is constructed from multiple open-source and web-crawled corpora, and enhanced through iterative and incremental back-translation techniques. This dataset is designed to improve the performance of neural machine translation models for low-resource languages, and has been evaluated using multiple metrics including SacreBLEU, ChrF2 and TER to ensure translation quality.

提供机构：

韩国汉东全球大学计算机科学与电气工程学院

创建时间：

2025-05-05

搜集汇总

数据集介绍

构建方式

在低资源语言机器翻译领域，英语-卢干达语数据集的构建采用了创新的半监督方法。研究团队通过反向翻译技术，将公开可得的双语数据集与网络爬取的新闻领域单语语料相结合。具体构建过程分为三个阶段：首先整合现有开源双语和单语数据集；其次运用网络爬取技术获取新闻领域的补充数据；最后采用迭代式增量反向翻译策略，通过多轮模型训练和合成数据生成不断优化数据集质量。数据集构建过程中特别注重语料清洗，去除了混杂文本、超链接及特殊字符，确保了数据的纯净度。

特点

该数据集最显著的特点是针对卢干达语这一形态丰富的低资源语言进行了专门优化。数据集包含超过10万条平行句对，涵盖新闻、社交媒体、宗教文本等多种领域，其中90%的语料具有乌干达本土语境特征。与同类资源相比，该数据集不仅提供标准BLEU评分，还创新性地引入SacreBLEU、ChrF2和TER等多样化评估指标，能更全面反映卢干达语的形态学特征和翻译质量。数据集特别设计了包含圣经文本和排除圣经文本的两个版本，便于研究者分析不同语域对翻译性能的影响。

使用方法

使用本数据集时，建议采用Transformer架构的神经机器翻译模型，设置子词单元词汇量为10,000。研究者可先使用双语数据训练基础模型，再通过反向翻译流程逐步加入单语数据。在模型优化阶段，推荐采用基于BLEU得分的增量式数据集选择策略（OurBT），并配合Adam优化器进行训练。评估时应综合使用多种指标：BLEU用于基本质量评估，ChrF2侧重形态相似性，TER则衡量编辑距离。对于特定领域应用，建议优先选择网络爬取的新闻语料，因其与日常交流语境最为接近。

背景与挑战

背景概述

英语-卢干达语数据集由Richard Kimera等研究人员于2024年构建，旨在解决低资源语言在神经机器翻译（NMT）领域的数据稀缺问题。该数据集聚焦于乌干达的官方语言卢干达语，这是一种形态学丰富的班图语系语言，使用者超过2000万，但数字文本资源极度匮乏。研究团队通过整合公开双语语料库与网络爬取的新闻领域单语数据，创新性地应用回译（Back Translation）技术生成合成数据，显著提升了翻译模型的性能。该工作由乌干达姆巴拉拉科技大学与韩国韩东全球大学合作完成，其成果为低资源语言的机器翻译提供了新的方法论范式，尤其对撒哈拉以南非洲语言的数字化进程具有重要推动作用。

当前挑战

该数据集面临的核心挑战体现在两方面：在领域问题层面，卢干达语复杂的形态结构（如10种名词类别、粘着性构词法）导致传统基于BLEU的评估指标难以准确衡量翻译质量，需引入ChrF2、TER等多维指标；在构建过程中，数据稀缺性与分散性构成主要障碍——现有双语语料仅4万余句，且圣经文本占比过高但语境不匹配日常交流，而单语数据需从新闻网站、电台等碎片化来源爬取并清洗。此外，回译技术的迭代优化需平衡合成数据与真实数据的比例，避免模型过拟合低频语言特征。这些挑战使得该数据集成为低资源语言机器翻译研究的重要基准。

常用场景

经典使用场景

在低资源语言机器翻译研究中，英语-卢干达语数据集被广泛应用于验证反向翻译（Back Translation, BT）技术的有效性。该数据集通过整合公开双语语料和网络爬取的新闻领域单语数据，构建了高质量的平行语料库。研究者利用该数据集训练神经机器翻译模型，并通过迭代式增量反向翻译策略显著提升翻译性能，在英卢互译任务中BLEU分数提升超过10分。该数据集特别适用于研究数据增强技术如何缓解低资源语言的语料稀缺问题。

衍生相关工作

该数据集催生了多项低资源机器翻译的创新研究。基于其构建的基准模型，后续工作发展了融合语言模型的混合增强方法（如Gitau等人对斯瓦希里语的扩展应用），以及针对班图语系特性的形态分析技术（如Ssentumbwe的名词类别分割算法）。数据集公开后，更被用于非洲语言多任务学习框架Masakhanews的开发，促进了20余种非洲语言的新闻分类研究。

数据集最近研究