English–Tigrinya evaluation dataset

Name: English–Tigrinya evaluation dataset
Creator: L3S Research Center, Leibniz University Hannover
Published: 2025-09-24 23:02:57
License: 暂无描述

arXiv2025-09-24 更新2025-09-26 收录

下载链接：

https://github.com/hailaykidu/MachineT_TigEng

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个高质量的英语-提格雷语评估数据集，涵盖四个领域，包括宗教、新闻、健康和教育。数据集由1200个宗教领域句子、1500个新闻领域句子、800个健康领域句子和500个教育领域句子组成，总共有4000个句子。数据集已进行人工对齐和预处理，以支持严格的评估。

This study constructs a high-quality English-Tigrinya evaluation dataset covering four domains: religion, news, health, and education. The dataset comprises 1200 sentences from the religious domain, 1500 from the news domain, 800 from the health domain, and 500 from the education domain, totaling 4000 sentences. The dataset has undergone manual alignment and preprocessing to support rigorous evaluation.

提供机构：

L3S Research Center, Leibniz University Hannover

创建时间：

2025-09-24

原始信息汇总

Machine Translation Model: English ↔ Tigrinya 数据集概述

模型基本信息

模型类型: MarianMT（多语言Transformer模型）
语言支持: 英语 ↔ 提格里尼亚语
模型架构: MarianMT，针对英语 ↔ 提格里尼亚语翻译进行微调
训练框架: Hugging Face Transformers，PyTorch

训练详情

训练数据集: NLLB平行语料库（英语 ↔ 提格里尼亚语）
训练轮次: 3
批次大小: 8
最大长度: 128个标记
学习率: 从1.44e-07开始，训练过程中衰减
训练损失:
- 最终训练损失: 0.4756
- 每轮损失进展:
  - 第1轮: 0.443
  - 第2轮: 0.4077
  - 第3轮: 0.4379
梯度范数:
- 第1轮: 1.14
- 第2轮: 1.11
- 第3轮: 1.06
训练时间: 43376.7秒（约12小时）
训练速度:
- 每秒训练样本数: 96.7
- 每秒训练步数: 12.08

模型用途

该模型可用于英语句子与提格里尼亚语之间的互译。

使用示例（Python）

python from transformers import MarianMTModel, MarianTokenizer

加载模型和分词器

model_name = "Hailay/MachineT_TigEng"
model = MarianMTModel.from_pretrained(model_name) tokenizer = MarianTokenizer.from_pretrained(model_name)

将英语句子翻译为提格里尼亚语

english_text = "We must obey the Lord and leave them alone" encoded_input = tokenizer(english_text, return_tensors="pt", padding=True, truncation=True) translated = model.generate(**encoded_input) translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)

print(f"Translated text: {translated_text}")

模型能力

该模型训练用于处理一般英语到提格里尼亚语的翻译任务，适用于广泛的文本，但在领域特定语言或专业术语上可能表现不佳，除非进一步微调。

模型架构

该模型基于MarianMT架构，这是一种为多语言机器翻译设计的Transformer模型，已在英语 ↔ 提格里尼亚语数据上进行了微调。

致谢

语料库名称: NLLB
包: NLLB.am-en（Moses格式）
网站: NLLB Corpus

搜集汇总

数据集介绍

构建方式

在低资源语言机器翻译研究领域，构建高质量评估数据集是确保模型性能可靠性的关键环节。English–Tigrinya评估数据集的构建采用了多领域覆盖与人工精校相结合的策略，从宗教文本、新闻媒体、健康指南及教育材料四大领域系统收集了4000对平行句对。通过脚本规范化、句子级对齐验证以及噪声过滤等预处理步骤，确保了语料在语言结构和语义层面的一致性。该数据集特别注重领域多样性，每个领域的句子平均长度经过统计优化，以反映真实语言使用场景的复杂性，为模型评估提供了坚实的语言学基础。

特点

该数据集的核心特点在于其领域多样性与语言规范性。覆盖宗教、新闻、健康与教育四大领域，不仅包含日常用语，还涉及专业术语和文化特定表达，有效支持模型在跨领域场景下的泛化能力评估。数据集所有句对均经过母语者人工对齐与校对，显著降低了自动对齐引入的噪声干扰，尤其在处理Tigrinya复杂的格兹字母形态和方言变异时表现出高度的语言学准确性。此外，数据统计信息如句子长度分布和词汇覆盖度为模型训练提供了可量化的质量指标。

使用方法

该数据集专为机器翻译系统的性能评估设计，可直接作为测试集用于衡量模型在英语与Tigrinya互译任务上的表现。研究者可通过BLEU、chrF等自动指标结合人工评估，综合分析翻译结果的流畅度、语义忠实度及文化适应性。数据集的领域划分支持分领域性能诊断，有助于识别模型在特定语境下的薄弱环节。为保障评估的严谨性，建议在实验中采用统计显著性检验（如Bonferroni校正）以控制多重假设检验带来的误差风险。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的机器翻译一直是亟待突破的研究方向。English–Tigrinya评估数据集由汉诺威莱布尼兹大学L3S研究中心的Hailay Kidu Teklehaymanot等人于2024年构建，旨在解决提格里尼亚语作为闪族语支中数字资源严重匮乏的问题。该数据集覆盖宗教、新闻、健康与教育四大领域，包含4000句人工对齐的平行语料，其创建显著提升了提格里尼亚语在神经机器翻译模型中的可评估性，为促进语言技术公平性提供了关键基础设施。

当前挑战

该数据集核心挑战在于提格里尼亚语独特的盖埃兹文字系统与复杂形态结构，导致通用多语言模型出现词汇分割错误和跨语言干扰；构建过程中需克服方言变体归一化、字符级对齐验证等难题，同时需通过领域自适应采样缓解数据稀疏性对模型泛化能力的制约。

常用场景

经典使用场景

在低资源机器翻译研究领域，English–Tigrinya评估数据集作为黄金标准测试集，被广泛应用于验证跨语言迁移学习方法的有效性。该数据集覆盖宗教、新闻、健康与教育四大领域，通过人工对齐的4000句平行语料，为模型在复杂形态语言上的泛化能力提供多维度评估基准。研究者常利用其评估定制化分词器与多语言预训练模型结合后的翻译质量，显著提升了Tigrinya这类形态丰富语言的BLEU与chrF指标。

解决学术问题

该数据集有效解决了低资源语言机器翻译中的三大核心问题：一是通过高质量人工对齐语料缓解数据稀缺导致的模型过拟合，二是针对Ge'ez文字特性设计的分词策略克服了通用分词器在形态复杂语言上的分割误差，三是通过多领域语料设计验证了迁移学习在跨领域泛化中的局限性。这些贡献为语义保持性翻译提供了可量化的评估框架，推动了语言技术公平性研究的发展。

衍生相关工作

基于该数据集衍生的经典研究包括三大方向：Öktem等人利用迁移学习开发的人道主义响应翻译系统，在危机应对领域实现了BLEU指标23.6的突破；Ephrem基于循环神经网络构建的阿姆哈拉-提格雷尼亚双向翻译模型，探索了同语系语言间的参数共享机制；而NLLB项目则通过扩展该数据集的领域覆盖，实现了提格雷尼亚语在200语言大规模模型中的首次系统集成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集