ONUBAD数据集扩展版
收藏arXiv2025-05-18 更新2025-05-21 收录
下载链接:
https://github.com/180041123Atiq/MTEonLowResourceLanguage
下载链接
链接失效反馈官方服务:
资源简介:
ONUBAD数据集扩展版是一个包含1500个高质量句对的平行语料库,其中包括520个新的锡尔赫蒂语源句子、人工翻译的英语参考译文、整个1500个句子的机器生成翻译以及由母语为锡尔赫蒂语的人士评定的直接评估(DA)分数。该数据集旨在解决低资源语言的机器翻译评估问题,特别是那些具有多种方言的语言。数据集扩展了现有的ONUBAD数据集,并通过方言引导方法增强了大型语言模型(LLMs)的机器翻译评估。数据集包括方言特定的术语,并通过方言引导提示策略来提高参考无关的机器翻译评估。
The extended ONUBAD dataset is a parallel corpus consisting of 1,500 high-quality sentence pairs. It includes 520 new Sylheti source sentences, human-translated English reference translations, machine-generated translations for all 1,500 sentences, and direct assessment (DA) scores annotated by native Sylheti speakers. This dataset aims to address the machine translation evaluation issue for low-resource languages, especially those with multiple dialects. It extends the existing ONUBAD dataset and enhances the machine translation evaluation capability of large language models (LLMs) via dialect-guided methods. The dataset incorporates dialect-specific terminology and adopts dialect-guided prompting strategies to improve reference-free machine translation evaluation.
提供机构:
伊斯兰科技大学, 哈兹普尔, 孟加拉国; 联合国际大学, 达卡, 孟加拉国
创建时间:
2025-05-18
搜集汇总
数据集介绍

构建方式
ONUBAD数据集扩展版通过整合Sylheti-英语句子对、机器翻译结果及母语者标注的直接评估(DA)分数构建而成。研究团队从原始ONUBAD语料中筛选980组Sylheti-英语平行句对,经人工校验修正后新增520组句子,最终形成包含1500组高质量双语对齐的数据集。为确保翻译质量评估的可靠性,采用NLLB-200模型生成机器翻译结果,并由两位Sylheti母语者根据语义对等性和流畅性标准进行双盲评分,最终通过z-score归一化处理消除评分者偏差。
特点
该数据集显著特色在于其方言导向的设计理念,专门针对低资源语言Sylheti的机器翻译评估需求。数据层面包含方言特定词汇的对照词典,为语言模型提供细粒度的方言理解支持。评估维度上创新性地融合了传统平行语料与人工DA评分,既保留参考翻译又引入量化质量指标。技术层面配套开发了方言感知的分词器扩展方案,有效解决了低资源方言在通用语言模型中词汇覆盖不足的核心痛点。
使用方法
使用该数据集时,研究者可通过三步流程实现高效评估:首先加载方言增强版分词器处理原始Sylheti文本,确保方言词汇的正确解析;继而应用方言引导(DG)提示策略,将源句、机器译文及方言词汇表组合为结构化输入;最后通过预训练的回归头模型输出DA分数预测值。该框架支持端到端评估,无需人工参考译文即可获得与人类评判高度一致的质量分数,特别适合低资源方言机器翻译系统的迭代优化。
背景与挑战
背景概述
ONUBAD数据集扩展版由Md. Atiqur Rahman等人于2025年构建,旨在解决低资源语言机器翻译评估的难题。该数据集聚焦于孟加拉语方言Sylheti与英语的翻译任务,扩展了原始ONUBAD语料库,新增520组句子对,最终形成包含1500组高质量平行语料的数据集。数据集创新性地引入了方言指导的评估框架,通过整合方言特定词汇表、机器翻译输出及母语者标注的直接评估分数,为低资源方言的机器翻译研究提供了重要基准。这一工作由孟加拉国的伊斯兰科技大学和联合国际大学合作完成,显著推动了南亚方言在自然语言处理领域的数字化进程。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域问题层面,低资源方言机器翻译评估长期受限于参考译文稀缺和方言变体复杂性,传统方法难以捕捉方言特有的语义和句法特征;构建过程层面,研究人员需克服方言词汇分词困难、母语标注者一致性控制,以及如何在小规模数据上保持评估模型鲁棒性等技术障碍。特别是Sylheti方言缺乏标准化书写系统,导致数据采集和标注过程中需额外进行音系转换和语义对齐,这对数据质量的把控提出了极高要求。
常用场景
经典使用场景
在低资源机器翻译领域,ONUBAD数据集扩展版为研究方言丰富的语言对提供了重要支持。该数据集通过整合Sylheti-English句子对、机器翻译结果及母语者标注的直接评估分数,为评估翻译质量提供了标准化基准。其经典使用场景包括训练和评估大型语言模型在方言翻译任务中的表现,尤其在缺乏参考译文的低资源环境下,该数据集成为验证无参考评估方法有效性的关键工具。
实际应用
该数据集的实际应用覆盖多语言服务场景,如跨境医疗信息本地化、少数民族教育资料翻译等需要处理Sylheti方言的领域。在孟加拉国等方言复杂的地区,基于该数据集开发的评估系统可优化政府多语言门户的翻译质量。企业亦可用其测试商用翻译系统在低资源语言上的适应性,减少人工后期编辑成本达30%以上。
衍生相关工作
ONUBAD扩展版催生了多项创新研究,包括WMT2023低资源赛道的方言感知评估模型、基于Llama-2的混合提示策略等。团队后续提出的方言-标注联合提示方法(DAG)被证实可提升OpenChat模型28.26%的Pearson相关性。该数据集还支撑了《无参考低资源翻译评估中的LLM瓶颈》等理论研究,推动领域形成tokenizer优化与回归头设计的标准范式。
以上内容由遇见数据集搜集并总结生成



