five

WMT24++ Benchmark with Rumantsch Grischun, Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader

收藏
arXiv2025-09-03 更新2025-09-05 收录
下载链接:
https://hf.co/datasets/ZurichNLP/wmt24pp-rm
下载链接
链接失效反馈
官方服务:
资源简介:
罗曼什语是瑞士的一种罗曼语族语言,它在瑞士的格劳宾登州是少数民族语言。本研究提出了一个针对六种罗曼什语方言的基准测试,包括一个超区域方言罗曼什语格里斯昌和五个区域方言:苏尔西尔凡、苏斯西尔凡、苏尔米兰、普特和瓦尔代尔。这些参考翻译是基于WMT24++基准测试创建的,确保与55种其他语言并行。现有的机器翻译(MT)系统和大型语言模型(LLMs)的自动评估表明,对于所有这些方言,从罗曼什语到德语的翻译处理得相对较好,但将翻译成罗曼什语仍然是一个挑战。

Romansh is a Romance language spoken in Switzerland, serving as a minority language in the Canton of Graubünden. This study proposes a benchmark for six Romansh dialects, including the supra-regional dialect Romansh Grischun and five regional dialects: Sursilvan, Sutsilvan, Surmiran, Putèr, and Vallader. These reference translations are constructed based on the WMT24++ benchmark, ensuring parallel alignment with 55 other languages. Automatic evaluations of existing machine translation (MT) systems and large language models (LLMs) demonstrate that for all these dialects, translation from Romansh to German performs relatively well, while translation into Romansh remains a challenging task.
提供机构:
苏黎世大学, Lia Rumantscha
创建时间:
2025-09-03
搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译评估资源稀缺的罗曼什语研究背景下,该数据集基于WMT24++基准框架,采用严谨的三阶段人工翻译流程构建。首先由德罗双语母语专家完成初始翻译,随后由Lia Rumantscha语言学家团队进行抽样审查并提供标准化反馈,最终由译者根据反馈进行修订。翻译过程严格遵循人工创作原则,禁用AI辅助工具,并配备包含原文语境和领域标注的详细指南,确保六个方言变体翻译的准确性与一致性。
特点
该数据集涵盖罗曼什语的六个方言变体,包括超区域变体Rumantsch Grischun及五个地区性变体(Sursilvan、Sutsilvan、Surmiran、Puter、Vallader),与55种语言保持平行语料对齐。其特色在于首次系统性地整合了罗曼什语多变体评估资源,覆盖新闻、文学、社交媒体和演讲四大文本领域,并通过Glottocode和ISO标准实现语言变体的精细编码。数据质量经分类器验证和交叉变体ChrF评分确认,呈现显著的方言区分度与语义一致性。
使用方法
该数据集专为机器翻译系统与大型语言模型的评估而设计,支持德罗双向翻译任务的质量度量。使用者可通过加载标准化测试集,采用ChrF和xCOMET等自动评估指标进行性能评测,尤其适用于低资源语言变体的翻译质量分析。针对LLM评估,提供包含三样本示例的标准化提示模板,支持指定目标变体的生成任务。数据集遵循Apache 2.0许可,提供分变体、分领域的结构化数据访问,并附带完整复现实验的代码框架。
背景与挑战
背景概述
罗曼什语作为瑞士四种官方语言之一,属于印欧语系罗曼语族,使用人口仅4-6万,被联合国教科文组织列为濒危语言。2025年苏黎世大学与罗曼什语组织Lia Rumantscha联合发布的WMT24++罗曼什语基准数据集,首次覆盖格劳宾登罗曼什语的六种变体:统一书面语Rumantsch Grischun及五种地域变体(Sursilvan、Sutsilvan、Surmiran、Puter、Vallader)。该数据集基于WMT24++多语言评估框架构建,包含新闻、文学、社交媒体和演讲转录四大领域文本,通过与德语的平行语料为机器翻译系统提供标准化评估基准,填补了罗曼什语资源匮乏的空白。
当前挑战
该数据集致力于解决低资源语言机器翻译评估的核心难题:一是罗曼什语五种地域变体间存在词汇、语法和正字法的系统性差异,且缺乏互译平行语料,导致模型难以捕捉细微语言特征;二是数据构建过程中面临多重挑战,包括变体间标准化程度不均衡(如Sutsilvan变体使用者不足千人)、翻译一致性维护困难,以及社交媒体等领域文本存在非正式表达与方言混杂现象,需依赖人工翻译专家进行多轮质量控制。
常用场景
经典使用场景
在机器翻译评估领域,WMT24++ Romansh基准数据集为六种罗曼什语变体提供了标准化评估框架。该数据集通过人工翻译构建平行语料,覆盖新闻、文学、社交媒体及演讲等多领域文本,支持对跨语言翻译系统进行细粒度性能分析。其设计充分考虑了语言变体间的差异性,为低资源语言机器翻译研究提供了关键基础设施。
实际应用
该数据集实际应用于瑞士多语言公共服务场景,支持政府文件、教育材料和法律文书的跨语言转换。在旅游业中助力德-罗曼什语实时翻译服务开发,促进阿尔卑斯山区文化传播。此外为语言技术公司提供模型优化基准,推动Supertext等商业系统对罗曼什语变体的专项优化,增强少数语言群体的数字包容性。
衍生相关工作
基于该数据集衍生了多项重要研究,包括MADLAD-400模型在罗曼什语上的扩展实验、LLM多方言提示优化策略,以及回溯翻译数据增强方法。后续工作进一步开发了方言感知评估指标,建立变体间混淆矩阵分析框架,并为Translatur-ia等专业翻译系统的迭代提供了验证基础,推动方言机器翻译技术发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作