romansh_data

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/swiss-ai/romansh_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三部分：单语罗马什语数据、多语种数据（精确地从罗马什语翻译成德语、法语、意大利语或英语）以及合成数据。多语种数据分为对齐和非对齐数据。合成数据通过交织翻译数据并在句子前加上‘这是从源语言翻译成罗马什语的文本’来创建。数据集中的元数据包含‘idiom’，如果提供了特定方言，则标明，否则默认为罗马什格里斯昆语。数据包括来自萨戈恩、兰茨、泽尔内茨和伊兰茨市政厅的法律文本和公告，以及格里斯州在罗马什格里斯昆语中的法律文本、GitHub上的双语文本、罗马什在线词典以及罗马什语的维基网站。

This dataset consists of three parts: monolingual Romani data, multilingual data (specifically text translated from Romani into German, French, Italian or English), and synthetic data. The multilingual data is further split into aligned and unaligned datasets. Synthetic data is created by interleaving translated sentences and prepending each sentence with the phrase "This is a text translated from the source language into Romani". The dataset's metadata includes an 'idiom' field. If a specific dialect is provided, it will be specified in this field; otherwise, the default dialect is the Grischun dialect of Romani. The dataset includes legal texts and announcements from the municipal town halls of Sagun, Lanz, Zernetz and Ilanz, legal texts in the Grischun dialect of Romani from the Canton of Graubünden, bilingual texts hosted on GitHub, online Romani dictionaries, and Romani-language Wikipedia websites.

创建时间：

2025-07-24

原始信息汇总

数据集概述

基本信息

语言: 罗曼什语 (roh)
许可证: CC-BY-4.0
任务类别: 翻译 (translation)

数据集配置

monolingual
- 数据文件路径: "monolingual/*.jsonl.gz"
poly_aligned
- 数据文件路径: "polylingual/Aligned/*.jsonl.gz"
poly_non_aligned
- 数据文件路径: "polylingual/Non_Aligned/*.jsonl.gz"
synthetic
- 数据文件路径: "Synthetic/**/*.jsonl.gz"

数据集内容

单语罗曼什语数据
多语数据: 罗曼什语翻译为德语、法语、意大利语或英语
合成数据: 通过交织翻译数据并添加前缀生成

数据来源

市政法律文本和公告 (Sagogn, Lantsch, Zernez, Ilanz)
格劳宾登州法律文本 (Rumantsch Grischun)
GitHub上的双语语料库 (ZurichNLP/RumantschCorpora)
Lia Rumantscha的在线词典 (Surmiran, Sutsilvan, Sursilvan)
维基百科上的罗曼什语网站

数据统计

按语言统计

语言 (ISO代码)	行数	词元数	平均词元/行
roh	77156	77097393	999.2
de	2315	9384007	4053.6
it	1919	1930780	1006.1
unknown	67	1356425	20245.1
fr	1	71052	71052.0
en	1	49168	49168.0

按方言统计 (仅roh)

方言	行数	词元数	平均词元/行
Rumantsch Grischun	76513	63809102	834.0
Sursilvan	89	6105251	68598.3
Vallader	58	2459285	42401.5
Surmiran	25	1031556	41262.2
Puter	47	837640	17822.1
Sutsilvan	6	62748	10458.0

联系方式

邮箱: niklasc@icloud.com

搜集汇总

数据集介绍

构建方式

在罗曼什语语言资源稀缺的背景下，romansh_data数据集通过多源异构数据整合构建而成。该数据集采用分层架构设计，包含单语、多语对齐、多语非对齐及合成数据四种配置。数据采集自格劳宾登州政府法律文本、五个城市公告、GitHub双语语料库、pledarigrond.ch在线词典以及维基百科网页，并通过自动化流程进行清洗和标注。特别值得注意的是，合成数据部分采用跨语言语句交织技术生成，每条数据均标注源语言信息。

使用方法

使用者可通过HuggingFace平台加载四种预设配置，其中monolingual配置适合语言建模任务，poly_aligned配置支持机器翻译研究。数据以jsonl.gz压缩格式存储，加载时自动解压并保留原始元数据字段。建议研究方言变体的用户重点过滤idiom元数据，而合成数据配置适合数据增强实验。该数据集遵循CC-BY-4.0协议，允许商业用途但需注明数据来源。对于特定方言的研究，可参考提供的标记统计表优化数据采样策略。

背景与挑战

背景概述

romansh_data数据集聚焦于罗曼什语（Romansh）这一瑞士少数语言的翻译与多语言处理任务，由研究人员Niklasc等人构建，数据来源涵盖法律文本、市政公告、在线词典及维基百科等多渠道资源。该数据集创建于当代多语言技术蓬勃发展的背景下，旨在解决低资源语言在机器翻译领域的语料匮乏问题，特别是罗曼什语五种方言（如Sursilvan、Vallader等）与德语、法语等主流语言的对齐与转换。其独特价值在于整合了真实语料与合成数据，并通过元数据标注方言差异，为语言保护与跨文化研究提供了重要基础设施。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题上，罗曼什语作为濒危语言，方言变体复杂（如Sursilvan与Surmiran的词汇差异），导致跨方言翻译的语义一致性难以保证；数据构建过程中，非对齐多语言文本需人工校验语料质量，而合成数据的生成规则（如特定句式前缀）可能引入偏差。此外，法律文本的术语密度高且句式严谨，对翻译模型的领域适应性提出更高要求。统计显示部分方言样本量不足（如Sutsilvan仅6行数据），加剧了数据分布不平衡的挑战。

常用场景

经典使用场景

在罗曼什语（Romansh）这一濒危语言的保护与研究中，romansh_data数据集为语言学家和计算语言学家提供了丰富的多方言平行语料。其经典使用场景包括构建罗曼什语各方言（如Sursilvan、Vallader等）与德语、法语、意大利语之间的神经机器翻译系统，尤其适用于低资源语言场景下的跨语言迁移学习研究。数据集包含的法律文本和市政公告，为研究正式文本的自动翻译提供了标准化语料。

解决学术问题

该数据集有效解决了濒危语言数字化保护中的核心学术问题：通过提供77万条罗曼什语单语数据和多语对齐语料，填补了该语言在计算语言学领域的资源空白。其标注的方言差异（如Surmiran与Puter）支持方言学定量研究，而混合语言文本（如德罗混杂的unknown类）为语言接触现象分析提供了实证基础。多源文本的元数据标注，更助力于语言规范化与标准化的跨学科研究。

实际应用

在实际应用层面，该数据集支撑了瑞士格劳宾登州政府的多语言公共服务系统开发，其法律文本语料可直接用于官方文件的自动翻译。教育领域利用其方言平行数据开发了罗曼什语学习工具，而维基百科等网络文本则优化了本地化搜索引擎。数据集中6.8万条标准罗曼什语（Rumantsch Grischun）语料，成为语言政策制定者评估语言活力的重要依据。

数据集最近研究