romansh-municipal-text-corpus

Name: romansh-municipal-text-corpus
Creator: University of Zurich, Department of Computational Linguistics
Published: 2025-12-08 18:02:01
License: 暂无描述

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/ZurichNLP/romansh-municipal-text-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'罗曼什市政文本语料库'，包含来自瑞士官方文件的文本，这些文件使用罗曼什语的几种方言（Surmiran、Sursilvan和Vallader）。数据分为平行数据和非平行数据，部分文本有德语的平行翻译。数据预处理包括方言识别、翻译对齐检查、句子级对齐以及去重处理。

提供机构：

University of Zurich, Department of Computational Linguistics

创建时间：

2025-12-08

原始信息汇总

数据集概述

基本信息

数据集名称：Romansh Municipal Text Corpus
许可证：cc0-1.0
语言：罗曼什语（rm）

数据集内容

数据来源：瑞士官方文件，来自罗曼什语为官方语言的市镇。
数据性质：公共领域数据。
包含的罗曼什语方言：
- Surmiran
- Sursilvan
- Vallader
文本领域：三个市镇，以及两个特定领域：“Announcement”（公告）和“Laws”（法律）。

数据特征

并行数据：
- 对于Sursilvan和Surmiran方言，数据是并行的，包含德语（de）和相应的罗曼什语（rm）文本。
- 对于Vallader方言，数据不是并行的。
预处理：
- 确定每个文档的方言。
- 检查是否存在德语翻译，分为三类：
  1. 对齐的罗曼什语和德语文本。
  2. 同一文件内包含翻译但未对齐的文本（进行了句子级对齐）。
  3. 无德语翻译的文档。
- 从对齐的文本对以及非对齐、非并行数据中移除了重复项。

搜集汇总

数据集介绍

构建方式

在罗曼什语作为官方语言的瑞士市镇，该数据集系统地收集了官方文件中的文本内容，涵盖了苏尔米兰、苏尔锡尔万和瓦拉德尔三种方言。构建过程中，首先依据文档来源确定其所属方言，随后通过精细的文本对齐技术，识别并处理了德语与罗曼什语之间的平行文本关系。对于部分文件内存在未对齐的翻译内容，研究团队实施了句子级别的对齐操作，并在此基础上剔除了重复数据，确保了数据集的纯净性与结构完整性。

使用方法

使用者可依据方言分类与平行性标识，灵活提取所需语料进行语言学分析或自然语言处理任务。对于平行文本部分，可直接应用于双语词典构建、机器翻译模型训练等跨语言研究；而非平行文本则适用于单语语言模型开发或方言变体研究。在数据处理时，建议结合领域标签（如‘公告’或‘法律’）进行领域适应性分析，以充分发挥数据在专业语境下的应用潜力。

背景与挑战

背景概述

罗曼什语作为瑞士的官方语言之一，其语言资源在自然语言处理领域相对稀缺，尤其是在低资源语言技术发展中面临诸多挑战。Romansh Municipal Text Corpus数据集应运而生，由瑞士相关研究机构或语言技术团队于近年创建，旨在收集和整理瑞士罗曼什语官方文本，涵盖苏尔米兰、苏尔锡尔万及瓦拉德尔等多种方言变体。该数据集的核心研究问题聚焦于多方言平行语料库的构建，以支持机器翻译、语言模型预训练等任务，对促进罗曼什语的语言技术应用及文化遗产保护具有重要影响力。

当前挑战

该数据集旨在解决低资源语言机器翻译与多方言处理的领域挑战，具体包括方言间语义对齐的复杂性以及平行数据稀缺性问题。在构建过程中，研究人员面临文本对齐的困难，例如部分文档缺乏德语翻译或翻译未在句子级别对齐，需通过人工或自动方法进行精细处理；同时，数据去重与方言变体识别也增加了语料库整理的复杂度，这些挑战共同影响了数据集的规模与质量。

常用场景

经典使用场景

在罗曼什语这一濒危语言的研究领域，Romansh Municipal Text Corpus 数据集为语言学家和计算语言学家提供了宝贵的资源。该数据集通过收集瑞士官方文件中的罗曼什语文本，涵盖了Surmiran、Sursilvan和Vallader等多种方言，并部分与德语平行对齐，使其成为机器翻译模型训练与评估的经典场景。研究人员利用这些对齐文本，能够开发针对低资源语言的翻译系统，有效促进罗曼什语的数字化保存与跨语言交流。

解决学术问题

该数据集主要解决了低资源语言处理中的核心学术挑战，如数据稀缺性和方言多样性问题。通过提供结构化的官方文本，它支持了罗曼什语方言的语法分析、词汇比较和语言演变研究。在计算语言学中，数据集的部分平行对齐特性助力于跨语言信息检索和语义对齐模型的开发，为濒危语言的自动处理提供了实证基础，推动了语言技术向多语种公平性发展。

实际应用

在实际应用中，Romansh Municipal Text Corpus 服务于瑞士多语制地区的公共事务与教育领域。政府部门可利用该数据集构建自动翻译工具，以处理市政公告和法律文件，提升行政效率与公民服务。教育机构则能基于这些文本开发语言学习材料，支持罗曼什语的教学与传承。此外，它还为文化保护项目提供了数字化语料，助力濒危语言的社区复兴。

数据集最近研究