five

ZurichNLP/romansh-municipal-text-corpus

收藏
Hugging Face2026-01-05 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/romansh-municipal-text-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含瑞士罗曼什语为官方语言的市政当局发布的官方文件文本。数据属于公共领域,包含三种罗曼什语方言:Surmiran、Sursilvan和Vallader。domain字段指明了文本来源,包括三个市政当局和两个领域(Announcement和Laws)。数据在德语(de)和相应的罗曼什语(rm)方言之间是平行的(Sursilvan和Surmiran),而Vallader方言的数据则不是平行的。数据预处理包括确定方言、检查德语翻译可用性、进行句子级对齐以及去除重复数据等步骤。

This dataset contains texts from official documents published by Swiss municipalities where Romansh is an official language in their respective idioms. As such, the data is under the public domain. The dataset contains four Romansh idioms, namely Surmiran, Sursilvan, and Vallader. The domain specifies where the text has been extracted, including three municipalities and two domains named Announcement and Laws, respectively. The data is parallel, in German (de) and the respective Romansh (rm) idiom, for Sursilvan and Surmiran, while it is not parallel for Vallader.
提供机构:
ZurichNLP
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作