romansh_theater_plays

Name: romansh_theater_plays
Creator: University of Zurich, Department of Computational Linguistics
Published: 2025-12-02 18:00:05
License: 暂无描述

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/ZurichNLP/romansh_theater_plays

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种罗马什方言的戏剧文本，包括Rumantsch Grischun、Sursilvan、Sutsilvan、Surmiran、Puter和Vallader。文本从PDF文档中提取，并经过Lia Rumantscha的 manual processing 进行方言分类。每个条目包括一页戏剧文本、标题和所用方言。

提供机构：

University of Zurich, Department of Computational Linguistics

创建时间：

2025-12-02

原始信息汇总

数据集概述

基本描述

该数据集包含以不同罗曼什语变体撰写的各类戏剧剧本。这些剧本提取自 Lia Rumantscha 提供的 PDF 文件。

语言与变体

数据集涵盖以下罗曼什语变体：

格劳宾登罗曼什语 (rm-rumgr)
苏塞尔瓦罗曼什语 (rm-sursilv)
苏齐尔瓦罗曼什语 (rm-sutsilv)
苏尔米兰罗曼什语 (rm-surmiran)
普特罗曼什语 (rm-puter)
瓦拉德尔罗曼什语 (rm-vallader)

数据内容与结构

每个数据条目代表戏剧剧本中的一页。
每个条目包含以下信息：
1. 剧本的标题。
2. 剧本所使用的罗曼什语变体（由 Lia Rumantscha 手动处理并标注）。
3. 该页的文本内容。
数据组织形式：按剧本的页面进行分割。

重要说明

数据集不包含任何平行语料。每个戏剧剧本都是独立的。
文本来源：https://www.liarumantscha.ch

许可证

许可证类型：CC0 1.0

搜集汇总

数据集介绍

构建方式

在罗曼什语文化遗产数字化保存的背景下，该数据集通过系统化流程构建而成。原始文本来源于罗曼什语联盟提供的PDF格式戏剧剧本，涵盖了罗曼什格劳宾登语、苏尔塞尔瓦语、苏齐尔瓦语、苏尔米兰语、普特语及瓦拉德尔语六大方言变体。每个剧本经过人工标注确认其所属方言类别，并依据页面边界进行文本提取，最终形成以单页为单位的独立数据条目，每条记录均包含剧本标题、对应方言及页面文本内容。

特点

该数据集的核心特点在于其语言多样性与文本结构的独特性。作为罗曼什语多方言戏剧文本的集合，它完整呈现了该语言在戏剧艺术中的方言地理分布，为语言变体研究提供了珍贵素材。数据集以页面为最小单元组织，保留了原始剧本的排版与分页信息，但各剧本之间缺乏平行语料关联，这要求使用者在跨方言比较时需结合外部语言知识进行分析。

使用方法

在罗曼什语语言学与数字人文研究领域，该数据集可支持多种分析场景。研究者可通过方言标签筛选特定变体的文本，进行方言特征计量研究或词汇分布分析；戏剧研究者则可利用页面单元结构，探讨剧本叙事节奏或对白模式。由于数据以CC0协议发布，用户可自由进行文本挖掘、语言模型训练或文化遗产展示应用，但需注意非平行语料特性对比较研究设计的影响。

背景与挑战

背景概述

在罗曼什语这一濒危语言资源保护与数字人文研究的交叉领域，罗曼什语戏剧数据集（romansh_theater_plays）应运而生。该数据集由瑞士罗曼什语文化组织Lia Rumantscha主导构建，其核心研究问题聚焦于收集、整理并数字化以罗曼什语各变体——包括罗曼什格劳宾登语、苏尔塞尔瓦语、苏齐尔瓦语、苏尔米兰语、普特语及瓦拉德尔语——创作的戏剧文本。通过从PDF文档中逐页提取文本，数据集不仅保存了这些语言变体的书面遗产，也为计算语言学、语料库语言学及少数语言文化研究提供了珍贵的原始材料，对促进语言技术工具的开发与文化遗产的数字化传承具有深远影响。

当前挑战

该数据集旨在应对罗曼什语作为少数语言在自然语言处理任务中资源匮乏的挑战，特别是缺乏高质量、结构化的文本语料以支持语言建模、机器翻译及文本分析等研究。在构建过程中，团队面临多重困难：首先，原始PDF文档的格式复杂多样，文本提取需克服版面识别与字符编码的技术障碍；其次，罗曼什语内部方言变体丰富，需依赖人工标注确保语言变体分类的准确性；此外，戏剧文本的独特性导致数据非平行，限制了跨语言对比研究的可行性，同时数据规模受限于可用戏剧作品的稀少性，这些因素共同构成了数据集构建与应用的显著挑战。

常用场景

经典使用场景

在罗曼什语语言学研究领域，该数据集为学者提供了丰富的戏剧文本资源，涵盖罗曼什格劳宾登语、苏尔塞尔瓦语等多种方言变体。经典使用场景包括语言变体分析、词汇语法研究以及文化表达模式探索，通过逐页文本提取，支持细粒度的语言学标注与统计建模，助力揭示罗曼什语内部的语言多样性及其演变规律。

衍生相关工作

基于该数据集衍生的经典工作包括罗曼什语方言分类模型、戏剧文本风格分析框架以及低资源语言表示学习研究。学者们利用其多方言结构，开发了针对特定变体的语言技术，并推动了跨语言迁移方法在濒危语言处理中的应用，为类似低资源语料库的构建与分析提供了方法论参考。

数据集最近研究