Yiddish Drama Corpus

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/dracor-org/yidracor

下载链接

链接失效反馈

官方服务：

资源简介：

Yiddish Drama Corpus是一个包含Yiddish戏剧文本的数据集，其编码方面包括保留页面编号、遵循源文本的正字法，并包括必要的语音标注。数据集还涉及对元素的TEI简化处理。

The Yiddish Drama Corpus is a dataset comprising Yiddish theatrical texts, which are encoded with features such as the preservation of page numbers, adherence to the orthography of the source texts, and the inclusion of necessary phonetic annotations. The dataset also involves a simplified TEI (Text Encoding Initiative) processing of elements.

创建时间：

2023-06-29

原始信息汇总

yidracor 数据集概述

编码方面

保留页码信息，格式为 <pb n="1"/>。
正字法遵循源文本，包括发音符号。如需标准化拼写，应在预处理阶段进行。
如果群体可以简化为个体成员，则应编码为个体，使用 <sp who="#person_a #person_b">；否则，群体应编码为群体，使用 <sp who="#all">。

TEI 元素简化

简化以下 TEI 元素：
- fw
- pb
- choice（优先使用 corr 和 reg）

搜集汇总

数据集介绍

构建方式

Yiddish Drama Corpus（YiDraCor）的构建始于DraCor Onboarding Workshop for Hebrew and Yiddish，由Sinai Rusinek和Ruthie Abeliovich在Freie Universität Berlin发起。他们基于Dybbuk项目的工作，引入了Transkribus模型用于意第绪语戏剧文本的处理。此后，Stephan Schwarz对《Yudale der blinder》进行了校正，并确保了文本的正确且可重复的TEI编码。该数据集目前由Jonah Lubin负责编辑和维护。

使用方法

使用Yiddish Drama Corpus时，用户可以利用其TEI编码的文本进行深入的文本分析和研究。通过保留的页码信息和源文本的拼写，研究者可以进行历史语言学和文学分析。此外，数据集中的个体和群体编码方式为社会网络分析提供了便利，而TEI元素的精简处理则简化了数据预处理步骤，使得研究更加高效。

背景与挑战

背景概述

Yiddish Drama Corpus（YiDraCor）是一个专门用于存储意第绪语戏剧文本的TEI（文本编码倡议）版本的语料库。该项目的起源可以追溯到[DraCor Onboarding Workshop for Hebrew and Yiddish](https://www.ada.fu-berlin.de/en/kalender/HeDraCorWorkshop.html)，当时Sinai Rusinek和Ruthie Abeliovich在柏林自由大学奠定了语料库的基础。他们通过[Dybbuk项目](https://www.dybbuk.co/)的工作，以及对Transkribus模型的引入，为意第绪语戏剧文本的数字化处理提供了重要支持。此后，Stephan Schwarz在语料库的创建中发挥了关键作用，负责对《Yudale der blinder》的校正，并确保其正确且可重复地编码为TEI格式。目前，该语料库由Jonah Lubin负责编辑和维护。

当前挑战

Yiddish Drama Corpus的构建面临多个挑战。首先，意第绪语戏剧文本的数字化处理需要精确的文本编码和校正，以确保文本的准确性和可重复性。其次，由于意第绪语的特殊性，包括其拼写和发音的复杂性，文本的预处理和规范化成为一个重要问题。此外，如何有效地将戏剧文本中的角色和群体进行编码，以保持其语义和结构的完整性，也是该语料库面临的一大挑战。最后，确保TEI编码的精简和高效，以便于后续的文本分析和研究，是该语料库持续发展的重要任务。

常用场景

经典使用场景

Yiddish Drama Corpus（YiDraCor）作为一个专门收录意第绪语戏剧文本的TEI编码数据库，其经典使用场景主要体现在对意第绪语戏剧文本的数字化处理与分析。研究者可以利用该数据集对意第绪语戏剧的文本结构、角色关系、语言特征等进行深入研究，尤其在文学、语言学和戏剧研究领域具有重要价值。通过TEI编码的规范性，研究者能够对文本进行精确的标注和解析，从而为意第绪语戏剧的跨学科研究提供坚实的基础。

解决学术问题

Yiddish Drama Corpus通过提供高质量的TEI编码文本，解决了意第绪语戏剧研究中长期存在的文本数字化与标准化问题。该数据集不仅为学者提供了可重复使用的文本数据，还通过保留原始文本的拼写和发音特征，帮助研究者更准确地分析意第绪语的语言演变与文学风格。此外，该数据集的编码规范性为跨语言、跨文化的戏剧比较研究提供了可能，推动了意第绪语戏剧在学术界的广泛应用。

实际应用

在实际应用中，Yiddish Drama Corpus为意第绪语戏剧的数字化保存与传播提供了重要支持。文化机构和图书馆可以利用该数据集进行意第绪语戏剧的数字化存档，确保这些珍贵的文化遗产得以永久保存。同时，教育机构可以通过该数据集开展意第绪语戏剧的教学与研究，促进学生对这一独特文化传统的理解与欣赏。此外，该数据集还可用于开发自然语言处理工具，助力意第绪语的现代应用与推广。

数据集最近研究