German Rhyme Corpus

github2022-02-02 更新2024-05-31 收录

下载链接：

https://github.com/thomasnikolaushaider/german-rhyme-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个历时平衡的德语诗歌样本，手动标注了押韵信息。值得注意的是，几乎有1/3的诗节完全没有押韵，这在构建押韵语料库时常常被忽视（诗节的押韵倾向很大程度上取决于诗节长度）。

This is a diachronically balanced sample of German poetry, manually annotated with rhyme information. Notably, nearly one-third of the stanzas are completely devoid of rhyme, a fact often overlooked in the construction of rhyme corpora (the tendency of stanzas to rhyme is largely dependent on their length).

创建时间：

2019-09-26

原始信息汇总

German Rhyme Corpus 概述

数据集描述

类型：德国诗歌样本
特点：手动标注韵律
统计：约1/3的诗节无韵律

数据集格式

编码：TEI P5
验证：可通过位于 Schema 文件夹中的 relaxNG 模式进行验证
遵循：德国文本档案馆（deutschestextarchiv.de）的约定

引用信息

参考文献：Haider, T., & Kuhn, J. (2018, August). Supervised Rhyme Detection with Siamese Recurrent Networks. In Proceedings of the Second Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (pp. 81-86).
链接：https://www.aclweb.org/anthology/W18-4509/

搜集汇总

数据集介绍

构建方式

German Rhyme Corpus 数据集的构建基于德国诗歌的历时性平衡样本，这些诗歌经过人工标注，重点关注押韵特征。数据集的构建过程中，特别注意到近三分之一的诗节并不押韵，这一现象在构建押韵语料库时往往被忽视。数据集采用TEI P5格式，并可通过relaxNG模式进行验证，确保了数据的标准化和可扩展性。

特点

该数据集的一个显著特点是其历时性平衡样本，涵盖了不同时期的德国诗歌，反映了押韵模式的多样性。数据集不仅包含押韵的诗节，还特别标注了不押韵的部分，这为研究押韵与诗节长度之间的关系提供了宝贵的数据支持。此外，数据集的格式遵循德国文本档案馆的规范，确保了与其他相关研究的兼容性。

使用方法

使用German Rhyme Corpus时，研究者可通过TEI P5格式访问数据，并利用提供的relaxNG模式进行数据验证。数据集适用于押韵检测、诗歌分析等领域的研究，特别是那些关注押韵模式与诗节结构关系的研究。在使用该数据集时，建议引用相关论文以支持研究的学术严谨性。

背景与挑战

背景概述

German Rhyme Corpus 是一个历时平衡的德语诗歌样本，专门用于押韵的手动标注。该数据集由Haider和Kuhn于2018年创建，旨在通过监督学习方法提升押韵检测的准确性。数据集采用TEI P5格式，并遵循德国文本档案馆（deutschestextarchiv.de）的规范。值得注意的是，该数据集中近三分之一的诗节并未押韵，这一现象在构建押韵语料库时往往被忽视。该数据集为研究德语诗歌的韵律结构提供了重要资源，并在计算语言学和文化遗产领域产生了广泛影响。

当前挑战

German Rhyme Corpus 面临的挑战主要集中在两个方面。首先，押韵检测本身是一个复杂的语言学问题，尤其是在德语诗歌中，押韵模式受到诗节长度的显著影响，这使得自动检测押韵的准确性难以保证。其次，数据集的构建过程中，手动标注押韵需要高度的语言学专业知识，且由于近三分之一的诗节并未押韵，标注工作不仅耗时，还需避免误判。此外，数据集的历时平衡性要求对诗歌样本的选择和标注标准进行严格把控，以确保其代表性和研究价值。

常用场景

经典使用场景

German Rhyme Corpus 数据集在文学和语言学研究中具有重要应用，特别是在分析德语诗歌的韵律结构时。该数据集通过对德语诗歌进行历时性平衡采样，并手动标注韵律，为研究者提供了一个丰富的资源库。经典的使用场景包括韵律检测、诗歌风格分析以及跨时代诗歌韵律变化的比较研究。

衍生相关工作

基于German Rhyme Corpus，研究者们开展了多项经典工作。例如，Haider和Kuhn（2018）提出了基于孪生循环网络的监督式韵律检测方法，该方法在韵律检测任务中表现出色。此外，该数据集还启发了其他研究者开发新的韵律分析工具和算法，进一步推动了韵律研究领域的发展。

数据集最近研究