Corpus of Czech Verse
收藏github2022-08-02 更新2024-05-31 收录
下载链接:
https://github.com/versotym/corpusCzechVerse
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1305本来自捷克诗歌语料库的诗歌书籍,每本书都经过详细的诗歌韵律、韵脚、音标、分词、词形化和词性标注的注释。
This dataset comprises 1,305 poetry books from the Czech poetry corpus, each meticulously annotated with detailed poetic metrics, rhyme schemes, phonetic transcriptions, word segmentation, lemmatization, and part-of-speech tagging.
创建时间:
2021-02-26
原始信息汇总
数据集概述
数据集名称
Corpus of Czech Verse
数据集内容
- 包含1305本诗歌书籍,总计1689本中的部分(384本因版权保护未包含)。
- JSON文件中包含的内容:
- 诗歌文本及其元数据
- 诗歌的韵律详细标注
- 韵脚标注
- 语音转录
- 分词
- 词形还原
- 形态标记
数据集结构
- 每个文件包含来自单一诗歌书籍的诗歌。
- 每首诗歌的数据结构:
book_id: 书籍IDpoem_ids: 诗歌IDb_author: 书籍作者或编辑的元数据p_author: 诗歌作者的元数据biblio: 书籍的详细元数据body: 诗歌主体,包括文本、韵律、韵脚、语音转录、分词、词形还原和形态标记。
许可证
CC-BY-SA 4.0
引用信息
搜集汇总
数据集介绍

构建方式
捷克诗歌语料库(Corpus of Czech Verse)的构建依托于捷克科学院捷克文学研究所的长期研究项目。该数据集收录了1689本诗歌书籍中的1305本,其余384本因版权保护尚未公开。每本书的诗歌内容以JSON格式存储,包含诗歌文本、元数据以及丰富的语言学注释,如韵律、押韵、语音转录、分词、词形还原和形态标注等。数据集的构建过程严格遵循语言学规范,确保了数据的准确性和一致性。
特点
该数据集的特点在于其多层次的语言学注释和丰富的元数据信息。每首诗歌不仅包含文本内容,还详细标注了韵律模式、押韵结构、语音转录以及词法信息。此外,数据集还提供了作者信息、出版信息等元数据,便于研究者进行多维度的分析。数据集的结构设计合理,每首诗歌以字典形式存储,便于程序化处理和分析。
使用方法
使用该数据集时,研究者可通过JSON文件直接访问每首诗歌的文本及其注释信息。每首诗歌的元数据、韵律模式、押韵结构、语音转录等信息均以结构化形式存储,便于进行语言学分析或诗歌风格研究。数据集的使用需遵循CC-BY-SA许可协议,并在引用时注明数据来源及相关文献。此外,数据集支持多种编程语言解析,适用于自然语言处理、文学研究等多个领域。
背景与挑战
背景概述
捷克诗歌语料库(Corpus of Czech Verse)是由捷克科学院捷克文学研究所构建的一个重要的诗歌数据集,旨在为捷克诗歌的韵律、音韵和形态学研究提供丰富的资源。该数据集首次发布于2015年,由Petr Plecháč和Robert Kolár等学者主导开发。其核心研究问题聚焦于捷克诗歌的韵律结构、押韵模式以及语音转录等语言学特征。通过提供详细的诗歌文本及其元数据,该数据集为诗歌分析、计算语言学以及文学研究领域提供了重要的数据支持,推动了捷克诗歌研究的数字化进程。
当前挑战
捷克诗歌语料库在构建过程中面临多重挑战。首先,诗歌文本的韵律和押韵模式具有高度的复杂性,尤其是在捷克语这种具有丰富音韵变化的语言中,如何准确标注这些特征是技术上的难点。其次,数据集中的部分诗歌仍受版权保护,导致无法完全收录所有相关作品,限制了数据的完整性。此外,诗歌文本的多重版本和再版现象增加了数据处理的复杂性,同一首诗歌可能以不同形式出现,需进行细致的版本控制。这些挑战不仅体现在数据处理上,也对后续的诗歌分析和研究提出了更高的技术要求。
常用场景
经典使用场景
在文学研究领域,Corpus of Czech Verse数据集为学者提供了丰富的捷克诗歌文本资源,涵盖了1305本诗歌书籍。该数据集不仅包含诗歌文本及其元数据,还提供了详细的韵律、押韵、语音转录、词形还原和形态标注等注释信息。这些信息使得研究者能够深入分析捷克诗歌的韵律结构、押韵模式以及语言特征,为诗歌的定量分析和比较研究提供了坚实的基础。
解决学术问题
Corpus of Czech Verse数据集解决了文学研究中常见的定量分析难题。通过对诗歌文本的韵律、押韵和语音特征的详细标注,研究者能够系统地探讨捷克诗歌的韵律演变、押韵模式的变化以及不同诗人的风格差异。此外,该数据集还为跨语言诗歌比较研究提供了宝贵的数据支持,推动了诗歌韵律学和文学计量学的发展。
衍生相关工作
Corpus of Czech Verse数据集衍生了许多经典的研究工作,尤其是在诗歌韵律分析和文学计量学领域。例如,基于该数据集的研究成果被用于探讨捷克诗歌的韵律演变规律,以及不同历史时期诗歌风格的变迁。此外,该数据集还为跨语言诗歌比较研究提供了数据基础,推动了全球诗歌研究的深入发展。
以上内容由遇见数据集搜集并总结生成



