Corpus of Czech Verse

github2022-08-02 更新2024-05-31 收录

下载链接：

https://github.com/versotym/corpusCzechVerse

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1305本来自捷克诗歌语料库的诗歌书籍，每本书都经过详细的诗歌韵律、韵脚、音标、分词、词形化和词性标注的注释。

This dataset comprises 1,305 poetry books from the Czech poetry corpus, each meticulously annotated with detailed poetic metrics, rhyme schemes, phonetic transcriptions, word segmentation, lemmatization, and part-of-speech tagging.

创建时间：

2021-02-26

原始信息汇总

数据集概述

数据集名称

Corpus of Czech Verse

数据集内容

包含1305本诗歌书籍，总计1689本中的部分（384本因版权保护未包含）。
JSON文件中包含的内容：
- 诗歌文本及其元数据
- 诗歌的韵律详细标注
- 韵脚标注
- 语音转录
- 分词
- 词形还原
- 形态标记

数据集结构

每个文件包含来自单一诗歌书籍的诗歌。
每首诗歌的数据结构：
- book_id: 书籍ID
- poem_ids: 诗歌ID
- b_author: 书籍作者或编辑的元数据
- p_author: 诗歌作者的元数据
- biblio: 书籍的详细元数据
- body: 诗歌主体，包括文本、韵律、韵脚、语音转录、分词、词形还原和形态标记。

许可证

CC-BY-SA 4.0

引用信息

引用时需提及数据集由Institute of Czech Literature, Czech Academy of Sciences构建。
引用相关文献：
- ccv2015
- ccv2016

搜集汇总

数据集介绍

构建方式

捷克诗歌语料库（Corpus of Czech Verse）的构建依托于捷克科学院捷克文学研究所的长期研究项目。该数据集收录了1689本诗歌书籍中的1305本，其余384本因版权保护尚未公开。每本书的诗歌内容以JSON格式存储，包含诗歌文本、元数据以及丰富的语言学注释，如韵律、押韵、语音转录、分词、词形还原和形态标注等。数据集的构建过程严格遵循语言学规范，确保了数据的准确性和一致性。

特点

该数据集的特点在于其多层次的语言学注释和丰富的元数据信息。每首诗歌不仅包含文本内容，还详细标注了韵律模式、押韵结构、语音转录以及词法信息。此外，数据集还提供了作者信息、出版信息等元数据，便于研究者进行多维度的分析。数据集的结构设计合理，每首诗歌以字典形式存储，便于程序化处理和分析。

使用方法

使用该数据集时，研究者可通过JSON文件直接访问每首诗歌的文本及其注释信息。每首诗歌的元数据、韵律模式、押韵结构、语音转录等信息均以结构化形式存储，便于进行语言学分析或诗歌风格研究。数据集的使用需遵循CC-BY-SA许可协议，并在引用时注明数据来源及相关文献。此外，数据集支持多种编程语言解析，适用于自然语言处理、文学研究等多个领域。

背景与挑战

背景概述

捷克诗歌语料库（Corpus of Czech Verse）是由捷克科学院捷克文学研究所构建的一个重要的诗歌数据集，旨在为捷克诗歌的韵律、音韵和形态学研究提供丰富的资源。该数据集首次发布于2015年，由Petr Plecháč和Robert Kolár等学者主导开发。其核心研究问题聚焦于捷克诗歌的韵律结构、押韵模式以及语音转录等语言学特征。通过提供详细的诗歌文本及其元数据，该数据集为诗歌分析、计算语言学以及文学研究领域提供了重要的数据支持，推动了捷克诗歌研究的数字化进程。

当前挑战

捷克诗歌语料库在构建过程中面临多重挑战。首先，诗歌文本的韵律和押韵模式具有高度的复杂性，尤其是在捷克语这种具有丰富音韵变化的语言中，如何准确标注这些特征是技术上的难点。其次，数据集中的部分诗歌仍受版权保护，导致无法完全收录所有相关作品，限制了数据的完整性。此外，诗歌文本的多重版本和再版现象增加了数据处理的复杂性，同一首诗歌可能以不同形式出现，需进行细致的版本控制。这些挑战不仅体现在数据处理上，也对后续的诗歌分析和研究提出了更高的技术要求。

常用场景

经典使用场景

在文学研究领域，Corpus of Czech Verse数据集为学者提供了丰富的捷克诗歌文本资源，涵盖了1305本诗歌书籍。该数据集不仅包含诗歌文本及其元数据，还提供了详细的韵律、押韵、语音转录、词形还原和形态标注等注释信息。这些信息使得研究者能够深入分析捷克诗歌的韵律结构、押韵模式以及语言特征，为诗歌的定量分析和比较研究提供了坚实的基础。

解决学术问题

Corpus of Czech Verse数据集解决了文学研究中常见的定量分析难题。通过对诗歌文本的韵律、押韵和语音特征的详细标注，研究者能够系统地探讨捷克诗歌的韵律演变、押韵模式的变化以及不同诗人的风格差异。此外，该数据集还为跨语言诗歌比较研究提供了宝贵的数据支持，推动了诗歌韵律学和文学计量学的发展。

衍生相关工作

Corpus of Czech Verse数据集衍生了许多经典的研究工作，尤其是在诗歌韵律分析和文学计量学领域。例如，基于该数据集的研究成果被用于探讨捷克诗歌的韵律演变规律，以及不同历史时期诗歌风格的变迁。此外，该数据集还为跨语言诗歌比较研究提供了数据基础，推动了全球诗歌研究的深入发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集