Поэтический корпус русского языка

github2023-01-28 更新2024-05-31 收录

下载链接：

https://github.com/IlyaGusev/PoetryCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

俄语诗歌数据集，包含16694首诗歌，由195位作者创作，用于诗歌分析和合成。

Russian poetry dataset, comprising 16,694 poems authored by 195 poets, utilized for poetry analysis and synthesis.

创建时间：

2016-10-24

原始信息汇总

数据集概述

基本信息

名称: Поэтический корпус русского языка
统计数据:
- 字符数: 13208090
- 单词数: 2186827
- 诗歌数量: 16694
- 主题标记的诗歌数量: 3904
- 作者数量: 195

数据处理

网络爬虫: 使用scrapy框架从不同网站收集诗歌文本，包括klassika.xml, strofa.xml, themes.xml, rupoem.xml。
文本合并与去重: 通过unite.py脚本合并和去重文本，生成xml和json格式的数据集。
数据库初始化: 使用reset_db.sh脚本初始化包含音节和重音标记的数据库。

使用工具

分析与合成工具: 提供了一个名为rupo的工具包，用于诗歌的分析和合成。

数据获取

预处理版本: 通过执行一系列命令获取预处理的数据集。
完整版本: 通过git lfs pull命令获取完整的数据集。

运行环境

Docker Compose: 提供了使用Docker Compose部署和运行数据集的指南。

搜集汇总

数据集介绍

构建方式

Поэтический корпус русского языка数据集的构建过程采用了多源数据采集与整合的策略。通过使用Scrapy框架，开发了多个爬虫程序，分别从不同的诗歌网站（如klassika、strofa、themes、rupoem）抓取诗歌文本。随后，利用Python脚本对这些文本进行合并与去重处理，并生成XML和JSON格式的语料库。此外，数据集还通过Docker Compose技术实现了环境的快速部署与数据库的初始化，确保了数据处理的便捷性与一致性。

使用方法

使用该数据集时，用户可以通过Git LFS直接获取预处理的语料库文件，或通过Docker Compose快速搭建本地环境进行数据探索。数据集支持XML和JSON格式，便于与多种分析工具集成。对于需要进一步处理的研究者，可以利用提供的Python脚本进行文本合并与去重操作。此外，数据库的初始化脚本支持音节与重音的标注，为诗歌的韵律分析提供了基础。通过结合文献中提到的自动化分析工具，用户可以实现对俄语诗歌的深入分析与研究。

背景与挑战

背景概述

Поэтический корпус русского языка（俄语诗歌语料库）是一个专注于俄语诗歌文本分析与合成的数据集，由Ilya Gusev等人创建并维护。该数据集汇集了16694首俄语诗歌，涵盖了195位诗人的作品，并包含丰富的元信息，如主题标签和音节标注。其核心研究问题在于通过自动化工具对俄语诗歌的韵律、结构和主题进行深入分析，从而推动自然语言处理技术在文学领域的应用。该数据集不仅为俄语诗歌的学术研究提供了宝贵资源，还为诗歌生成、文本分类等任务提供了数据支持，具有重要的学术价值和应用前景。

当前挑战

该数据集在构建过程中面临多重挑战。首先，俄语诗歌的韵律和结构复杂多样，自动化分析工具需要处理大量的不规则文本，这对算法的鲁棒性和准确性提出了较高要求。其次，数据集的构建依赖于从多个网站爬取的诗歌文本，数据源的多样性和格式不统一增加了数据清洗和整合的难度。此外，诗歌的主题标注和音节标注需要大量的人工干预，确保标注的一致性和准确性成为一项耗时且复杂的任务。最后，如何将数据集应用于实际的诗歌生成和文本分类任务，仍需进一步探索和优化算法，以应对俄语诗歌特有的语言和文化背景。

常用场景

经典使用场景

Поэтический корпус русского языка数据集广泛应用于文学分析和计算语言学领域，特别是在诗歌文本的自动分析和生成方面。研究者利用该数据集进行诗歌韵律、节奏和主题的自动化分析，帮助揭示俄语诗歌的结构特征和语言规律。

解决学术问题

该数据集解决了俄语诗歌研究中长期存在的自动化分析难题，如韵律识别、主题分类和作者风格分析。通过提供大量标注丰富的诗歌文本，研究者能够开发出更精确的算法，推动计算诗学和文学研究的交叉领域发展。

实际应用

在实际应用中，该数据集被用于开发智能诗歌创作工具和教育平台。例如，基于该数据集的算法可以生成符合特定韵律和主题的诗歌，辅助语言教学和文学创作，同时也为文化遗产的数字化保存提供了技术支持。

数据集最近研究