PoeTree|诗歌语料库数据集|多语言数据集

github2024-04-02 更新2024-05-31 收录

诗歌语料库

多语言

下载链接：

https://github.com/versotym/poetree

下载链接

链接失效反馈

资源简介：

PoeTree是一个标准化的诗歌语料库集合，包含超过330,000首诗歌，涵盖十种语言（捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、俄语、斯洛文尼亚语和西班牙语）。每个语料库都经过去重处理，增加了通用依存关系，提供了额外的元数据，并转换为统一的JSON结构。

PoeTree is a standardized collection of poetry corpora, encompassing over 330,000 poems across ten languages (Czech, English, French, German, Hungarian, Italian, Portuguese, Russian, Slovenian, and Spanish). Each corpus has been deduplicated, enhanced with universal dependencies, provided with additional metadata, and converted into a unified JSON structure.

创建时间：

2024-04-02

原始信息汇总

数据集概述

Poetree是一个包含超过330,000首诗歌的标准化集合，涵盖十种语言（捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、俄语、斯洛文尼亚语和西班牙语）。每个语料库都经过去重处理，并丰富了通用依存关系，提供了额外的元数据，并转换为统一的JSON结构。

数据集内容

Poetree：代表整个Poetree集合。
Corpus：代表单个语料库。
Author：代表单个作者。
Source：代表单个书籍。
Poem：代表单个诗歌。

数据集操作

安装：通过pip安装poetree库。
使用：通过导入poetree库，可以使用其提供的五个类进行数据操作。
获取数据：
- 通过get_corpora(), get_authors(), get_sources(), get_poems()方法获取相应数据。
- 通过get_body()方法获取诗歌的详细内容。
- 通过get_all()方法同时获取诗歌的元数据和详细内容。
元数据访问：通过metadata()方法访问元数据，支持多种输出格式。

示例代码

python corpus = poetree.Corpus(cs) print(number of authors:, corpus.n_authors) print(number of poems:, corpus.n_poems)

corpus = poetree.Corpus(en) for author in corpus.get_authors(born_after=1750, born_before=1760): print(f{author.name} ({author.born}))

poem = poetree.Poem(id_=1, lang=cs) body = poem.get_body() print(body[0])

poem = poetree.Poem(id_=1, lang=cs) metadata_and_body = poem.get_all()

AI搜集汇总

数据集介绍

构建方式

PoeTree数据集的构建过程体现了对多语言诗歌文本的系统化整合与标准化处理。该数据集涵盖了十种语言的超过33万首诗歌，每首诗歌均经过去重处理，并进一步丰富了通用依存关系（Universal Dependencies）的标注。此外，每首诗歌还附带了额外的元数据信息，最终统一转换为JSON格式，确保了数据结构的一致性和可扩展性。这一构建方式不仅提升了数据的可用性，还为跨语言诗歌研究提供了坚实的基础。

特点

PoeTree数据集以其多语言覆盖和丰富的标注信息脱颖而出。数据集包含捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、俄语、斯洛文尼亚语和西班牙语等多种语言的诗歌，每首诗歌均配备了详细的元数据，如作者信息、创作年代等。此外，诗歌文本经过通用依存关系的标注，使得语言学分析和文本挖掘成为可能。数据集的结构化设计使其能够支持多种研究需求，包括诗歌风格分析、跨语言比较以及文学史研究等。

使用方法

PoeTree数据集的使用方法灵活多样，主要通过Python库`poetree`进行访问和操作。用户可以通过安装`poetree`库，轻松获取数据集中的诗歌、作者、书籍等信息。库中提供了多个类，如`Poetree`、`Corpus`、`Author`、`Source`和`Poem`，分别用于访问整个数据集、单个语料库、作者、书籍和诗歌。用户可以通过这些类的方法，如`get_authors()`、`get_poems()`等，筛选和获取特定条件下的数据。此外，数据集支持将元数据导出为Pandas DataFrame格式，便于进一步的数据分析和可视化。

背景与挑战

背景概述

PoeTree数据集是一个标准化的诗歌语料库集合，涵盖了超过33万首诗歌，涉及十种语言（捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、俄语、斯洛文尼亚语和西班牙语）。该数据集由Versologie研究所创建，旨在为诗歌研究提供丰富的语言资源和统一的JSON结构。每个语料库都经过去重处理，并附带了通用依存关系（Universal Dependencies）的注释以及额外的元数据。PoeTree的推出为跨语言诗歌分析、文学研究以及自然语言处理领域提供了重要的数据支持，推动了诗歌文本的自动化处理与深度分析。

当前挑战

PoeTree数据集在构建和应用过程中面临多重挑战。首先，诗歌作为一种高度文学化的文本形式，其语言结构复杂，包含大量的隐喻、象征和韵律特征，这对自动化的文本分析和注释提出了极高的要求。其次，数据集涵盖多种语言，每种语言的诗歌风格和语法结构差异显著，如何在多语言环境下保持数据的一致性和准确性是一个重要挑战。此外，数据集的构建过程中需要对大量原始文本进行去重、注释和格式转换，这些步骤不仅耗时，还需要高度的专业知识和技术支持。最后，如何有效地利用这些丰富的元数据和注释信息，开发出能够深入理解诗歌内容的自然语言处理模型，也是当前研究中的一个关键难题。

常用场景

经典使用场景

PoeTree数据集在文学研究和自然语言处理领域具有广泛的应用。其经典使用场景包括诗歌文本的分析与比较，特别是在多语言环境下，研究者可以利用该数据集进行跨语言的诗歌风格、主题和结构的对比研究。通过统一的JSON结构，研究者能够轻松访问和处理来自不同语言的诗歌文本，从而深入探讨诗歌的多样性和共性。

解决学术问题

PoeTree数据集解决了文学研究中常见的多语言诗歌文本获取和处理难题。通过提供超过33万首诗歌的标准化语料库，研究者能够避免数据重复和格式不统一的问题。此外，数据集中的诗歌文本均经过Universal Dependencies的标注，为自然语言处理任务如句法分析、语义分析等提供了高质量的标注数据，极大地推动了文学计算和语言学研究的发展。

衍生相关工作

PoeTree数据集衍生了许多经典的研究工作，特别是在文学计算和自然语言处理领域。例如，基于该数据集的研究成果包括多语言诗歌风格分类模型、诗歌情感分析工具以及跨语言诗歌翻译系统。这些工作不仅丰富了文学研究的工具和方法，还为自然语言处理技术的应用提供了新的场景和挑战，推动了相关领域的交叉融合与创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。