PoeTree|多语言文学数据集|语料库数据集
收藏github2024-01-17 更新2024-05-31 收录
下载链接:
https://github.com/perechen/poetRee
下载链接
链接失效反馈资源简介:
PoeTree是一个标准化的诗歌语料库集合,包含超过300,000首诗歌,涵盖九种语言(捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、西班牙语和俄语)。每个语料库都经过去重处理,增加了通用依赖关系,提供了额外的元数据,并转换为统一的JSON结构。
创建时间:
2023-12-22
原始信息汇总
数据集概述
poetRee 是一个R语言库,用于从PoeTree API获取整理好的诗歌数据。PoeTree是一个包含超过300,000首诗歌的标准化集合,涵盖九种语言(捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、斯洛文尼亚语、西班牙语和俄语)。每个语料库都经过去重、丰富了通用依存关系、提供了额外的元数据,并转换为统一的JSON结构。
数据集内容
- 元数据:提供每个语料库的摘要,包括语言ISO代码。
- 作者信息:提供语料库中所有作者的详细信息。
- 来源信息:提供语料库中所有(书目)来源的详细信息,支持作者ID。
- 诗歌信息:提供特定作者ID(或作者ID向量)的所有诗歌信息。
- 文本信息:提供特定诗歌ID的文本及其注释,支持不同的输出格式。
数据集使用
- 安装:通过
devtools::install_github("perechen/poetRee")进行安装。 - 引用:使用PoeTree数据集时,需引用相关数据集和论文。
数据集示例
- 元数据示例:展示每个语料库的统计信息,如作者数、诗歌数、行数等。
- 作者信息示例:展示特定语料库(如捷克语)的所有作者详细信息。
- 来源信息示例:展示特定语料库和作者ID的来源详细信息。
- 诗歌信息示例:展示特定语料库和作者ID的诗歌详细信息。
- 文本信息示例:展示特定诗歌ID的文本及其不同格式的输出。
AI搜集汇总
数据集介绍

构建方式
PoeTree数据集的构建基于对九种语言(捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、西班牙语和俄语)的诗歌语料库的标准化处理。该数据集包含了超过30万首诗歌,每首诗歌都经过去重处理,并附加了Universal Dependencies的标注,同时提供了丰富的元数据,并以统一的JSON结构进行存储。这一过程确保了数据集的高质量和一致性,为多语言诗歌研究提供了坚实的基础。
特点
PoeTree数据集的显著特点在于其多语言覆盖和丰富的元数据支持。该数据集不仅涵盖了九种语言的诗歌,还通过Universal Dependencies的标注,提供了详细的语法和句法信息。此外,每首诗歌都附带了作者、出版年份、语言代码等元数据,使得研究者能够进行跨语言和跨时间的诗歌分析。数据集的统一JSON结构也便于不同语言和工具的集成与处理。
使用方法
PoeTree数据集的使用方法简便且灵活。研究者可以通过poetRee库直接访问PoeTree的REST API,获取诗歌的元数据、作者信息、诗集来源以及诗歌文本等内容。该库遵循tidy数据格式,支持R语言中的tidytext包进行文本分析。通过调用get_metadata()、get_authors()、get_sources()、get_poems()和get_text()等函数,用户可以轻松获取所需的数据,并进行进一步的分析和处理。
背景与挑战
背景概述
PoeTree数据集是由Petr Plecháč、Silvie Cinková、Robert Kolár等研究人员于2023年创建的,旨在为多语言诗歌文本提供标准化的语料库。该数据集包含了超过30万首诗歌,涵盖了九种语言,包括捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、西班牙语和俄语。每首诗歌都经过去重处理,并附加了Universal Dependencies的注释,提供了丰富的元数据,并以统一的JSON结构存储。PoeTree的构建不仅为诗歌研究提供了丰富的资源,还为跨语言文本分析和自然语言处理领域带来了新的研究机会。
当前挑战
PoeTree数据集在构建过程中面临了多重挑战。首先,多语言诗歌文本的收集与标准化处理是一项复杂任务,涉及不同语言的语法、文化背景和诗歌形式的差异。其次,为每首诗歌添加Universal Dependencies注释需要高度专业化的语言学知识,确保注释的准确性和一致性。此外,数据集的规模庞大,如何高效地存储、检索和管理这些数据也是一个技术挑战。最后,跨语言的诗歌文本分析需要克服语言间的语义差异和文化背景的多样性,这对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
PoeTree数据集的经典使用场景主要集中在多语言诗歌文本的分析与研究。该数据集提供了超过30万首诗歌,涵盖九种语言,并附有详细的元数据和通用依赖关系标注。研究者可以利用这些数据进行跨语言的诗歌风格比较、情感分析、以及语言学特征的挖掘。通过整合的JSON结构和R语言的`poetRee`包,用户能够轻松获取和处理诗歌数据,特别适用于文本挖掘和自然语言处理领域的研究。
解决学术问题
PoeTree数据集解决了多语言诗歌文本的标准化处理问题,为学术界提供了丰富的资源。它不仅解决了诗歌文本的重复性问题,还通过通用依赖关系标注,使得跨语言的诗歌分析成为可能。这一数据集为语言学、文学研究、以及自然语言处理领域的学者提供了宝贵的研究材料,推动了多语言诗歌文本的比较研究和深度分析,具有重要的学术意义和影响。
衍生相关工作
PoeTree数据集的发布催生了一系列相关研究工作,特别是在多语言诗歌文本的分析和处理领域。例如,基于该数据集的跨语言诗歌风格比较研究、情感分析模型构建、以及诗歌生成算法等。此外,`poetRee`包的开发也为R语言用户提供了便捷的工具,进一步推动了诗歌文本的自动化处理和分析。这些衍生工作不仅丰富了诗歌研究的工具箱,也为多语言文本处理领域提供了新的研究方向。
以上内容由AI搜集并总结生成
