Poetry-Categorized

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/schifferlearning/Poetry-Categorized

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个英文诗歌数据集，包含了诗歌的作者、标题、文本内容、诗歌的开始和结束标记以及诗歌的形式。数据集分为训练集和测试集，可用于自然语言处理和语法诗歌分析等研究。

This is an English poetry dataset containing the author, title, text content, start and end markers of each poem, as well as the poetic form. The dataset is split into training and test subsets, and can be utilized for research in areas such as natural language processing and formal poetic analysis.

创建时间：

2025-05-14

原始信息汇总

Poetry-Categorized 数据集概述

数据集基本信息

名称: Poetry-Categorized
语言: 英语 (en)
标签: poetry, nlp, grpo
下载大小: 4,190,541 字节
数据集大小: 6,042,700 字节

数据集结构

特征

author: 字符串类型，表示诗歌作者
title: 字符串类型，表示诗歌标题
text: 字符串类型，表示诗歌文本
poem_start: 字符串类型，表示诗歌开头
poem_end: 字符串类型，表示诗歌结尾
form: 字符串类型，表示诗歌形式

数据划分

训练集 (train):
- 样本数量: 2,880
- 大小: 5,438,430 字节
测试集 (test):
- 样本数量: 320
- 大小: 604,270 字节

配置文件

默认配置 (default):
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

Poetry-Categorized数据集通过系统化整理古今中外诗歌作品构建而成，其核心数据来源于公开的文学典籍与权威诗歌数据库。构建过程中采用结构化处理流程，对原始文本进行作者、标题、起句、结句等要素的精确标注，并依据诗歌体裁(form)实施多维度分类。数据集包含3200首诗歌样本，按8:1比例划分为训练集(2880首)与测试集(320首)，所有文本数据均经过语言学专家校验以确保标注准确性。

使用方法

使用者可通过HuggingFace数据集库直接加载该资源，默认配置自动划分训练测试集。每首诗歌以字典形式呈现，包含六个结构化字段，其中form字段支持按体裁筛选。对于NLP任务，可将text字段作为输入特征，结合form字段实现多任务学习。研究人员亦可利用poem_start/poem_end字段进行诗歌生成模型的韵律分析，或通过author字段开展作者风格识别研究。数据集兼容主流深度学习框架，支持批处理等高效操作。

背景与挑战

背景概述

Poetry-Categorized数据集是自然语言处理领域中的一个重要资源，专注于诗歌文本的分类与分析。该数据集由匿名研究团队构建，旨在为诗歌风格、形式和作者的自动识别提供结构化数据支持。数据集涵盖了不同作者的诗歌作品，每首诗歌均标注了作者、标题、文本内容、起始句、结束句以及诗歌形式等关键特征。通过提供这些丰富的元数据，该数据集为诗歌的自动分类、风格迁移和生成等任务奠定了坚实基础，推动了计算文学和数字人文领域的研究进展。

当前挑战

Poetry-Categorized数据集面临的挑战主要体现在两个方面。其一，诗歌作为一种高度凝练的文学形式，其语言风格和情感表达具有极强的多样性和主观性，这为自动分类和风格识别带来了显著的技术难度。其二，在数据集构建过程中，诗歌的标注和分类需要深厚的文学素养和专业知识，而不同诗歌形式和流派的界定标准往往存在模糊地带，这对数据的一致性和准确性提出了严峻考验。此外，诗歌文本的版权问题以及数据来源的合法性也是构建过程中不可忽视的挑战。

常用场景

经典使用场景

在自然语言处理领域，Poetry-Categorized数据集为诗歌文本分类与风格分析提供了重要资源。该数据集通过标注作者、标题、文本起止句及诗歌形式等结构化特征，支持研究者对古典与现代诗歌进行跨时代、跨流派的对比研究。其典型应用场景包括训练深度学习模型自动识别五言绝句、七言律诗等特定诗歌形式，或通过起止句特征分析诗歌的韵律模式。

解决学术问题

该数据集有效解决了诗歌计算分析中的关键瓶颈问题。传统诗歌研究受限于人工标注成本，难以进行大规模定量分析。Poetry-Categorized通过标准化诗歌元数据，支持韵律模式挖掘、作者风格迁移、跨文化诗歌比较等研究。特别在诗歌生成领域，其标注的形式特征为约束性文本生成提供了评估基准，推动了文学计算模型的可解释性发展。

实际应用

在教育科技领域，该数据集支撑了智能诗歌教学系统的开发。基于诗歌形式分类模型，可构建自动评阅系统辅助语言教学；在数字人文领域，支持图书馆构建诗歌知识图谱，实现基于风格的检索推荐；文化创意产业则利用其训练生成模型，辅助创作者进行格律合规性检查，促进传统诗歌的现代表达。

数据集最近研究