AlekseyCalvin/Formal_Poetry_Rhyme_Pairs

Name: AlekseyCalvin/Formal_Poetry_Rhyme_Pairs
Creator: AlekseyCalvin
Published: 2026-04-10 16:11:07
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/AlekseyCalvin/Formal_Poetry_Rhyme_Pairs

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: gpl-3.0 tags: - poetry - rhyme - NLP - Text - English - pairs - corpus --- A re-curated selection of English-language poetry rhyme pairs used in the dataset/article linked below (and initially drawn from the Chadwyck-Healey corpus). <br> [Link to the full source data](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/BEQAYG) ##### SOURCE: ``` Dataset for "Generative Aesthetics: On the formal stuckness of AI verse" (Journal of Cultural Analytics_, vol. 10, no. 3, Sept. 2025) https://culturalanalytics.org/article/id/1036/ https://doi.org/10.7910/DVN/BEQAYG ```

提供机构：

AlekseyCalvin

搜集汇总

数据集介绍

构建方式

该数据集源自一项发表于《Journal of Cultural Analytics》的研究成果，题为《Generative Aesthetics: On the formal stuckness of AI verse》。研究者从Chadwyck-Healey语料库中精选出英语诗歌中的押韵对，并经过重新整理与筛选，构建了这一名为Formal_Poetry_Rhyme_Pairs的专门语料库。原始数据可通过哈佛大学Dataverse平台获取，确保了来源的透明性与可溯性。

特点

该数据集聚焦于英语诗歌中押韵对的配对关系，具有高度的专业性与领域针对性。其收錄的押韵对涵盖了丰富的韵律模式与诗歌形式，为计算诗学、韵律学以及自然语言处理中的音韵研究提供了宝贵的结构化资源。数据以简洁的配对形式呈现，便于直接应用于模型训练与韵律分析任务。

使用方法

用户可直接从HuggingFace平台加载该数据集，应用于诗歌生成、韵律验证或押韵模式识别等NLP任务。数据集以标准化的文本对格式存储，适合直接输入至序列到序列模型或进行特征提取。此外，结合原始研究论文中的方法论，学者可进一步探索AI诗歌中的形式僵化问题，开展跨学科的文学计算分析。

背景与挑战

背景概述

在计算诗学与数字人文学科的交叉领域中，韵律结构作为英语诗歌形式的核心要素，长期以来依赖人工标注与规则驱动的方法进行研究。Formal_Poetry_Rhyme_Pairs数据集由相关研究团队于2025年创建，源自Chadwyck-Healey语料库的精选重编，旨在支撑“生成美学：论AI诗歌的形式性停滞”这一前沿课题。该数据集聚焦于英语诗歌中韵律对（rhyme pairs）的系统性标注与结构分析，为探究诗歌形式在人工智能生成语境下的演化规律提供了标准化语料基础。凭借其精细化的对齐机制与可复现的构建流程，该数据集迅速成为计算文学研究、自然语言处理及数字人文领域的重要资源，推动了AI诗歌形式批评从定性描述向定量分析的范式转型。

当前挑战

该数据集所应对的核心领域挑战在于：传统诗歌韵律研究多依赖于小规模人工语料，难以支撑生成式AI系统在诗歌创作中对形式约束（如押韵模式）的深度学习与自动建模。构建过程中，研究人员面临两大关键难题：一是从Chadwyck-Healey等大型语料库中筛取高纯度韵律对，需处理跨文本、跨时代的诗歌格律变体与历史拼写差异；二是确保数据集的韵律标注一致性——不同时期诗歌的押韵标准（如完全押韵与近似押韵的界限）需通过迭代验证与专家评审加以校准，以消除主观歧义，从而为后续的AI韵律生成评估提供客观参照基准。

常用场景

经典使用场景

该数据集汇聚了来自Chadwyck-Healey语料库的英语诗歌押韵对，经过精心的重新筛选与整理，为计算诗学与自然语言处理领域提供了高质量的韵律配对资源。研究者可将其用于训练和评估诗歌韵律识别模型，探索英语诗歌中押韵模式的统计规律，或作为诗歌生成系统中押韵约束的基础数据。其经典使用场景包括构建押韵词典、分析诗人风格中的韵律偏好，以及开发能够自动检测和生成押韵诗歌的算法。

衍生相关工作

基于该数据集，已经衍生出一系列相关研究工作，包括押韵模式的无监督学习、基于韵律约束的诗歌生成模型，以及跨语言诗歌形式对比分析。例如，研究者利用该数据训练了能够判别诗歌押韵质量的分类器，并进一步探索了押韵与诗歌情感表达之间的关联。这些工作不仅拓展了数字人文的方法论边界，也为后续建立更大规模、多语种的诗歌韵律知识库奠定了基础。

数据集最近研究