AI-Generated_Chinese_Modern_Poetry

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/Hyaline/AI-Generated_Chinese_Modern_Poetry

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是由DeepSeek-R1根据标题或摘要生成的中文现代诗构成的，用于训练名为芝麻的语言模型，该模型能够根据用户指令生成原创的中文现代诗。

创建时间：

2025-05-26

原始信息汇总

数据集概述

基本信息

数据集名称: AI-Generated_Chinese_Modern_Poetry
许可证: Apache-2.0
数据集用途: 用于训练专注于中文现代诗创作的大型语言模型（LLM）芝麻（Zhima-0.5B）。

数据集内容

生成方式: 使用DeepSeek-R1根据标题或摘要生成中文现代诗。
数据来源: 基于modern-poetry项目中汇总的中文现代诗的标题和提炼出的摘要。

致谢

感谢modern-poetry项目提供的中文现代诗标题和摘要。

搜集汇总

数据集介绍

构建方式

在中文现代诗歌数字化研究背景下，该数据集通过DeepSeek-R1大语言模型生成诗歌内容。构建过程中，以modern-poetry项目整理的中文现代诗歌标题及摘要作为创作蓝本，采用指令驱动方式批量生成对应诗歌文本，最终形成结构化诗歌语料库。该方法融合了传统诗歌元素与人工智能创作技术，为诗歌生成研究提供了可复现的数据构建范式。

使用方法

该数据集主要应用于诗歌生成模型的训练与评估，如芝麻（Zhima）模型的开发实践所示。使用者可通过加载标准格式数据文件，直接用于模型微调或生成能力基准测试。在实际应用中，用户输入标题、关键词或摘要作为提示，模型即可生成符合现代诗歌韵律的原创文本。研究人员还可通过对比生成诗歌与人类创作诗歌的差异，深入探究人工智能在创造性写作任务中的表现边界与优化方向。

背景与挑战

背景概述

在人工智能与文学创作交叉研究日益深入的背景下，AI-Generated_Chinese_Modern_Poetry数据集应运而生，旨在探索生成式模型在中文现代诗创作领域的应用潜力。该数据集由研究团队借助DeepSeek-R1模型，基于从modern-poetry项目中提取的诗歌标题与摘要自动生成而成，并用于训练专精于诗歌创作的Zhima模型。其命名致敬了中国现代诗歌先驱徐志摩，体现了技术对人文传统的延续。这一工作不仅推动了计算创造力在中文语境下的发展，也为研究诗歌生成模型的审美质量与语言特性提供了重要资源。

当前挑战

该数据集致力于解决中文现代诗自动生成这一核心问题，其挑战在于如何确保生成诗歌在韵律、意象和情感表达上符合现代诗的美学标准，同时避免模式化表达。构建过程中面临双重困难：一方面需从有限的历史诗歌数据中提炼有效的语义特征，另一方面要克服生成模型常见的逻辑断裂与创意匮乏问题。此外，诗歌标题与摘要的稀疏性对生成内容的多样性与连贯性提出了更高要求，如何平衡传统诗歌风格与生成文本的创新性成为关键难点。

常用场景

经典使用场景

在自然语言生成领域，AI-Generated_Chinese_Modern_Poetry数据集为中文现代诗的自动创作提供了关键支持。该数据集通过DeepSeek-R1模型基于诗歌标题或摘要生成对应的现代诗文本，成为训练专门化诗歌生成模型的核心资源。其典型应用场景包括辅助文学创作教学、探索诗歌风格迁移以及研究生成式人工智能在创意写作中的潜力，为计算语言学与数字人文的交叉研究奠定了数据基础。

解决学术问题

该数据集有效解决了中文诗歌生成研究中高质量训练数据稀缺的学术难题。通过系统化构建诗歌标题与生成内容的对应关系，它为研究诗歌生成的韵律控制、意象连贯性等关键问题提供了标准化实验平台。这不仅推动了生成模型在文学创作领域的可解释性研究，更为评估诗歌生成质量建立了可量化的基准，对计算创造力理论的发展具有显著意义。

实际应用

在实际应用层面，基于该数据集训练的芝麻模型已实现中文现代诗的按需生成功能。这种技术可集成到数字出版平台辅助诗人创作，或应用于智能教育系统帮助学生理解诗歌结构。文化机构也能借助该技术开发交互式诗歌体验装置，推动传统文化在数字时代的创新传播。这些应用体现了人工智能技术在促进文学创作民主化方面的实践价值。

数据集最近研究

AI-Generated_Chinese_Modern_Poetry

数据集概述

基本信息

数据集内容

相关模型

致谢