five

AIGenPoetry

收藏
arXiv2025-09-02 更新2025-09-05 收录
下载链接:
https://github.com/NLP2CT/AIGenPoetry-Detection
下载链接
链接失效反馈
官方服务:
资源简介:
AIGenPoetry是一个包含800首由六位专业诗人创作的高质量现代汉语诗歌和由四个主流大型语言模型生成的41600首诗歌的数据集。数据集关注诗歌的各个方面,包括内在品质、外部结构和情感。该数据集旨在解决现代汉语诗歌中区分人工智能生成诗歌和人类创作诗歌的难题,为检测人工智能生成的诗歌提供基准。

AIGenPoetry is a dataset consisting of 800 high-quality modern Chinese poems created by six professional poets, as well as 41,600 poems generated by four mainstream large language models (LLMs). This dataset covers multiple dimensions of poetry, including internal artistic quality, external structure and emotional expression. It is designed to tackle the challenge of distinguishing AI-generated poems from human-written works in modern Chinese poetry, and provides a benchmark for detecting AI-generated poetry.
提供机构:
澳门大学计算机与信息科学系NLP2CT实验室, 澳门大学文学院葡萄牙语系
创建时间:
2025-09-02
搜集汇总
数据集介绍
main_image_url
构建方式
AIGenPoetry数据集的构建采用了严谨的双源采集策略,涵盖人类创作与AI生成两大诗歌来源。人类诗歌部分由六位专业诗人提供800首高质量现代诗,确保来源清晰性与文学价值;AI生成部分则基于四款主流大语言模型(GPT-4.1、DeepSeek-V3、DeepSeek-R1和GLM-4),通过13类精心设计的提示词生成41,600首诗歌。提示词系统覆盖诗歌的内在品质、外部结构和情感表达三个维度,每类提示生成800首诗与人类诗歌形成配对数据,温度参数统一设定为1.5以平衡创造性与检测难度。
特点
该数据集的核心特征体现在其多维度的诗歌属性标注与规模优势。诗歌样本均标注了风格、主题、情感类型及结构特征(如诗节数、行数),构成细粒度的分类体系。数据规模上,AI生成诗歌数量达人类诗歌的52倍,且GLM-4生成的诗作在长度上显著超越其他来源,平均多出93.95个词汇。人类诗歌强调隐晦的情感表达与语法创新,而AI诗歌在模仿人类风格时呈现更高的一致性,尤其在相同风格提示下生成的诗作难以被现有检测器区分。
使用方法
数据集适用于大语言模型生成文本的检测任务,需以诗歌文本为输入执行二分类(人类创作/AI生成)。使用时需划分训练集与测试集,可针对特定诗歌特征(如风格、情感)进行领域内检测,或跨特征泛化实验。检测器应支持对现代诗自由格式的解析,避免依赖语法错误等传统特征。基准实验表明,基于RoBERTa的检测器在该数据集上表现最优,但整体检测性能仍存在显著挑战,尤其对风格模仿类诗歌的识别准确率较低。
背景与挑战
背景概述
AIGenPoetry数据集由澳门大学自然语言处理与中葡机器翻译实验室于2025年创建,旨在构建首个专注于现代汉语诗歌生成的检测基准。该数据集包含800首专业诗人创作的高质量诗歌与41,600首由四大主流大语言模型生成的诗歌,核心研究聚焦于解决AI生成诗歌与人类创作诗歌的区分难题。现代汉语诗歌因其自由形式与创新语言特性,成为自然语言处理领域极具挑战性的研究对象,该数据集的建立为诗歌真实性检测提供了关键资源,对维护诗歌生态健康具有重要学术价值。
当前挑战
该数据集需解决现代汉语诗歌生成检测的核心挑战:一是诗歌内在特质(如风格、情感、主题)的高度抽象性导致生成文本与人类创作的边界模糊,尤其是风格模仿类诗歌的检测准确率显著低于其他类型;二是构建过程中需克服数据源可靠性与质量控制的难题,包括专业诗人作品的稀缺性、多模型生成诗歌的异构性,以及提示词设计需同时兼顾诗歌艺术特性与模型生成规律。外部结构特征(如分行、分节)的差异性虽可部分辅助检测,但无法有效泛化至内在特质层面的判别。
常用场景
经典使用场景
在人工智能生成文本检测领域,AIGenPoetry数据集被广泛应用于评估大语言模型生成现代汉语诗歌的识别能力。该数据集通过包含专业诗人创作的800首诗歌与四款主流大语言模型生成的41,600首诗歌,构建了高质量的诗歌对比样本。研究者通常利用该数据集进行二元分类任务,训练模型区分人类创作与AI生成的诗歌,尤其聚焦于现代诗歌特有的自由形式与创新语言特征。
实际应用
在实际应用中,该数据集为学术期刊、文学平台提供了AI诗歌检测的基准工具,帮助识别未经标注的AI生成投稿。教育机构可借此开发学术诚信检测系统,防止学生使用AI代写诗歌作业。文化保护机构则利用其监测网络诗歌生态,维护人类诗歌创作的纯粹性,尤其在应对GLM-4等模型生成长篇诗歌的泛滥现象中发挥重要作用。
衍生相关工作
该数据集催生了多项重要研究,包括基于RoBERTa的诗歌专用检测器开发、诗歌风格迁移生成模型的评估框架构建,以及温度参数对诗歌生成检测影响机制的深入研究。后续工作进一步扩展了多模态诗歌检测、跨语言诗歌生成溯源等方向,推动了《DetectRL》《RepreGuard》等检测系统的迭代升级。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作