five

P4I (PoemForImage)

收藏
arXiv2025-07-18 更新2025-07-22 收录
下载链接:
https://github.com/SofeeyaJ/PoemTale-Diffusion
下载链接
链接失效反馈
官方服务:
资源简介:
P4I数据集是由印度理工学院帕特纳分校计算机科学与工程学院和Adobe Research合作创建的,包含1111首诗歌,涵盖多种主题,如叙事诗、自由诗、颂歌、哀歌、开放诗、十四行诗、开放式对句和儿童诗歌。数据集旨在促进诗歌向图像生成的转化研究,通过引入多阶段提示精炼循环,提高诗歌文本到图像转换过程中的信息保留,生成能够有效捕捉诗歌本质和意义的图像。数据集的创建涉及了从在线和离线资源中收集诗歌,并进行了结构化元数据标注,以改善诗歌组织和促进图像生成。数据集的引入为诗歌图像生成领域提供了新的研究方向,并鼓励了未来对诗歌研究的探索。

The P4I Dataset was co-created by the Department of Computer Science and Engineering, Indian Institute of Technology Patna, and Adobe Research. It comprises 1,111 poems covering diverse genres including narrative poetry, free verse, odes, elegies, open-form poetry, sonnets, open-form couplets, and children's poetry. This dataset aims to advance research on poem-to-image generation, by introducing a multi-stage prompt refinement loop to enhance information retention during the text-to-image conversion process, thereby generating images that effectively capture the essence and intended meaning of the original poems. The creation of the dataset involved collecting poems from both online and offline resources, and conducting structured metadata annotation to improve poem organization and facilitate image generation. The release of this dataset provides new research directions for the field of poem-to-image generation, and encourages future explorations in poetry-related research.
提供机构:
印度理工学院帕特纳分校计算机科学与工程学院, Adobe Research
创建时间:
2025-07-18
原始信息汇总

PoemTale-Diffusion 数据集概述

数据集简介

  • 数据集名称:P4I (PoemForImage)
  • 数据量:1111首诗歌
  • 数据来源:多个线上和线下资源
  • 主要用途:支持诗歌到图像生成的研究

数据集特点

  1. 诗歌类型:包含复杂、抽象或高度描述性语言的诗歌
  2. 数据质量:经过诗歌专家小组的定性评估
  3. 应用场景:用于测试和改进诗歌到图像生成模型的信息保留能力

相关研究背景

  • 研究课题:诗歌到图像生成中的信息保留问题
  • 技术挑战:现有模型难以处理具有多层次、抽象和双重含义的诗歌语言
  • 解决方案:采用多阶段提示细化循环和一致自注意力技术

数据集贡献

  1. 为诗歌到图像生成领域提供了专门的数据资源
  2. 支持对创造性语言处理能力的评估
  3. 促进文本到图像生成技术在艺术领域的应用研究
搜集汇总
数据集介绍
main_image_url
构建方式
在诗歌与视觉艺术交叉领域的研究中,P4I数据集通过系统性采集与标注流程构建而成。研究团队从Poetry Foundation、Poem Analysis等权威在线平台及实体图书馆精选1111首诗歌,覆盖叙事诗、自由诗、颂诗等六大主题。由文学专业博士生团队按照严格注释规范进行元数据标注,包括诗歌标题、作者、主题及情感分段标记,并通过Cohen's Kappa系数(0.78)验证标注一致性。数据清洗过程剔除了重复记录与格式噪声,确保文本质量。
特点
该数据集的核心价值在于其多维度的诗歌表征体系。每首诗歌不仅包含原始文本,还标注了情感转折点与主体实体信息,形成结构化语义网络。数据覆盖古今多种诗歌形式(如十四行诗、俳句、网络诗歌),平均长度180词,最长文本达460词,为研究诗歌的复杂语义结构提供了丰富素材。特别设计的实体-情感双维度标注体系(EPE)能精准捕捉诗歌中意象与情绪的动态变化,为跨模态生成任务建立细粒度对齐基准。
使用方法
研究者可通过三种路径利用该数据集:直接输入完整诗歌至扩散模型生成单幅图像;按情感分段生成系列图像;或采用论文提出的PoemTale Diffusion框架进行多阶段优化生成。数据集配套提供预分割的诗歌片段及其对应情感标签,支持BLIP、CLIP等指标量化评估生成图像与原文的语义对齐度。对于进阶研究,EPE标注支持开发新型分割算法,而多专家评分数据(语义对齐3.9/5分)可作为生成质量的黄金标准。
背景与挑战
背景概述
P4I (PoemForImage) 数据集由印度理工学院帕蒂分校和Adobe Research的研究团队于2025年创建,旨在推动诗歌与图像生成领域的交叉研究。该数据集包含1111首涵盖多种主题和风格的诗歌,为诗歌到图像生成任务提供了丰富的素材。研究团队通过整合多阶段提示优化技术和一致性自注意力机制,提出了PoemTale Diffusion方法,显著提升了诗歌语义在图像生成中的保留效果。P4I数据集的建立不仅填补了诗歌可视化研究的数据空白,也为跨模态生成任务提供了新的基准。
当前挑战
P4I数据集面临的挑战主要体现在两个方面:领域问题方面,诗歌作为一种高度抽象和情感丰富的文学形式,其复杂的隐喻、多义性和情感层次对图像生成模型的理解能力提出了极高要求,现有模型难以准确捕捉诗歌的深层语义和情感变化;构建过程方面,诗歌的标注需要专业的文学知识,确保情感标签和实体识别的准确性,同时数据集中诗歌风格的多样性也增加了标注的复杂性。此外,生成图像与诗歌语义的对齐、情感一致性的保持,以及跨图像叙事连贯性的实现,都是技术实现上的关键难点。
常用场景
经典使用场景
在诗歌与视觉艺术交叉领域的研究中,P4I数据集为诗意图像生成任务提供了标准化的评估基准。该数据集通过收录1111首涵盖叙事诗、自由诗、十四行诗等多元体裁的诗歌,并辅以情感标签和实体标注,为研究者构建了从抽象诗意到具象视觉的映射桥梁。其典型应用场景包括测试扩散模型对诗歌隐喻、情感转折等复杂语言特征的捕捉能力,例如在PoemTale Diffusion框架中,研究者利用该数据集验证了多阶段提示优化与一致性自注意力机制对诗意保留的有效性。
衍生相关工作
P4I数据集催生了多项创新性研究:在方法层面,Yuan等人受其启发提出CalliPaint框架,实现中国山水题画诗的视觉-书法联合生成;技术扩展上,IP-Adapter团队基于该数据集验证了多概念定制在诗意表达中的可行性。数据集本身也衍生出跨语言版本P4I-Multi,支持中英双语诗歌可视化。值得关注的是,StoryDiffusion等视频生成工作通过引入P4I的情感分段标注,实现了诗歌动态视觉叙事的时序一致性控制,推动相关研究从静态图像向动态媒介拓展。
数据集最近研究
最新研究方向
在诗歌到图像生成领域,P4I (PoemForImage) 数据集的最新研究方向聚焦于如何通过多阶段提示优化和一致性自注意力机制,最小化诗歌文本到图像转换过程中的信息损失。诗歌作为一种富含抽象语言和情感深度的艺术形式,其复杂性和多义性为传统的文本到图像生成模型带来了巨大挑战。前沿研究通过整合大型语言模型(LLMs)的诗歌理解能力与自动提示优化技术,显著提升了生成图像与诗歌语义的对齐程度。此外,通过引入实体加情感(EPE)分割算法和一致性自注意力技术,研究进一步确保了多幅生成图像在主题和情感上的连贯性。这一方向不仅推动了诗歌可视化技术的发展,也为跨模态生成任务提供了新的研究视角。
相关研究论文
  • 1
    PoemTale Diffusion: Minimising Information Loss in Poem to Image Generation with Multi-Stage Prompt Refinement印度理工学院帕特纳分校计算机科学与工程学院, Adobe Research · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作