five

Paint4Poem

收藏
arXiv2021-09-28 更新2024-06-21 收录
下载链接:
https://github.com/paint4poem/paint4poem
下载链接
链接失效反馈
官方服务:
资源简介:
Paint4Poem是由阿姆斯特丹大学信息学院创建的一个专为古典中国诗歌艺术视觉化设计的数据集。该数据集包含301个高质量的诗歌-绘画对,以及3648个描述-绘画对和89,204个自动从网络收集的诗歌-绘画对,总计93,153条数据。数据集的创建过程涉及手动收集和自动网络爬取,旨在通过学习艺术家的绘画风格和诗歌与绘画之间的语义相关性,解决古典中国诗歌的艺术视觉化问题。该数据集适用于机器学习在艺术创造力领域的研究,特别是文本到图像生成任务。

Paint4Poem is a dataset dedicated to the artistic visualization of classical Chinese poetry, created by the School of Informatics, University of Amsterdam. This dataset includes 301 high-quality poem-painting pairs, 3,648 caption-painting pairs, and 89,204 poem-painting pairs automatically collected from the web, with a total of 93,153 entries. The dataset's development involves both manual collection and automated web crawling, aiming to address the challenge of artistic visualization for classical Chinese poetry by learning artists' painting styles and the semantic correlations between poetry and corresponding paintings. This dataset is applicable to machine learning research in the field of artistic creativity, particularly for text-to-image generation tasks.
提供机构:
阿姆斯特丹大学信息学院
创建时间:
2021-09-24
搜集汇总
数据集介绍
main_image_url
构建方式
在古典诗词艺术可视化研究领域,Paint4Poem数据集的构建采用了多源融合与分层设计的策略。该数据集核心部分为Zikai-Poem,通过人工精校方式从丰子恺画作中收集了301对高质量诗画配对,每幅画作均配有原诗、注释及丰富元数据。为克服小样本训练难题,研究团队进一步扩充了Zikai-Caption子集,从丰子恺其余作品中手工整理出3648幅带简短题跋的画作;同时构建了TCP-Poem子集,通过自动化网络爬取与风格分类模型筛选,形成89204对传统国画风格的诗画配对,形成了涵盖不同粒度与质量层次的立体化数据架构。
特点
该数据集呈现出多维度的学术价值特征。在内容维度上,Zikai-Poem子集覆盖了跨越多个朝代的162位诗人作品,其诗歌意象库涵盖《诗学含英》中82%的经典意象,呈现出丰富的文学多样性。在艺术风格维度,数据集聚焦丰子恺独特的“简笔设色、留白构图”画风,并通过风格相似度量化分析验证了各子集间的风格一致性。特别值得注意的是,数据集揭示了诗画语义关联的复杂性——丰子恺画作往往仅呈现原诗20%以内的核心意象,这种非对称映射关系为生成模型的学习带来了深层挑战,同时也为研究艺术再创造规律提供了珍贵样本。
使用方法
该数据集为诗画生成研究提供了层次化的应用框架。研究者可采用Zikai-Poem作为核心训练测试集,利用其高质量配对数据学习诗画映射关系。针对数据稀缺问题,可通过迁移学习策略引入Zikai-Caption子集强化风格学习,或借助TCP-Poem子集增强语义对齐能力。评估体系涵盖图像质量(IS)、风格相关性(GE&LP)和语义相关性(P@1)三维度,支持AttnGAN、MirrorGAN等生成模型的基准测试。数据集附带的诗歌注释、朝代信息等元数据,为多模态表征学习、小样本生成等前沿方向提供了结构化研究基础。
背景与挑战
背景概述
Paint4Poem数据集由阿姆斯特丹大学信息研究所与鲁汶天主教大学的研究团队于2021年共同构建,旨在推动古典中文诗歌的艺术可视化研究。该数据集聚焦于现代中国艺术家丰子恺的诗意画作,核心研究问题在于探索如何利用机器学习模型生成符合特定艺术风格的诗歌配画,以弥合古典文学与视觉艺术之间的鸿沟。通过整合301对高质量诗画配对、3648对标题画作配对及89204对自动收集的网络诗画资源,Paint4Poem不仅为跨模态生成任务提供了首个专门基准,还深化了对诗歌意象与绘画风格关联性的理解,对文化遗产数字化与创造性人工智能领域产生了显著影响。
当前挑战
Paint4Poem数据集面临的核心挑战体现在任务定义与构建过程两方面。在任务层面,诗歌到绘画的生成需克服诗歌语义的高度抽象性与艺术风格的微妙表达之间的对齐难题,现有模型在绘画的语义相关性上表现有限,且缺乏对创作‘创造性’的评估标准。构建过程中,数据稀缺性构成主要障碍:丰子恺的原作诗画配对仅301例,难以支撑深度模型训练;为此引入的辅助数据集虽扩展了规模,但Zikai-Caption的文本简短抽象,而TCP-Poem则存在风格噪声与语义对齐弱的问题,需依赖自动过滤与人工校验来平衡规模与质量。
常用场景
经典使用场景
在跨模态生成领域,Paint4Poem数据集为古典诗歌的艺术可视化提供了独特的研究平台。该数据集通过整合丰子恺画作与古典诗句的配对,构建了诗画转换任务的基准测试环境。研究者可基于此数据集训练文本到图像的生成模型,探索如何将抽象的诗意转化为具象的视觉表达,同时保持特定艺术家的风格特征。
衍生相关工作
围绕Paint4Poem数据集,学术界衍生出多项经典研究工作,包括基于注意力机制的生成对抗网络在诗画生成中的优化、跨模态对齐损失函数的设计,以及小样本条件下的风格迁移方法。这些工作进一步推动了文本到图像生成技术在艺术领域的精细化发展,并为后续的多模态文化遗产计算研究奠定了方法论基础。
数据集最近研究
最新研究方向
在数字人文与跨模态生成领域,Paint4Poem数据集为古典诗歌的艺术可视化研究开辟了前沿方向。当前研究聚焦于探索低资源条件下的文本到图像生成技术,特别是针对丰子恺绘画风格的迁移学习与少样本学习。该数据集推动了诗歌语义与绘画风格对齐的算法创新,如通过注意力机制与文本重构技术增强生成图像的语义相关性。同时,结合预训练模型(如CLIP、DALL-E)进行知识迁移,以提升生成画作的视觉质量与艺术表现力,成为跨模态艺术创作的热点议题。这一研究不仅拓展了文化遗产的数字化传承路径,也为多模态人工智能在创意产业的应用提供了重要参考。
相关研究论文
  • 1
    Paint4Poem: A Dataset for Artistic Visualization of Classical Chinese Poems阿姆斯特丹大学信息学院 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作