GenPoster-100K
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/BruceW91/GenPoster-100K
下载链接
链接失效反馈官方服务:
资源简介:
GenPoster-100K 数据集包含 10 万个 PSD 格式的海报,这些海报具有可解析的图层。数据集采用 cc-by-nc-4.0 许可,仅限学术用途,如需商业用途需获得版权所有者许可。数据集结构包括 poster_metadata 文件夹(包含所有图像,需解压 79 个压缩文件)、meta_psd 文件夹(未使用的原始 PSD 文件)以及多个 pickle 文件(包含图像的图层注释)。使用该数据集时需引用相关研究论文。
创建时间:
2026-02-03
原始信息汇总
GenPoster-100K 数据集概述
数据集基本信息
- 数据集名称:GenPoster-100K
- 简介:包含100,000个PSD格式的海报,这些海报具有可解析的图层。
- 许可证:cc-by-nc-4.0
- 引用要求:使用本数据集需引用相关论文。
版权与使用声明
- 版权声明:数据提供者不持有数据版权,仅获版权所有者许可用于学术目的。
- 商业用途:如需用于商业目的,需事先获得版权所有者(https://www.freepik.com/)的许可。
- 责任豁免:数据提供者对由此产生的任何争议不承担责任。
数据集文件结构
/GenPoster-100K/ ├── poster_metadata/ # 所有图像文件(需解压) │ ├── part_0.tar.gz │ ├── part_1.tar.gz │ ├── ... │ └── part_78.tar.gz ├── meta_psd # 部分原始PSD文件(未使用) ├── 0503_0.pkl ├── 0503_2.pkl ├── 0503_5.pkl ├── 0503_raw.pkl ├── 0503_raw_offline.pkl # 图像的图层标注文件 └── README.md # 说明文档
使用指南
- 数据获取:由于Hugging Face平台对数据集上传的限制,
poster_metadata文件夹(包含所有图像)的内容被分割成了79个压缩文件(从part_0.tar.gz到part_78.tar.gz)。 - 预处理步骤:需要先将所有这些压缩文件解压到一个自行创建的名为
poster_metadata的文件夹中。
引用格式
bibtex @inproceedings{wang2025sega, title={SEGA: A Stepwise Evolution Paradigm for Content-Aware Layout Generation with Design Prior}, author={Wang, Haoran and Zhao, Bo and Wang, Jinghui and Wang, Hanzhang and Yang, Huan and Ji, Wei and Liu, Hao and Xiao, Xinyan}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision}, pages={19321--19330}, year={2025} }
搜集汇总
数据集介绍

构建方式
在数字媒体设计领域,高质量海报数据集对于训练生成模型至关重要。GenPoster-100K数据集通过收集十万张PSD格式的海报构建而成,每张海报均包含可解析的图层结构,这些原始素材源自Freepik平台,并遵循学术使用许可。数据集的构建过程注重保留设计元素的层级信息,为后续的布局分析与生成任务提供了丰富的结构化视觉资源。
特点
该数据集的核心特点在于其大规模与结构化标注。所有海报均以PSD格式存储,支持图层级别的解析,使得文本、图形、背景等设计元素能够被精确分离与识别。此外,数据集附带了详细的图层注释文件,以pkl格式保存,便于机器学习模型直接读取与处理,为内容感知的布局生成研究奠定了扎实的数据基础。
使用方法
为便于分发,数据集中的图像文件被分割为79个压缩包,用户需将其解压至指定文件夹以恢复原始结构。使用时应首先引用相关学术论文,并注意该数据仅限非商业学术用途。研究人员可通过加载附带的pkl注释文件,结合解压后的PSD图像,进行海报设计元素的提取、分析与生成模型的训练,推动智能设计工具的发展。
背景与挑战
背景概述
GenPoster-100K数据集由研究人员于2025年在IEEE/CVF国际计算机视觉会议上发布,旨在推动内容感知布局生成领域的发展。该数据集收录了十万张PSD格式的海报设计文件,每张海报均包含可解析的图层信息,为研究设计先验与布局生成算法提供了丰富的结构化数据资源。其核心研究问题聚焦于如何利用大规模设计数据训练模型,以自动化生成符合美学与内容需求的海报布局,对计算机视觉与图形学交叉领域产生了显著影响,为设计智能化研究奠定了数据基础。
当前挑战
GenPoster-100K数据集面临的挑战主要存在于两个层面。在领域问题层面,海报布局生成需解决多元素协同、美学平衡与内容适配等复杂任务,模型需从海量设计数据中学习隐含的设计规则与视觉层次,这对算法的理解与生成能力提出了较高要求。在构建过程中,数据集因版权限制仅限学术使用,且原始PSD文件体积庞大,需分割为多个压缩包以适配平台存储要求,这增加了数据预处理与管理的复杂性,同时图层标注的准确性与一致性也构成了技术挑战。
常用场景
经典使用场景
在视觉设计与计算创意领域,GenPoster-100K数据集以其大规模、结构化的海报设计资源,为布局生成与内容感知研究提供了关键支撑。该数据集最经典的使用场景在于训练和评估生成模型,特别是针对海报设计的自动化布局系统。研究者利用其丰富的PSD格式海报及可解析的图层信息,能够深入探索设计元素的层级关系与空间分布,从而推动智能设计工具的发展,实现从文本描述到视觉布局的端到端生成。
解决学术问题
GenPoster-100K数据集有效解决了设计自动化中布局生成与内容适配的核心学术问题。通过提供大量标注精细的海报样本,该数据集支持了对设计先验知识的学习,促进了模型在理解视觉层次、平衡美学与功能性方面的能力。其意义在于填补了大规模结构化设计数据在学术研究中的空白,为计算机视觉与图形学交叉领域提供了实证基础,推动了内容感知生成技术的进步,并对人机协作设计范式产生了深远影响。
衍生相关工作
围绕GenPoster-100K数据集,已衍生出多项经典研究工作,其中SEGA模型作为代表性成果,提出了一种基于设计先验的逐步演化范式,用于内容感知的布局生成。该工作利用数据集的图层标注,实现了对海报设计结构的精细建模,后续研究在此基础上进一步探索了多模态条件生成、可交互设计编辑等方向,推动了智能设计系统的创新与发展。
以上内容由遇见数据集搜集并总结生成



