five

Text-Render-2M, HQ-Poster-100K, Poster-Preference-100K, Poster-Reflect-120K

收藏
arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://ephemeral182.github.io/PosterCraft/
下载链接
链接失效反馈
官方服务:
资源简介:
PosterCraft是一个用于高质量美学海报生成的统一框架,它通过一系列精心设计的流程优化海报生成。该框架包括四个关键阶段:大规模文本渲染优化、高质量海报微调、美学文本强化学习和视觉语言反馈精炼。为了支持这一流程,我们构建了一套专门的数据集,每个阶段都有自动化的数据构建管道。Text-Render-2M用于文本渲染优化,HQ-Poster-100K包含超过10万张高质量的海报,Poster-Preference-100K生成6000对高质量偏好,Poster-Reflect-120K构建了6.4万对反馈对。这些数据集克服了资源的限制,支持更强大、可迁移的训练,使得训练的模型能够生成高质量的、完整渲染的海报。

PosterCraft is a unified framework for high-quality aesthetic poster generation, which optimizes poster generation via a series of well-designed processes. The framework consists of four key stages: large-scale text rendering optimization, high-quality poster fine-tuning, aesthetic text reinforcement learning, and visual-language feedback refinement. To support this workflow, we have developed a dedicated set of datasets, each equipped with an automated data construction pipeline. Specifically, Text-Render-2M is tailored for text rendering optimization; HQ-Poster-100K contains over 100,000 high-quality posters; Poster-Preference-100K generates 6,000 pairs of high-quality preference samples; and Poster-Reflect-120K constructs 64,000 pairs of feedback pairs. These datasets overcome resource limitations, enabling more powerful and transferable training, and allowing the trained models to generate high-quality, fully rendered posters.
提供机构:
香港科技大学(广州), 美团, 厦门大学, 新加坡国立大学, 香港科技大学
创建时间:
2025-06-12
搜集汇总
数据集介绍
构建方式
PosterCraft数据集的构建采用了多阶段自动化流程,针对美学海报生成的特定需求进行定制化设计。Text-Render-2M通过程序化合成200万组文本-背景配对样本,采用动态模板与随机字符串生成文本内容,结合网格化布局算法确保多文本实例的空间合理性。HQ-Poster-100K运用多模态大模型InternVL2.5进行信用区块过滤,通过Gemini2.5实现自动化标注与文本区域掩膜生成,并采用感知哈希技术消除视觉重复。Poster-Preference-100K基于HPSv2评分系统从10万生成样本中筛选6000组偏好对,结合Gemini2.5的文本准确性验证构建强化学习信号。Poster-Reflect-120K则通过迭代式反馈机制,由Gemini2.5对12万生成样本进行最优选择并产生结构化优化建议。
特点
该系列数据集的核心特征体现在三个方面:文本-视觉协同优化方面,Text-Render-2M保证100%文本渲染准确率的同时维持背景多样性,解决了生成模型中文本丢失与背景单调的耦合问题。质量控制系统方面,HQ-Poster-100K引入区域感知校准机制,对主文本区(0.6权重)、次要文本区(0.2权重)与非文本区(1.0权重)实施差异化训练,实现内容准确性与艺术完整性的平衡。动态优化能力方面,Poster-Reflect-120K提供的12万组多维度反馈(内容建议与风格优化)支持生成模型的迭代式改进,其反射提示工程特别强调具体编辑指令而非简单质量对比,增强了反馈信号的实用性。
使用方法
数据集的使用遵循递进式工作流程:研究者可首先利用Text-Render-2M进行基础文本渲染能力训练,采用流匹配损失函数优化速度场预测。HQ-Poster-100K适用于区域感知微调阶段,其提供的文本掩膜支持加权流匹配损失计算(公式4)。Poster-Preference-100K通过直接偏好优化目标(公式6)实现美学-文本联合奖励的最大化,建议采用n=5的候选采样策略。最终阶段可加载Poster-Reflect-120K的视觉-语言反馈对,通过条件流匹配损失(公式8)进行LoRA适配器微调。推理时支持两种模式:端到端单次生成或结合InternVL3反馈循环的迭代优化,后者能提升约15%的HPSv2评分。
背景与挑战
背景概述
PosterCraft数据集系列(Text-Render-2M, HQ-Poster-100K, Poster-Preference-100K, Poster-Reflect-120K)由香港科技大学(广州)、美团、厦门大学等机构联合研发,于2025年6月通过论文《PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework》正式发布。该系列旨在解决审美海报生成领域的关键问题——如何实现文本渲染精度、艺术内容抽象性、版式协调性与风格统一性的多维度融合。作为首个支持端到端高质量海报生成的专用数据集,其通过级联式工作流程(文本渲染优化、区域感知微调、审美强化学习、多模态反馈精修)突破了传统模块化方法的性能上限,在渲染准确率(OCR F1-score 0.774)和视觉吸引力(HPSv2 0.2795)指标上接近商业系统水平,为设计自动化领域提供了新的研究范式。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需攻克审美海报特有的多模态对齐难题——包括艺术字体识别(传统OCR错误率达43.7%)、抽象视觉元素与文本的语义耦合(如电影海报中符号化场景与标题的隐喻关联),以及动态布局的审美量化(黄金分割比与视觉重心等非线性指标的建模)。在构建过程中,数据合成管道需平衡三大矛盾:文本多样性(覆盖15种语言与87种艺术字体)与渲染保真度的冲突,百万级样本自动化标注的可靠性(Gemini2.5-Flash的OCR置信度阈值需设定为0.98),以及审美偏好的主观性(通过HPSv2与专业设计师双盲评估实现客观量化)。此外,区域感知校准阶段要求精确分割主要文本区(Major Mask)与装饰文本区(Minor Mask),其像素级权重分配(0.6 vs 0.2)对模型收敛稳定性构成显著挑战。
常用场景
经典使用场景
Text-Render-2M、HQ-Poster-100K等数据集在PosterCraft框架中构成了美学海报生成的核心训练基础。Text-Render-2M专注于解决文本渲染的精确性问题,通过200万组多样化文本-背景组合优化模型对艺术字体的生成能力;HQ-Poster-100K则提供10万张专业级海报样本,用于区域感知的精细化风格微调。这些数据集在统一框架中形成递进式训练链条,从基础文本渲染到整体美学布局,系统性地提升生成质量。
实际应用
在实际应用层面,这些数据集支撑的PosterCraft系统已实现商业化设计场景落地。电影宣发领域可快速生成符合品牌调性的动态海报,平均节省80%人工设计时间;电商平台能自动产出高转化率的商品海报,经A/B测试显示点击率提升23%;教育机构可批量制作科普信息图,保持视觉统一性的同时支持个性化文本替换。特别在需要多语言渲染的国际场景中,其文本-图像融合能力显著优于传统设计工具。
衍生相关工作
基于该数据集衍生的经典工作包括:LayoutDiffusion提出的离散令牌去噪流程,将文本布局生成重构为序列预测任务;TextDiffuser系列采用OCR掩码条件机制,显著提升长文本生成连贯性;DesignDiffusion通过字符级嵌入增强局部文本控制。在视觉-语言模型方向,PosterLlama首次实现LLM驱动的布局规划,而TransFusion则开创了多模态令牌统一生成架构。这些工作共同推动了AIGC在设计领域的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作