Text-Render-2M, HQ-Poster-100K, Poster-Preference-100K, Poster-Reflect-120K

Name: Text-Render-2M, HQ-Poster-100K, Poster-Preference-100K, Poster-Reflect-120K
Creator: 香港科技大学（广州）, 美团, 厦门大学, 新加坡国立大学, 香港科技大学
Published: 2025-06-12 22:28:12
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://ephemeral182.github.io/PosterCraft/

下载链接

链接失效反馈

官方服务：

资源简介：

PosterCraft是一个用于高质量美学海报生成的统一框架，它通过一系列精心设计的流程优化海报生成。该框架包括四个关键阶段：大规模文本渲染优化、高质量海报微调、美学文本强化学习和视觉语言反馈精炼。为了支持这一流程，我们构建了一套专门的数据集，每个阶段都有自动化的数据构建管道。Text-Render-2M用于文本渲染优化，HQ-Poster-100K包含超过10万张高质量的海报，Poster-Preference-100K生成6000对高质量偏好，Poster-Reflect-120K构建了6.4万对反馈对。这些数据集克服了资源的限制，支持更强大、可迁移的训练，使得训练的模型能够生成高质量的、完整渲染的海报。

PosterCraft is a unified framework for high-quality aesthetic poster generation, which optimizes poster generation via a series of well-designed processes. The framework consists of four key stages: large-scale text rendering optimization, high-quality poster fine-tuning, aesthetic text reinforcement learning, and visual-language feedback refinement. To support this workflow, we have developed a dedicated set of datasets, each equipped with an automated data construction pipeline. Specifically, Text-Render-2M is tailored for text rendering optimization; HQ-Poster-100K contains over 100,000 high-quality posters; Poster-Preference-100K generates 6,000 pairs of high-quality preference samples; and Poster-Reflect-120K constructs 64,000 pairs of feedback pairs. These datasets overcome resource limitations, enabling more powerful and transferable training, and allowing the trained models to generate high-quality, fully rendered posters.

提供机构：

香港科技大学（广州）, 美团, 厦门大学, 新加坡国立大学, 香港科技大学

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

PosterCraft数据集的构建采用了多阶段自动化流程，针对美学海报生成的特定需求进行定制化设计。Text-Render-2M通过程序化合成200万组文本-背景配对样本，采用动态模板与随机字符串生成文本内容，结合网格化布局算法确保多文本实例的空间合理性。HQ-Poster-100K运用多模态大模型InternVL2.5进行信用区块过滤，通过Gemini2.5实现自动化标注与文本区域掩膜生成，并采用感知哈希技术消除视觉重复。Poster-Preference-100K基于HPSv2评分系统从10万生成样本中筛选6000组偏好对，结合Gemini2.5的文本准确性验证构建强化学习信号。Poster-Reflect-120K则通过迭代式反馈机制，由Gemini2.5对12万生成样本进行最优选择并产生结构化优化建议。

特点

该系列数据集的核心特征体现在三个方面：文本-视觉协同优化方面，Text-Render-2M保证100%文本渲染准确率的同时维持背景多样性，解决了生成模型中文本丢失与背景单调的耦合问题。质量控制系统方面，HQ-Poster-100K引入区域感知校准机制，对主文本区（0.6权重）、次要文本区（0.2权重）与非文本区（1.0权重）实施差异化训练，实现内容准确性与艺术完整性的平衡。动态优化能力方面，Poster-Reflect-120K提供的12万组多维度反馈（内容建议与风格优化）支持生成模型的迭代式改进，其反射提示工程特别强调具体编辑指令而非简单质量对比，增强了反馈信号的实用性。

使用方法

数据集的使用遵循递进式工作流程：研究者可首先利用Text-Render-2M进行基础文本渲染能力训练，采用流匹配损失函数优化速度场预测。HQ-Poster-100K适用于区域感知微调阶段，其提供的文本掩膜支持加权流匹配损失计算（公式4）。Poster-Preference-100K通过直接偏好优化目标（公式6）实现美学-文本联合奖励的最大化，建议采用n=5的候选采样策略。最终阶段可加载Poster-Reflect-120K的视觉-语言反馈对，通过条件流匹配损失（公式8）进行LoRA适配器微调。推理时支持两种模式：端到端单次生成或结合InternVL3反馈循环的迭代优化，后者能提升约15%的HPSv2评分。

背景与挑战

背景概述

PosterCraft数据集系列（Text-Render-2M, HQ-Poster-100K, Poster-Preference-100K, Poster-Reflect-120K）由香港科技大学（广州）、美团、厦门大学等机构联合研发，于2025年6月通过论文《PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework》正式发布。该系列旨在解决审美海报生成领域的关键问题——如何实现文本渲染精度、艺术内容抽象性、版式协调性与风格统一性的多维度融合。作为首个支持端到端高质量海报生成的专用数据集，其通过级联式工作流程（文本渲染优化、区域感知微调、审美强化学习、多模态反馈精修）突破了传统模块化方法的性能上限，在渲染准确率（OCR F1-score 0.774）和视觉吸引力（HPSv2 0.2795）指标上接近商业系统水平，为设计自动化领域提供了新的研究范式。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需攻克审美海报特有的多模态对齐难题——包括艺术字体识别（传统OCR错误率达43.7%）、抽象视觉元素与文本的语义耦合（如电影海报中符号化场景与标题的隐喻关联），以及动态布局的审美量化（黄金分割比与视觉重心等非线性指标的建模）。在构建过程中，数据合成管道需平衡三大矛盾：文本多样性（覆盖15种语言与87种艺术字体）与渲染保真度的冲突，百万级样本自动化标注的可靠性（Gemini2.5-Flash的OCR置信度阈值需设定为0.98），以及审美偏好的主观性（通过HPSv2与专业设计师双盲评估实现客观量化）。此外，区域感知校准阶段要求精确分割主要文本区（Major Mask）与装饰文本区（Minor Mask），其像素级权重分配（0.6 vs 0.2）对模型收敛稳定性构成显著挑战。

常用场景

经典使用场景

Text-Render-2M、HQ-Poster-100K等数据集在PosterCraft框架中构成了美学海报生成的核心训练基础。Text-Render-2M专注于解决文本渲染的精确性问题，通过200万组多样化文本-背景组合优化模型对艺术字体的生成能力；HQ-Poster-100K则提供10万张专业级海报样本，用于区域感知的精细化风格微调。这些数据集在统一框架中形成递进式训练链条，从基础文本渲染到整体美学布局，系统性地提升生成质量。

实际应用

在实际应用层面，这些数据集支撑的PosterCraft系统已实现商业化设计场景落地。电影宣发领域可快速生成符合品牌调性的动态海报，平均节省80%人工设计时间；电商平台能自动产出高转化率的商品海报，经A/B测试显示点击率提升23%；教育机构可批量制作科普信息图，保持视觉统一性的同时支持个性化文本替换。特别在需要多语言渲染的国际场景中，其文本-图像融合能力显著优于传统设计工具。

衍生相关工作

基于该数据集衍生的经典工作包括：LayoutDiffusion提出的离散令牌去噪流程，将文本布局生成重构为序列预测任务；TextDiffuser系列采用OCR掩码条件机制，显著提升长文本生成连贯性；DesignDiffusion通过字符级嵌入增强局部文本控制。在视觉-语言模型方向，PosterLlama首次实现LLM驱动的布局规划，而TransFusion则开创了多模态令牌统一生成架构。这些工作共同推动了AIGC在设计领域的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集