PosterOmni-200K

Name: PosterOmni-200K
Creator: 香港科技大学·广州; 美团
Published: 2026-02-13 00:16:38
License: 暂无描述

arXiv2026-02-13 更新2026-02-15 收录

下载链接：

https://ephemeral182.github.io/PosterOmni/

下载链接

链接失效反馈

官方服务：

资源简介：

PosterOmni-200K是由香港科技大学·广州和美团联合构建的大规模多任务海报生成数据集，涵盖局部编辑和全局创作两大范式下的六类任务（如扩展、填充、风格迁移等）。该数据集通过自动化流程生成，包含20万条高质量样本，整合了文本、布局、实体及风格等多模态要素，数据来源包括GPT、Qwen等模型生成的提示词与图像对。其构建过程融合了多模态过滤和任务对齐技术，旨在解决图像到海报生成中语义保真与美学协调的耦合问题，为设计自动化、广告创意等领域提供基准支持。

PosterOmni-200K is a large-scale multi-task poster generation dataset jointly constructed by The Hong Kong University of Science and Technology (Guangzhou) and Meituan. It covers six types of tasks under two paradigms: local editing and global creation, such as expansion, filling, style transfer, etc. Generated through an automated workflow, this dataset contains 200,000 high-quality samples that integrate multimodal elements including text, layout, entities and styles. Its data sources include prompt-image pairs generated by models such as GPT and Qwen. The construction process integrates multimodal filtering and task alignment technologies, aiming to solve the coupled problem of semantic fidelity and aesthetic coordination in image-to-poster generation, and provides benchmark support for fields such as design automation and advertising creativity.

提供机构：

香港科技大学·广州; 美团

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在自动化视觉设计领域，PosterOmni-200K数据集的构建体现了高度系统化的工程思维。其核心流程整合了提示生成、图像生成与多模态过滤三大模块，通过精心设计的任务导向管道合成大规模、高质量的训练样本。具体而言，研究团队首先利用大型语言模型生成涵盖六大海报主题和多样视觉风格的文本描述，随后调用先进的文生图模型渲染候选图像。为确保数据质量与任务对齐，每个样本均需经过多阶段验证，包括基于OCR的文本正确性检查、视觉-语言一致性评估以及布局合理性筛选。在此基础上，针对延伸、填充、缩放、身份驱动、布局驱动和风格驱动这六项具体任务，采用模块化处理策略，例如利用SAM-2进行区域分割以构建延伸与填充任务数据，或使用BrushNet进行智能缩放，从而形成超过20万对的结构化图像-海报转换样本。

特点

PosterOmni-200K数据集在艺术海报生成领域展现出鲜明的多维特性。其首要特征在于全面的任务覆盖，将海报创作解构为局部编辑与全局创作两大范式，并细化为六项具体任务，实现了从像素级精确调整到抽象概念驱动的完整能力谱系。数据集的构成强调语义保真与美学连贯，通过精心策划的实体库与风格库组合，确保了生成内容在商业场景下的实用性与多样性。此外，数据集严格遵循双语支持原则，同时涵盖中英文提示与图像，为跨语言模型训练提供了坚实基础。其内在的层次化结构，即从基础文生图对到任务特定转换对的衍生过程，使得数据集既能支持端到端生成，也能服务于分阶段的专家模型训练与知识蒸馏。

使用方法

PosterOmni-200K数据集为训练通用化艺术海报生成模型提供了核心资源。其典型应用流程始于任务特定的监督微调阶段，研究者可依据局部编辑与全局创作的任务划分，利用对应的配对数据分别训练专家模型，优化基于流匹配的损失函数以掌握精确编辑与概念生成能力。随后进入任务蒸馏阶段，将两个专家模型的知识整合到一个统一的学生网络中，通过结合辅助文本渲染损失与任务蒸馏损失，使单一模型具备处理全部六项任务的能力。在强化学习对齐阶段，数据集可进一步用于构建偏好对，训练统一的奖励模型，为基于扩散负感知微调的Omni-Edit强化学习提供指导信号，从而在遵循指令的同时，联合优化局部实体保持精度与全局美学质量。该数据集亦适用于构建统一的评估基准，对多任务图像到海报生成性能进行系统评测。

背景与挑战

背景概述

PosterOmni-200K数据集由香港科技大学（广州）、美团等机构的研究团队于2026年2月发布，旨在解决图像到海报生成这一复杂任务。该数据集构建于PosterOmni框架之下，核心研究问题聚焦于如何统一局部编辑与全局创作两大范式，实现从参考图像到完整艺术海报的端到端生成。研究团队将任务分解为扩展、填充、缩放、身份驱动、布局驱动和风格驱动六种代表性场景，通过自动化数据流水线构建了覆盖六大主题的20万对样本。该数据集推动了生成式模型在视觉设计领域的应用边界，为开放社区提供了首个系统性的图像到海报生成基准，显著提升了模型在实体保持、布局协调与美学一致性方面的综合能力。

当前挑战

PosterOmni-200K数据集所应对的核心领域挑战在于图像到海报生成的多维复杂性，该任务要求模型同时处理局部实体保持与全局概念创作，并协调文本渲染、布局美学与语义保真度。具体构建挑战包括：第一，自动化生成高质量、多样化的配对数据需克服提示设计、图像生成与多模态过滤的协同难题，确保样本覆盖六大任务且保持文本与视觉元素的平衡；第二，局部编辑任务需精确保持视觉实体身份与空间一致性，而全局创作任务要求对抽象设计概念如布局与风格进行深度理解，二者在数据表征与监督信号上存在固有冲突；第三，构建统一评估基准需设计能够同时衡量局部编辑精度与全局美学质量的指标体系，并确保其在多主题、多语言场景下的可靠性与一致性。

常用场景

经典使用场景

在视觉设计自动化领域，PosterOmni-200K数据集为图像到海报的生成任务提供了多场景、多任务的标准化训练资源。该数据集覆盖了局部编辑与全局创作两大范式，具体包括扩展、填充、缩放、身份驱动、布局驱动和风格驱动六类代表性任务。研究者利用这一数据集训练模型，使其能够根据输入图像和编辑指令，在保持语义忠实性与美学一致性的前提下，生成包含文本、布局、风格及视觉元素的完整海报。其经典使用场景在于为统一的图像到海报生成框架提供大规模、高质量的监督数据，支撑模型学习从具体实体保留到抽象概念理解的全方位设计能力。

实际应用

在实际应用中，PosterOmni-200K数据集支撑的生成模型能够显著提升商业海报设计的效率与质量。设计人员可以基于现有的产品图像、活动照片或模板，通过自然语言指令快速生成符合品牌调性、布局合理且视觉美观的海报。例如，在电商营销中，模型可根据商品图片自动生成具有吸引力的促销海报；在活动策划中，能参考现有海报的风格或布局，快速制作新的活动宣传材料。这种能力降低了专业设计的门槛，实现了从图像到成品的快速转化，为广告、媒体、教育及娱乐等多个行业提供了高效的视觉内容创作工具。

衍生相关工作

基于PosterOmni-200K数据集与PosterOmni框架，衍生出了一系列专注于自动化海报生成与多任务图像编辑的经典研究工作。例如，POSTA和PosterCraft等研究探索了文本到海报的结构化生成问题，强调了设计感知的构图与排版。LayoutPrompter和PosterLayout等工作则专注于将布局规划作为中间表示，以提升可读性与视觉平衡。此外，如CreaiDesign、PosterMaker和DreamPoster等模型尝试将普通图像转化为海报风格输出，并添加文本元素。PosterOmni的统一框架进一步整合了局部编辑与全局创作，通过任务蒸馏与统一奖励反馈机制，为后续多任务图像到海报生成系统的设计与优化提供了重要范式与基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集