AutoPP1M

arXiv2025-12-26 更新2025-12-30 收录

下载链接：

https://github.com/JD-GenX/AutoPP

下载链接

链接失效反馈

官方服务：

资源简介：

AutoPP1M是由京东构建的目前规模最大的产品海报生成与优化专用数据集，包含100万张经过严格筛选的高质量商业海报。该数据集分为生成子集（含视觉元素标注）和优化子集（含用户点击率反馈），数据来源为京东平台真实商品海报，经美学过滤、OCR清洗等流程处理，覆盖60余个商品类别。通过系统化的元素替换策略和百万级用户CTR反馈，该数据集支持端到端的海报生成模型训练与细粒度优化研究，为电商视觉内容自动化生产提供关键数据支撑。

AutoPP1M is the largest dedicated dataset for product poster generation and optimization currently available, developed by JD.com. It contains 1 million high-quality commercial posters that have undergone rigorous screening. This dataset is split into two subsets: the generation subset with visual element annotations, and the optimization subset with user click-through rate (CTR) feedback. The dataset is sourced from real product posters on the JD.com platform, and has been processed via workflows including aesthetic filtering and OCR cleaning, covering over 60 product categories. Backed by systematic element replacement strategies and million-scale user CTR feedback, AutoPP1M supports end-to-end training of poster generation models and fine-grained optimization research, offering critical data support for automated production of e-commerce visual content.

提供机构：

京东

创建时间：

2025-12-26

原始信息汇总

AutoPP 数据集概述

数据集基本信息

数据集名称：AutoPP
核心主题：自动化产品海报生成与优化
当前状态：项目正在构建中，代码与数据处于准备公开发布阶段

数据集内容与用途

数据内容：与自动化产品海报生成及优化研究相关的数据集
主要用途：用于支持论文《AutoPP: Towards Automated Product Poster Generation and Optimization》的官方实现与研究

数据获取与资源

官方资源地址：https://github.com/JD-GenX/AutoPP
数据发布状态：尚未公开，待发布

搜集汇总

数据集介绍

构建方式

在电子商务视觉设计领域，高质量产品海报的构建需要兼顾美学与商业效能。AutoPP1M数据集的构建过程体现了严谨的数据工程理念，其生成子集从京东平台约一千万张初始海报候选池中，经过美学过滤、模糊检测与水印去除等标准化清洗流程，筛选出约两百万张高质量图像。随后，利用PaddleOCRv4移除文本过量或无文本的海报，最终精炼出一百万张涵盖60余个粗粒度类别的日常消费品海报。为提取海报元素，研究团队采用Grounding SAM与PaddleOCRv4获取产品掩码、文本内容及文本框，并借助Qwen2.5-VL生成背景提示词以增强语义一致性。优化子集则通过为期十天的随机展示实验收集用户点击率反馈，每张海报至少由50名用户浏览，累计覆盖超过一百万名用户，并基于系统化元素替换策略构建了五万对具有显著CTR差异的样本对，确保了数据的可靠性与细粒度可比性。

特点

AutoPP1M数据集在多个维度展现出显著优势。其规模达到一百万张专业设计的产品海报，远超现有同类数据集，为现代生成模型提供了充足的训练资源。数据质量方面，生成子集收录了平台上浏览量最高的优质海报，反映了商家投入大量资源设计的成果；优化子集依托京东海量用户交互，确保了用户偏好数据的多样性与可靠性。该数据集的独特之处在于其开创性地聚焦于图文融合场景，不同于以往仅关注纯场景图像的人类反馈数据集，AutoPP1M首次将文本内容对用户吸引力的影响纳入考量，通过分离评估背景、文本和布局的偏好信号，实现了元素级别的细粒度建模，为精细化偏好学习开辟了新的研究方向。

使用方法

AutoPP1M数据集为产品海报生成与优化任务提供了完备的研究基础。在生成任务中，研究者可利用其丰富的视觉元素标注，训练模型从基础产品信息中联合推理背景、文本与布局，实现端到端的自动化海报设计。优化任务则依托数据集中的成对比较样本与CTR反馈，支持系统化元素替换策略与孤立直接偏好优化等先进方法的开发与验证。具体而言，研究者可基于该数据集构建统一设计模块与元素渲染模块，实现仅需产品图像与候选文本即可生成高质量海报的流程；同时，通过分析元素级别的CTR归因，能够针对性地优化海报各组成部分，从而提升在线表现。该数据集的发布有望推动自动化视觉内容生成与性能优化领域的算法创新与基准建立。

背景与挑战

背景概述

在电子商务与数字营销领域，产品海报作为融合视觉美学与商业信息的核心媒介，其自动化生成与优化一直是提升营销效率的关键研究方向。由京东研究院于2025年提出的AutoPP1M数据集，正是针对这一需求而构建的大规模资源。该数据集包含一百万张高质量产品海报及来自超百万用户的点击率反馈，旨在支持端到端的产品海报自动化生成与基于在线性能的优化研究。其核心研究问题在于如何仅依据基础产品信息（如图像与候选文本）自动合成视觉协调、信息突出的海报，并利用真实用户反馈持续优化其吸引力，从而减少人工设计成本，提升营销内容的生产效能与效果。作为当前该领域规模最大的数据集，AutoPP1M为统一生成与优化框架的研发提供了坚实的数据基础，推动了智能内容创作在商业应用中的深入发展。

当前挑战

AutoPP1M数据集致力于解决产品海报自动化生成与优化这一复合领域问题，其面临的核心挑战主要体现在两个方面。在领域问题层面，海报生成需同时协调背景、文本与布局三大元素，确保视觉和谐性与信息可读性，而现有方法往往依赖分阶段模型或手动规则，导致设计一致性差、自动化程度有限；在优化层面，如何将宏观的点击率提升归因于具体的海报元素，实现细粒度、可解释的性能优化，而非整体粗调，是提升学习效率与效果的关键难题。在数据集构建过程中，挑战同样显著：需从海量原始海报中筛选高质量样本，并精准提取结构化元素信息；同时，为支持优化研究，必须设计严谨的在线实验以收集可靠、细粒度的用户偏好数据，确保反馈差异具有统计显著性，从而为模型提供有效的学习信号。

常用场景

经典使用场景

在电子商务与数字营销领域，产品海报的自动化生成与优化已成为提升营销效率的关键技术。AutoPP1M数据集作为该领域规模最大的专业资源，其经典使用场景集中于训练端到端的生成式模型，以实现从基础产品信息（如图像与候选文本）到高质量视觉海报的自动化转换。通过提供百万级标注精细的海报样本，该数据集支持模型学习背景、文本与布局三大元素的协同设计，从而生成视觉吸引力强、信息传达准确的产品宣传材料，满足电商平台对大规模、个性化内容生产的迫切需求。

解决学术问题

AutoPP1M数据集有效解决了自动化设计研究中若干核心学术问题。其一，它突破了传统方法依赖手工规则与分阶段模型导致的流程碎片化局限，通过统一设计模块实现多元素联合推理，促进了生成任务的一体化与一致性。其二，数据集引入基于点击率反馈的优化子集，支持细粒度偏好学习，使研究者能够量化并优化各海报元素对用户参与度的独立贡献，从而推动从离线美学评估到在线性能指标的对齐研究。这些贡献显著提升了生成式模型在真实商业环境中的实用性与可解释性。

衍生相关工作

AutoPP1M数据集的发布催生了多项围绕自动化海报生成与优化的经典研究工作。例如，基于其统一设计思想，后续研究进一步探索了多模态大语言模型在布局生成与文本选择中的深层推理能力。在优化方向，数据集启发的孤立直接偏好优化方法被扩展至更广泛的视觉内容生成任务，促进了细粒度人类反馈学习框架的发展。此外，该数据集也为对比分析不同文本渲染技术、评估生成模型在商业指标上的对齐性能提供了基准，推动了视觉-文本多模态生成领域的算法创新与评估体系完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集