PITA-dataset

github2025-08-23 更新2025-09-10 收录

下载链接：

https://github.com/alimama-creative/PITA-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PITA数据集适用于以商品为中心的电商广告图片设计任务，包含38,017条从电商平台和CGL数据集搜集的数据，每张图像都标注有提示（前景和背景描述）、产品掩码以及图形和非图形元素的布局

The PITA dataset is tailored for product-centric e-commerce advertisement image design tasks. It comprises 38,017 samples collected from e-commerce platforms and the CGL dataset. Each image is annotated with prompts (including foreground and background descriptions), product masks, as well as the layouts of graphic and non-graphic elements.

创建时间：

2025-08-23

原始信息汇总

PITA数据集概述

数据集基本信息

数据集名称：PITA
数据量：38,017条记录
提供方：阿里巴巴集团
适用任务：以商品为中心的电商广告图片设计任务

数据集来源与构成

数据来源：电商平台和CGL数据集
数据划分：包含训练集和测试集，其中测试集为1,000条数据
数据筛选标准：排除了背景杂乱、纯色且无阴影、贴纸不吸引人、特写镜头、标语展示不佳或元素杂乱的图像

数据标注内容

图像标注：每张图像均包含以下标注信息
- 前景描述（foreground prompt）
- 背景描述（background prompt）
- 产品掩码（product mask）
- 图形和非图形元素布局
元素表示：每个元素均使用类型和边界框（bbox）表示
图形元素类型：包含"Logo"、"标语"和"衬底"

标注生成方法

初始标注生成：采用自动方法生成
- 前景提取：达摩院抠图API
- 图像描述：GPT-4o
- 元素检测：内部检测模型和Grounding-DINO
- 标语提取：内部OCR模型
质量控制：人工对标注进行审核和校正以确保准确性

数据格式

目录结构：
- PITA/
  - ori_imgs/
    - train/
    - test/
  - masks/
    - train/
    - test/
  - train_data.jsonl
  - test_data.jsonl
JSONL文件字段：
- img_path：原图路径
- mask_path：商品mask图片路径
- img_wh：图像宽高
- foreground prompt：图像前景描述
- background prompt：图像背景描述
- nongraphic_layout：非图形元素布局
- graphic_layout：图形元素布局
- allow_occlude：商品是否允许被遮挡
坐标格式：布局中的bbox为归一化到0-1之间的[left,top,right,bottom]形式坐标

搜集汇总

数据集介绍

构建方式

在电商广告图像设计领域，PITA数据集通过整合电商平台及CGL数据集资源，构建了包含38,017条标注数据的专业集合。数据采集过程中严格筛选图像质量，排除背景杂乱、元素不协调或视觉表现力不足的样本，确保数据集的纯净度与实用性。采用自动化标注流程，结合达摩院matting API进行前景提取，GPT-4o生成图像描述，内部检测模型与Grounding-DINO协同完成元素识别，并通过OCR技术提取标语文本。所有自动标注结果均经过人工审核与校正，保障标注精度与可靠性。

特点

PITA数据集的核心特点在于其高度结构化的多模态标注体系。每幅图像均配备前景与背景文本描述、商品掩码图像以及图形与非图形元素的精细化布局信息。图形元素涵盖Logo、标语及衬底三大类别，每个元素均以类型标签与归一化边界框坐标精确标注。数据集特别标注了商品是否允许被遮挡的属性，为模特展示类广告设计提供了重要先验知识。其标注粒度与电商广告设计任务的需求高度契合，为自动化设计模型提供了丰富的监督信号。

使用方法

研究者可通过加载JSONL格式的标注文件快速访问数据集，每条记录包含原始图像路径、掩码路径、图像尺寸、文本提示及布局信息。模型训练时可利用前景与背景描述文本引导生成任务，结合商品掩码实现精确的区域控制。布局标注支持元素定位与组合优化研究，归一化坐标体系适配多种分辨率处理流程。测试集包含1,000条独立样本，便于进行模型性能评估与跨域泛化能力验证，为电商广告图像生成与编辑任务提供标准化基准。

背景与挑战

背景概述

在电子商务蓬勃发展的时代背景下，阿里巴巴集团于2024年推出了PITA数据集，旨在推动以商品为中心的广告图像自动化设计研究。该数据集作为CIKM2025会议论文的核心支撑，汇集了38,017条经过精心筛选的电商平台图像样本，不仅涵盖了商品前景与背景的语义标注，更创新性地引入了图形元素布局的结构化表征。其多模态标注体系为计算机视觉与设计自动化的交叉研究提供了重要基础设施，显著提升了广告设计生成模型的可控性与可解释性。

当前挑战

该数据集致力于解决电商广告图像生成中元素布局合理性与视觉美观性的平衡难题，其构建过程面临多重挑战：首先需克服海量图像中元素异构性带来的标注复杂度，例如Logo、标语等图形元素的精准定位与分类；其次需处理自动化标注流水线的误差传递问题，包括GPT-4o生成描述的语义偏差与检测模型的边界框漂移；最后还需通过人工校验解决遮挡策略、美学评价等主观性标注难题，确保数据质量满足工业级应用需求。

常用场景

经典使用场景

在电子商务广告图像生成领域，PITA数据集为自动化设计系统提供了标准化训练基础。其典型应用场景包括基于商品掩码和布局标注的智能构图生成，模型通过学习图像中图形元素（Logo、标语、衬底）与非图形元素的空间关系，实现符合商业美学规范的广告模板自动生成。该数据集支持端到端的广告图像合成流程，从前景提取到元素布局均可通过标注数据驱动完成。

衍生相关工作

基于PITA数据集已衍生出多项创新性研究，包括结合扩散模型的布局生成框架、基于注意力机制的多元素协同网络等。这些工作显著提升了广告图像生成的质量与效率，其中部分成果通过结合强化学习优化布局合理性，另一些研究则专注于跨模态语义对齐技术。相关方法论不仅适用于电商场景，更为广义的视觉内容生成领域提供了技术范式参考。

数据集最近研究