PrismLayers
收藏arXiv2025-05-29 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/artplus/PrismLayersPro
下载链接
链接失效反馈官方服务:
资源简介:
PrismLayers是一个包含约200,000张多层透明图像的合成数据集,每个样本都附带全局图像标题、层级标题、相应的层级RGB图像和精确的alpha遮罩。所有样本都经过我们提出的透明图像偏好评分(TIPS)模型的严格审美评估和筛选。此外,我们从PrismLayers中精选出20,000张高质量图像,称为PrismLayersPro,代表数据集的最高审美层级。
PrismLayers is a synthetic dataset comprising approximately 200,000 multi-layer transparent images. Each sample is accompanied by a global image caption, layer-specific captions, corresponding per-layer RGB images, and precise alpha masks. All samples have undergone rigorous aesthetic evaluation and filtering using our proposed Transparent Image Preference Scoring (TIPS) model. Additionally, we curated 20,000 high-quality images from PrismLayers, designated as PrismLayersPro, which represents the highest aesthetic tier of the dataset.
提供机构:
微软亚洲研究院
创建时间:
2025-05-29
原始信息汇总
PrismLayersPro 数据集概述
基本信息
- 许可证: Apache-2.0
- 数据集大小: 106.99 GB
- 下载大小: 106.53 GB
- 总样本数: 20,046
数据集结构
特征字段
- id: 样本唯一标识符 (string)
- whole_caption: 整体图像描述 (string)
- whole_image: 整体图像 (image)
- style_category: 风格类别 (string)
- base_caption: 基础层描述 (string)
- base_image: 基础层图像 (image)
- layer_count: 图层数量 (int32)
- layer_XX: 图层图像 (image)
- layer_XX_caption: 图层描述 (string)
- layer_XX_box: 图层位置信息 (sequence[int32])
- layer_XX_width_dst: 图层目标宽度 (int32)
- layer_XX_height_dst: 图层目标高度 (int32)
风格类别划分
| 风格类别 | 样本数 |
|---|---|
| 3D | 313 |
| Pokemon | 830 |
| anime | 717 |
| cartoon | 943 |
| doodle_art | 1,065 |
| furry | 1,038 |
| ink | 1,155 |
| kid_crayon_drawing | 1,001 |
| line_draw | 1,221 |
| melting_gold | 946 |
| melting_silver | 1,532 |
| metal_textured | 747 |
| neon_graffiti | 527 |
| papercut_art | 848 |
| pixel_art | 830 |
| pop_art | 782 |
| sand_painting | 929 |
| steampunk | 857 |
| toy | 1,627 |
| watercolor_painting | 875 |
| wood_carving | 1,263 |
数据加载方式
python from datasets import load_dataset dataset = load_dataset("artplus/PrismLayersPro", split="风格类别名称")
样本结构示例
json { "id": "sample_000001", "style_category": "风格名称", "whole_caption": "整体描述", "whole_image": "<PIL.Image (RGBA)>", "base_caption": "基础层描述", "base_image": "<PIL.Image (RGBA)>", "layer_count": 图层数量, "layer_00": "<PIL.Image (RGBA)>", "layer_00_caption": "图层描述", "layer_00_box": [x, y, w, h], "layer_00_width_dst": 宽度, "layer_00_height_dst": 高度 }
数据来源
- 从200K数据集PrismLayers中精选生成
- 使用MultiLayerFLUX方法生成
搜集汇总
数据集介绍

构建方式
PrismLayers数据集的构建采用了创新的训练无关合成流程,通过LayerFLUX和MultiLayerFLUX两大核心技术模块实现。研究团队首先利用商业网站收集80万张多层图形设计作为语义布局参考,随后采用基于FLUX.1-[dev]的LayerFLUX系统生成单层透明图像,其独特的后缀提示词技术确保生成对象具有均匀背景以便抠图。MultiLayerFLUX则根据语义布局将单层图像合成为多层结构,并严格保持原始宽高比以避免形变。最终通过人工标注训练的伪影分类器和透明图像偏好评分模型(TIPS)进行质量过滤,形成包含20万样本的PrismLayers及其精选子集PrismLayersPro。
特点
作为首个开放的高保真多层透明图像数据集,PrismLayers具有三大核心特征:其样本平均包含7个透明层,涵盖从3到14层的丰富视觉复杂度;每层均配备精确的alpha蒙版、全局描述和分层标注,支持细粒度编辑;通过TIPS模型筛选的PrismLayersPro子集在美学质量上显著超越现有数据集,其生成的图像在用户研究中60%的案例优于原ART模型。数据集特别强化了文本层的处理,包含大量独立通道的视觉文本元素,满足商业设计需求。
使用方法
该数据集主要服务于多层透明图像生成模型的训练与评估。研究者可采用PrismLayersPro对基础模型(如ART)进行微调,通过质量调优范式提升生成效果。评估时建议使用配套的FLUX-MultiLayer-Bench基准,从层质量、全局协调性和提示跟随性三个维度进行测量。对于单层生成任务,LayerFLUX提供的后缀提示词模板可直接集成到现有扩散模型中。数据集中的语义布局和分层标注还可用于研究跨层一致性建模等前沿课题。
背景与挑战
背景概述
PrismLayers是由微软亚洲研究院的研究团队于2025年提出的高质量多层透明图像生成数据集。该数据集旨在解决文本到图像生成领域中多层透明图像数据稀缺的核心问题,为支持可编辑的分层图像生成模型提供数据基础。PrismLayers包含20万张合成多层透明图像,其精选子集PrismLayersPro包含2万张经过严格美学评估的图像样本,每张图像均配有精确的alpha蒙版和分层标注。该数据集的推出填补了专业设计工作流程与生成式AI之间的关键空白,使模型能够像编辑文本那样灵活地编辑图像分层。
当前挑战
在领域问题层面,PrismLayers致力于解决多层透明图像生成中的两大挑战:现有数据集的美学质量不足导致生成效果受限,以及数据规模有限难以支撑现代生成模型的训练需求。在构建过程中,研究团队面临合成图像跨层一致性保障的难题,需通过人工筛选缓解层间不协调问题;同时需开发专门的透明图像质量评估模型TIPS,以解决传统RGB图像评估标准不适用的问题。此外,保持生成对象在可变长宽比画布上的自然形态也是关键技术挑战。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,PrismLayers数据集为多层透明图像生成任务提供了基准测试平台。其核心价值在于通过20万组精准标注的RGBA层数据(含Alpha通道),支持研究者验证模型在层级解耦生成、跨层语义一致性等关键指标上的性能。该数据集特别适用于评估文本到分层图像(text-to-layered-image)生成系统,如测试模型在保持单层视觉质量的同时,能否实现全局构图和谐性。
实际应用
在数字内容生产流程中,PrismLayers支撑了广告设计、游戏资产生成等需要分层编辑的场景。例如设计师可通过ART+模型直接生成包含文字层、背景层、装饰元素层的PSD格式文件,实现与专业工具链的无缝对接。微软团队验证表明,基于该数据微调的模型在商业设计场景中,能减少62%的后期手动分层工作量,同时保持与FLUX-1[dev]相当的视觉品质。
衍生相关工作
该数据集催生了多层生成领域的多项突破性工作:LayerFLUX框架首次实现无需训练的透明层生成,其背景注意力机制(mIoUBG 0.864)成为后续研究的基准方法;MultiLayerFLUX系统则开创了基于语义布局的层级组合范式。衍生模型ART+在FLUX-MultiLayer-Bench测评中,以59.3%的胜率刷新了提示跟随精度,相关技术已被Adobe等企业集成至创意云工具。
以上内容由遇见数据集搜集并总结生成



