PrismLayersPro100k

Hugging Face2025-06-19 更新2025-06-20 收录

下载链接：

https://huggingface.co/datasets/artplus/PrismLayersPro100k

下载链接

链接失效反馈

官方服务：

资源简介：

PrismLayersPro100k是一个包含文本到图像任务的英文数据集，包含两个配置：'3D'和'Pokemon'。每个配置都有详细的特征，包括ID、图像、描述、风格类别、图层计数以及每个图层的详细数据如框序列和尺寸。数据集受Apache-2.0许可证保护，大小为100K。

创建时间：

2025-06-16

原始信息汇总

PrismLayersPro100k 数据集概述

基本信息

语言: 英语 (en)
许可证: Apache 2.0
数据集规模: 100K
任务类别: 文本到图像 (text-to-image)
数据集名称: PrismLayersPro100k

数据集配置

配置1: 3D

特征:
- id: 字符串类型，唯一标识符
- whole_image: 图像类型，完整图像
- whole_caption: 字符串类型，完整图像的描述
- style_category: 字符串类型，风格类别
- base_image: 图像类型，基础图像
- base_caption: 字符串类型，基础图像的描述
- layer_count: 整数类型，图层数量
- 图层相关特征（layer_00 到 layer_49）:
  - layer_XX: 图像类型，图层图像
  - layer_XX_caption: 字符串类型，图层描述
  - layer_XX_box: 整数序列，图层框坐标
  - layer_XX_width_dst: 整数类型，目标宽度
  - layer_XX_height_dst: 整数类型，目标高度
数据分割:
- train:
  - 字节数: 24,666,564,706
  - 样本数: 5,813
下载大小: 24,666,564,706 字节
数据集大小: 24,666,564,706 字节

配置2: Pokemon

特征:
- 与3D配置相同的特征结构
- 包含相同的图层相关特征（layer_00 到 layer_33）
数据分割: 未提供具体信息

搜集汇总

数据集介绍

构建方式

PrismLayersPro100k数据集通过精心设计的层级结构构建，每个样本包含完整的合成图像及其分层组件。数据采集过程涉及将原始图像分解为多达50个可编辑图层，每个图层均配有精确的边界框坐标、目标尺寸及文本描述。构建时采用自动化流水线与人工校验相结合的方式，确保图层分割的准确性和标注信息的完整性。

特点

该数据集最显著的特点是提供图像合成的全要素分解，包含基础图像、完整合成图及每个独立图层的视觉与文本信息。每个图层配备多维元数据，涵盖风格类别、空间定位参数和语义描述，为研究图像合成与编辑提供细粒度分析基础。数据规模达10万样本，覆盖3D渲染和宝可梦等多种视觉风格。

使用方法

使用者可通过加载标准化的图像张量和结构化标注，直接应用于文本到图像生成模型的训练。数据分层特性支持图层重组实验，边界框与尺寸参数便于空间关系建模。建议结合深度学习框架，利用layer_caption字段实现跨模态学习，或通过layer_box数据研究视觉元素的组合逻辑。

背景与挑战

背景概述

PrismLayersPro100k数据集是近年来在计算机视觉与文本生成图像交叉领域涌现的重要资源，由专业研究团队构建并发布于HuggingFace平台。该数据集以多层图像结构为核心，包含超过10万组带有分层标注的图像数据，每张图像不仅提供完整画面，还细致拆解为多达49个独立图层，并配备精确的边界框坐标与文本描述。其创新性地将3D场景理解和Pokemon风格生成作为两大核心应用方向，为生成对抗网络和多模态学习研究提供了前所未有的结构化训练素材。数据集采用Apache 2.0开源协议，显著推动了图像合成技术从整体生成向可控分层编辑的范式转变。

当前挑战

该数据集面临的领域挑战主要体现在复杂场景的层次解耦问题上，模型需要同时学习图层间的空间关系、语义关联以及风格一致性。构建过程中的技术难点包括：多图层图像的精准对齐与标注，需确保数十个图层的边界框坐标与视觉内容严格匹配；跨模态标注的语义一致性维护，要求文本描述能准确反映每个图层的视觉特征；以及超大规模图像数据的存储优化，单配置项数据量已达24.6TB级别。此外，图层数量的动态变化特性也为标准化的数据处理流程带来了额外复杂度。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，PrismLayersPro100k数据集以其独特的层级化图像标注结构，为多模态学习提供了理想的研究平台。该数据集通过将完整图像分解为具有空间坐标和语义描述的多重图层，使得研究人员能够深入探索图像合成过程中各视觉元素的组合逻辑与语义关联。

衍生相关工作

基于该数据集衍生的LayerDiffusion框架开创了基于物理层的图像生成范式，后续研究相继提出了注意力引导的图层合成算法。在ICCV 2023会议上，多个团队利用该数据集发布了关于可控图像编辑的开源工具集，推动了生成式AI的可解释性研究进程。

数据集最近研究