crello

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/Betonme/crello

下载链接

链接失效反馈

官方服务：

资源简介：

Crello数据集是为研究矢量图形文档而编译的。该数据集包含文档元数据，如画布大小和预渲染元素，如图像或文本框。原始模板是从crello.com（现为create.vista.com）收集的，并转换为适合机器学习分析的较低分辨率格式。

创建时间：

2025-08-12

原始信息汇总

Crello 数据集概述

数据集基本信息

数据集名称：Crello
来源平台：create.vista.com（原 crello.com）
主要用途：矢量图形文档生成研究
语言：英文

数据规模

总样本量：23,302 个模板
训练集：19,372 个样本
验证集：1,823 个样本
测试集：2,107 个样本
总数据量：约 10.18 GB
下载大小：约 9.82 GB

数据结构特征

画布属性

标识字段：模板ID（id）
尺寸信息：画布宽度（canvas_width）、高度（canvas_height）
分类信息：
- 设计分组（group）：6个类别（SM、HC、MM、SMA、EO、BG）
- 设计格式（format）：67种具体格式（Instagram Story、Facebook、Twitter等）
- 主题分类（category）：23个主题类别（节日庆祝、餐饮、时尚风格等）
标签信息：
- 适用性标签（suitability）：仅包含"mobile"标签
- 关键词（keywords）：字符串列表
- 行业标签（industries）：24个行业类别（营销广告、娱乐休闲、服务等）
预览图像：模板预览图（preview）、无文本预览图（non_text_image）

元素属性

元素类型：5种类型（SvgElement、TextElement、ImageElement、ColoredBackground、SvgMaskElement）
空间属性：位置（left、top）、尺寸（width、height）、旋转角度（angle）、透明度（opacity）
视觉属性：颜色调色板（color）
图像元素：预渲染元素预览（image）
文本元素：
- 文本内容（text）
- 字体家族（font）：260种字体选项
- 字体大小（font_size）
- 文本对齐（text_align）：左对齐、居中、右对齐
- 字体样式：粗体（font_bold）、斜体（font_italic）
- 文本颜色（text_color）
- 文本行信息（text_line）
- 排版属性：行高（line_height）、字间距（letter_spacing）、大写化（capitalize）

技术特性

数据格式：矢量图形文档的低分辨率格式
编码方式：分类字段使用整数编码，可通过int2str方法转换为文本标签
元素序列：每个模板包含可变长度的元素序列

使用方式

python import datasets dataset = datasets.load_dataset("cyberagent/crello", revision="5.0.0")

搜集汇总

数据集介绍

构建方式

在数字设计领域，Crello数据集通过系统化采集crello.com平台的矢量图形模板构建而成。原始设计文件经过标准化处理，转换为包含画布元数据和序列化元素的低分辨率格式，确保机器学习分析的适用性。每个模板均标注了尺寸、元素类型及文本属性，并通过分类标签体系对设计主题和行业应用进行多维编码，形成结构化文档表示。

特点

该数据集涵盖67种设计格式与23个行业类别，包含19372个训练样本及其精细化标注。其核心特征在于融合矢量图形元素的几何属性（位置、旋转、透明度）与文本语义特征（字体、字号、对齐方式），同时提供字符级的样式标注。预览图像与非文本渲染图像的双重呈现方式，为多模态学习提供了丰富的研究基础。

使用方法

研究人员可通过HuggingFace数据集库加载cyberagent/crello修订版本5.0.0，利用内置ClassLabel特征转换器解析分类标签。数据集支持基于画布属性的宏观分析与元素序列的微观研究，适用于生成模型训练、文档布局分析与跨模态检索任务。通过提取文本元素与视觉元素的关联特征，可推动智能设计生成系统的开发。

背景与挑战

背景概述

Crello数据集由CyberAgent AI实验室于2021年推出，旨在推动矢量图形文档生成领域的研究进程。该数据集源自在线设计平台Crello（现Vista Create）的模板资源，通过系统化采集与转换处理，构建了包含19,372个设计实例的大规模样本库。其核心研究聚焦于多模态文档的结构化表征与生成模型，为计算机视觉与图形学交叉领域提供了首个公开可用的矢量图形设计数据集，显著促进了自动化设计生成技术的发展。

当前挑战

该数据集主要应对矢量图形文档自动化生成的复杂性挑战，包括多元素空间布局的语义一致性、文本与视觉元素的跨模态对齐，以及设计风格的可控性建模。在构建过程中需克服原始数据异构性整合、矢量到栅格数据的无损转换，以及设计元素语义标注的粒度控制等关键技术难题，同时需确保商业设计模板在学术用途中的版权合规性。

常用场景

经典使用场景

在计算设计与文档生成领域，Crello数据集为研究向量图形文档的自动生成与布局优化提供了重要支撑。该数据集通过丰富的元数据标注和元素级序列信息，支持生成模型学习多模态设计模板的语义结构与视觉呈现规律，成为文档生成任务的标准基准。

衍生相关工作

该数据集催生了多项经典研究工作，其中CanvasVAE框架首次实现了端到端的向量文档生成，后续研究进一步拓展了条件生成、风格迁移和跨模态编辑等方向。这些工作共同构建了智能文档生成的技术体系，推动了计算创意领域的快速发展。

数据集最近研究