LICA Dataset

github2026-03-19 更新2026-03-20 收录

下载链接：

https://github.com/purvanshi/lica-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

LICA数据集是一个图形设计布局的集合，旨在促进AI在设计领域的研究。每个布局捕获了设计的完整渲染规范，包括组件位置、排版、图像和背景，以及布局和模板级别的丰富自然语言注释。布局按模板组织，每个模板文件夹包含其所有布局、渲染图像和每个布局的注释。

The LICA Dataset is a collection of graphic design layouts designed to advance AI research in the design domain. Each layout captures the complete rendering specifications of a design, including component positions, typography, images, and backgrounds, as well as rich natural language annotations at both layout and template levels. The layouts are organized by templates, with each template folder containing all its associated layouts, rendered images, and annotations for every individual layout within the folder.

创建时间：

2026-03-10

原始信息汇总

LICA 数据集概述

数据集简介

LICA 数据集是一个平面设计布局的集合，旨在促进“AI for Design”领域的研究。每个布局都捕获了一个设计的完整渲染规范，包括组件位置、排版、图像和背景，并附有布局层面和模板层面的丰富自然语言标注。

数据集内容与规模

布局总数：1183个。
组织方式：布局按模板组织。一个模板是一个设计主题，可以生成多个布局变体（幻灯片）。
设计类别：包含“Business Cards”、“Cards & Invitations”、“Education”、“Flyers”、“Presentations”、“Videos”等。

数据集结构

数据集根目录为 lica-data，包含以下主要部分：

1. 元数据文件 (`metadata.csv`)

包含每个布局的元信息，字段如下：

layout_id：唯一布局ID。
category：设计类别。
template_id：所属模板的UUID。
n_template_layouts：模板组中的布局总数。
template_layout_index：布局在其模板组中的零基索引位置。
width：画布宽度（像素）。
height：画布高度（像素）。

2. 布局文件 (`layouts/<template_id>/<layout_id>.json`)

每个布局文件是一个JSON对象，包含画布规格和组件列表。

核心字段：components（组件列表）、width、height、background（可选）、duration（可选）。
组件类型：
- TEXT：定位文本元素，包含文本内容、位置、颜色、字体等样式属性。
- IMAGE：定位图像元素，包含图像源URL、位置、尺寸等属性。
- GROUP：容器/形状元素，包含位置、尺寸、背景色、裁剪路径等属性。

3. 图像文件 (`images/<template_id>/<layout_id>.png` 或 `.mp4`)

布局的渲染结果，格式为PNG图像或MP4视频。

4. 标注文件 (`annotations/`)

布局级标注 (annotations/<template_id>/<layout_id>.json)：描述特定布局，包含description、aesthetics、tags、user_intent、raw字段。
模板级标注 (annotations/template_annotations.json)：描述模板的整体设计主题，结构与布局级标注相同，按模板UUID索引。

数据访问与使用

提供了Python库 lica_dataset 用于便捷加载和操作数据集。

主要功能

加载数据集：LicaDataset("lica-data") 或 load_dataset("lica-data")。
数据筛选：支持按类别、模板、画布尺寸、宽高比进行筛选，方法链式调用。
数据访问：
- 获取布局JSON：get_layout(layout_id)。
- 获取布局级标注：get_annotation(layout_id)。
- 获取模板级标注：get_template_annotation(template_id)。
- 获取渲染文件路径：get_render_path(layout_id)。
- 获取元数据：get_metadata(layout_id)。
迭代访问：可迭代获取每个布局的完整信息字典，包含布局ID、模板ID、元数据、布局JSON、标注和渲染路径。
统计分析：可通过 .summary() 获取按类别分组的数据摘要。

模块级便捷函数

load_layouts_by_template：加载指定模板的所有布局JSON，并按索引排序。
load_layouts_by_category：加载指定类别的所有布局JSON（仅限磁盘上存在的文件）。
iter_template_groups：迭代每个模板组，返回模板ID及其对应的LicaDataset视图。

获取与依赖

数据下载：数据集文件可通过 https://storage.googleapis.com/lica-assets/websites/blog/lica-data.zip 下载。
环境要求：Python 3.9 或更高版本。
依赖安装：pip install -r requirements.txt。

许可信息

本项目采用知识共享署名 4.0 国际许可协议进行许可。

搜集汇总

数据集介绍

构建方式

在人工智能辅助设计领域，LICA数据集通过系统化采集与结构化组织，构建了一套涵盖多元设计类别的图形布局资源。其构建过程以模板为核心框架，每个模板代表一种设计主题，能够衍生出多个布局变体。数据集收录了完整的渲染规范，包括组件位置、排版样式、图像资源及背景设置，并辅以布局层面与模板层面的自然语言标注。数据组织采用层级目录结构，将布局文件、渲染图像与标注信息分别存储于独立子目录中，同时通过元数据表格记录每个布局的标识符、类别归属、模板关联及画布尺寸等关键属性，确保了数据的完整性与可追溯性。

特点

LICA数据集的显著特征在于其多层次标注体系与精细的结构化表示。每个布局不仅包含视觉元素的几何属性与样式参数，还配备了描述性文本、美学评价、关键词标签及用户意图推断等多维度自然语言注释。数据集采用模块化组件设计，支持文本、图像与容器组件的灵活组合，并通过CSS风格的属性定义实现精确的视觉控制。其模板导向的架构允许研究者探索同一设计主题下的风格一致性及布局多样性，而丰富的元数据字段则为基于类别、尺寸或纵横比的筛选与统计分析提供了便利。这些特点共同构成了一个兼具深度与广度的设计知识库。

使用方法

借助配套的Python工具库，用户可通过实例化LicaDataset类便捷地加载数据集，并利用链式过滤方法按类别、模板、画布尺寸或纵横比进行数据子集选择。数据访问接口支持获取单个布局的JSON规范、对应标注信息及渲染文件路径，亦可通过迭代方式遍历所有条目以进行批量处理。模块级辅助函数进一步简化了按模板或类别加载布局的操作流程，而元数据的数据框表示则便于执行统计汇总与可视化分析。该设计使得数据集既能支持布局生成、风格迁移等端到端任务，也能服务于设计规律挖掘、标注质量评估等研究场景。

背景与挑战

背景概述

LICA数据集作为人工智能辅助设计领域的重要资源，由研究团队于2026年发布，旨在推动图形设计布局的智能化生成与分析。该数据集精心构建了包含演示文稿、视频、教育材料及传单等多种设计类别的布局规范，每个布局不仅完整记录了组件位置、排版、图像及背景等渲染规格，还附带了布局层面与模板层面的自然语言标注。其核心研究问题聚焦于如何将设计意图转化为机器可理解的结构化数据，从而为生成式设计模型提供高质量的训练基础，对自动化设计工具的开发与设计美学计算研究产生了深远影响。

当前挑战

在解决设计布局生成与理解的领域问题中，LICA数据集面临多重挑战。首要挑战在于如何准确捕捉并结构化设计中的复杂视觉层次与美学原则，例如平衡、对比与对齐关系，这要求标注体系能够超越简单组件枚举，深入编码设计逻辑。其次，构建过程中需克服大规模高质量设计数据的获取与标准化困难，包括确保布局组件属性的精确提取、跨模板设计主题的一致性维护，以及自然语言标注的客观性与丰富性平衡。此外，数据集还需适应动态设计媒介如视频的时序布局表征，增加了数据建模的复杂性。

常用场景

经典使用场景

在人工智能辅助设计领域，LICA数据集为布局生成与理解任务提供了标准化的评估基准。该数据集通过丰富的图形设计布局及其自然语言标注，支持研究者训练和验证生成模型，例如条件布局生成或布局到文本的转换。其模板结构允许探索设计主题下的变体生成，为研究设计一致性与多样性提供了理想实验平台。

实际应用

在实际设计工作流程中，LICA数据集可赋能智能设计工具的开发，如自动幻灯片生成、海报布局推荐和品牌视觉系统维护。基于该数据集训练的模型能够理解设计语义与视觉层次，辅助设计师快速生成符合特定风格与意图的版面方案，提升创意产业的内容生产效率与一致性。

衍生相关工作

围绕LICA数据集已衍生出多项经典研究工作，包括基于Transformer的布局生成模型、结合视觉语言预训练的布局美学评估框架，以及面向模板感知的设计变体合成方法。这些工作普遍利用数据集的层次化标注与组件级细节，推动了条件生成、跨模态推理等技术在设计计算领域的创新应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集