GraphicDesignBench (GDB); LICA layered-composition dataset
收藏arXiv2026-04-08 更新2026-04-09 收录
下载链接:
https://github.com/purvanshi-lica/lica-bench
下载链接
链接失效反馈官方服务:
资源简介:
GraphicDesignBench (GDB) 是由LICA团队开发的首个专业平面设计AI评估基准,涵盖布局、排版、矢量图形等5大领域的49项任务。数据集基于LICA分层组合数据集构建,包含989个真实设计模板,完整保留图层结构、文本样式及动画属性等元数据。其创新性地将设计任务解构为多约束条件,通过空间准确性、文本保真度等专业指标评估模型能力,为AI设计协作系统的研发提供了标准化测试平台。
GraphicDesignBench (GDB) is the first professional graphic design AI evaluation benchmark developed by the LICA team. It covers 49 tasks across 5 major domains including layout, typography, vector graphics and other related fields. Built upon the LICA hierarchical composite dataset, this benchmark comprises 989 real-world design templates, with complete metadata such as layer structures, text styles, and animation properties fully retained. It innovatively deconstructs design tasks into multiple constraint conditions, evaluates model performance via professional metrics including spatial accuracy and text fidelity, and provides a standardized testbed for the development of AI-powered design collaboration systems.
提供机构:
LICA
创建时间:
2026-04-06
原始信息汇总
Lica-Bench 数据集概述
数据集简介
Lica-Bench 是一个用于评估视觉-语言模型在理解和生成图形设计作品方面能力的结构化评估套件。它涵盖了布局推理、排版、视觉层次、SVG/矢量理解、模板变体、动画等多个方面。该基准测试基于 Lica 数据集构建。
核心数据源
- 基础数据集:Lica 数据集,包含 1,148 个图形设计布局。
- 数据集地址:https://github.com/purvanshi/lica-dataset
评估任务概览
基准测试包含 45 个任务,分布于 7 个领域,共 39 个基准测试。
| 领域 | 任务数量 | 基准测试数量 | 描述 |
|---|---|---|---|
| 类别 | 2 | 2 | 设计类别分类和用户意图预测 |
| 布局 | 8 | 8 | 设计画布上的空间推理(宽高比、元素计数、组件类型和检测)、布局生成(意图到布局、部分补全、宽高比适应)以及图层感知的对象插入 |
| Lottie动画 | 2 | 2 | 从文本和图像生成 Lottie 动画 |
| SVG | 8 | 8 | SVG 推理和编辑(感知和语义问答、错误修复、优化、样式编辑)以及生成(文本到SVG、图像到SVG、组合输入) |
| 模板 | 5 | 5 | 模板匹配、检索、聚类和生成(样式补全、颜色迁移) |
| 时序 | 8 | 6 | 关键帧排序;运动类型分类;视频时长、组件时长和开始时间估计;生成(动画参数、运动轨迹、短视频) |
| 排版 | 12 | 8 | 字体族、颜色、大小/字重/对齐/字间距/行高*、样式范围、曲率、旋转,以及生成(带样式的文本元素、将带样式的文本渲染到布局) |
typography-3(文本参数估计)期望一个包含五个字段的 JSON 对象:font_size、font_weight、text_align、letter_spacing和line_height。
数据集结构与内容
数据包根目录为 lica-benchmarks-dataset/,包含两部分:
lica-data/:核心 Lica 文件。metadata.csv:每个布局一行。layouts/<template_id>/<layout_id>.json:布局文件。images/<template_id>/<layout_id>.{png,jpg,webp,mp4}:渲染图像或动画。annotations/:可选注释。
benchmarks/<domain>/:按领域划分的特定任务评估数据。- 包含清单、JSON 规范、准备好的资源等。
使用方式
- 安装:通过
pip install -e .安装核心库,并可选择安装额外的功能包(如.[metrics]、.[openai])。 - 数据下载:运行
python scripts/download_data.py下载并解压数据集。 - 运行基准测试:通过
scripts/run_benchmarks.py脚本,指定基准测试、模型提供商和数据集根目录来运行评估。 - Python API:可通过
design_benchmarks库以编程方式加载基准测试注册表、运行器和模型来执行评估。
支持的评价模型与提供商
评估支持多种模型提供商的后端:
- OpenAI
- Anthropic
- Gemini
- HuggingFace
- vLLM
- Diffusion
- OpenAI Image
局限性说明
- 部分评价指标(如 LPIPS、CLIP 分数、SSIM、CIEDE2000)需要安装较重的额外依赖包。
- 完整的
.[layout-metrics]功能栈仅在 Linux 系统且 Python 版本低于 3.12 时启用。 - 若依赖不可用,相关任务的评价指标将返回
0.0。
引用
若使用此基准测试,请引用原始的 LICA 数据集。
搜集汇总
数据集介绍

构建方式
在专业平面设计领域,评估人工智能模型的能力需要超越自然图像理解的基准。GraphicDesignBench (GDB) 的构建基于LICA分层组合数据集,该数据集源自商业设计平台的真实世界模板,保留了完整的分层结构信息。每个模板均标注了组件类型、边界框、堆叠顺序及样式属性,文本组件更包含字体、颜色、对齐等详细排版规格。GDB从该数据集中提取了989个非视频布局,并依据设计任务的核心维度——布局、排版、信息图表、模板语义及动画——系统性地构建了49项评估任务。这些任务覆盖理解与生成两种模式,通过严格的过滤标准形成任务特定的评估子集,确保了评估的全面性与可复现性。
特点
GDB基准套件的显著特点在于其针对专业设计工作独特挑战的深度聚焦。与侧重于自然图像质量或通用文本到图像合成的现有基准不同,GDB专门评估将沟通意图转化为结构化布局、渲染忠实文本、操作分层组合、生成有效矢量图形以及对动画进行推理的能力。其评估体系采用了专为设计定制的多维度指标分类法,涵盖空间准确性、感知质量、文本保真度、语义对齐和结构有效性,超越了传统图像基准中占主导地位的FID或CLIP分数。此外,基准中50%的任务量化表明,即使顶尖模型的表现也远未达到可用水平,清晰揭示了当前AI在复杂空间推理、矢量代码生成、细粒度排版感知及动画时间分解等核心设计挑战上的能力缺口。
使用方法
该数据集的使用旨在为追踪AI模型在设计协作能力方面的进展提供一个严谨、可复现的测试平台。研究人员可通过其公开的评估框架,对前沿模型在五大设计领域的49项任务上进行系统性评估。使用方法包括:加载基于LICA数据集构建的任务特定子集,利用提供的标准化提示模板对模型进行测试,并依据设计原生指标分类法计算性能得分。评估框架支持多种输入模态条件,并可扩展以纳入新的模型或任务。通过分析模型在布局理解与生成、排版属性感知、SVG代码推理与生成、模板语义解释以及动画时空推理等任务上的表现,能够精准定位当前技术的局限性与未来改进方向。
背景与挑战
背景概述
GraphicDesignBench (GDB) 是由 LICA 研究团队于 2026 年推出的首个综合性图形设计评估基准,旨在系统评估人工智能模型在专业图形设计任务上的能力。该基准基于 LICA 分层组合数据集构建,涵盖了布局、排版、信息图表、模板语义及动画五大核心领域,共包含 49 项任务,涉及理解与生成两种模式。GDB 的创建填补了现有评估体系在结构化、意图驱动及多层设计工作方面的空白,为 AI 在设计领域的进展提供了严谨、可复现的测试平台,推动了模型向具备设计协作能力的方向发展。
当前挑战
GDB 所解决的领域问题在于评估 AI 在专业图形设计中的多约束满足与结构化输出能力,其核心挑战包括模型在复杂布局的空间推理、矢量代码的忠实生成、细粒度排版感知以及动画时间分解等方面的显著不足。构建过程中的挑战主要源于数据集的复杂标注需求,需在 LICA 数据集的基础上保留完整的分层结构、组件类型、排版属性及动画元数据,并设计覆盖空间准确性、感知质量、文本保真度等多维度的评估指标体系,以确保任务能真实反映设计工作的专业要求。
常用场景
经典使用场景
在平面设计领域,GraphicDesignBench (GDB) 作为首个全面评估AI模型在专业设计任务中性能的基准套件,其经典使用场景集中于对布局、排版、信息图表、模板语义及动画五大核心设计能力的系统性评测。该数据集依托LICA分层组合数据集,通过49项任务覆盖了从空间理解到矢量生成的完整设计流程,为研究者提供了衡量模型在结构化设计约束下表现的可重复实验平台。尤其在布局生成与排版识别等任务中,GDB能够精准检验模型是否具备将沟通意图转化为视觉层次、保持字体保真度及处理复杂图层关系的能力,从而推动AI在设计协作中的实用化进展。
衍生相关工作
围绕GDB数据集,已衍生出一系列聚焦于设计AI能力提升的经典研究工作。例如,基于LICA分层注释的后续研究探索了图层感知修复、模板变体生成等任务的新型架构设计;在矢量图形生成领域,受GDB中SVG理解与编辑任务的启发,研究者开发了专门针对代码结构优化的生成模型。此外,该基准还促进了多模态大语言模型在排版属性预测、动画时序推理等细粒度任务上的适应性微调,并催生了如设计语义对齐、人类偏好评分等评估指标的进一步细化。这些工作共同推动了AI在设计领域的认知与生成能力向专业化、实用化方向演进。
数据集最近研究
最新研究方向
在平面设计领域,GraphicDesignBench (GDB) 作为首个全面评估AI在专业设计任务中能力的基准套件,其最新研究聚焦于揭示当前前沿模型在结构化设计任务中的核心瓶颈。基于LICA分层组合数据集,GDB通过49项任务系统评估了布局、排版、矢量图形、模板语义及动画五大领域,发现即使顶级模型在空间推理、矢量代码生成、精细排版感知和动画时序分解等关键能力上仍存在显著差距。研究指出,尽管模型在高层次语义理解上已接近可用水平,但在需要精确性、结构化和组合意识的任务中表现急剧下降,例如组件检测的mAP@0.5仅达6.4%,字体识别准确率最高仅为23.7%。这些发现突显了AI在专业设计协作中面临的深层挑战,为未来模型在结构化输出、细粒度判别和多约束满足方面的优化提供了明确方向。
相关研究论文
- 1Graphic-Design-Bench: A Comprehensive Benchmark for Evaluating AI on Graphic Design TasksLICA · 2026年
以上内容由遇见数据集搜集并总结生成



