GDB: GraphicDesignBench

github2026-04-24 更新2026-04-23 收录

下载链接：

https://github.com/lica-world/GDB

下载链接

链接失效反馈

官方服务：

资源简介：

GDB评估视觉语言模型在专业平面设计任务上的表现，包括布局推理、排版、SVG编辑、模板匹配和动画。论文定义了49个评估任务；此仓库提供了39个基准管道，覆盖了其中的45个任务，组织成7个代码级领域，并基于Lica数据集（1,148个真实设计布局）构建。

GDB evaluates the performance of vision-language models on professional graphic design tasks, including layout reasoning, typography, SVG editing, template matching, and animation. The paper defines 49 evaluation tasks; this repository provides 39 benchmark pipelines that cover 45 of these tasks, organized into 7 code-level domains, and is built upon the Lica dataset which contains 1,148 real-world design layouts.

创建时间：

2026-04-13

原始信息汇总

GDB: GraphicDesignBench 数据集概述

数据集简介

GDB (GraphicDesignBench) 是一个用于评估视觉-语言模型在专业平面设计任务上性能的基准测试套件。它涵盖布局推理、排版、SVG编辑、模板匹配和动画等多个任务领域。该数据集基于Lica数据集构建，包含1,148个真实设计布局。

核心信息

论文：arXiv:2604.04192
数据集地址：https://huggingface.co/datasets/lica-world/GDB
博客介绍：https://lica.world/blog/gdb-real-world-benchmark-for-graphic-design
许可证：Apache 2.0

基准测试结构

数据集包含39个基准测试，分布在7个任务领域，每个任务分为理解或生成两类。

领域	任务数量	基准测试数量	描述
类别	2	2	设计类别分类和用户意图预测
布局	8	8	设计画布的空间推理（宽高比、元素计数、组件类型和检测）、布局生成（意图到布局、部分完成、宽高比适应）以及图层感知的对象插入
Lottie动画	2	2	从文本和图像生成Lottie动画
SVG	8	8	SVG推理和编辑（感知和语义问答、错误修复、优化、样式编辑）以及生成（文本到SVG、图像到SVG、组合输入）
模板	5	5	模板匹配、检索、聚类和生成（样式完成、颜色迁移）
时序	8	6	关键帧排序；运动类型分类；视频/组件持续时间和开始时间估计；生成（动画参数、运动轨迹、短视频）
排版	12	8	字体族、颜色、大小/粗细/对齐/字间距/行高、样式范围、曲率、旋转以及生成（样式化文本元素、样式化文本渲染到布局）

数据组织

本地数据包解压后的结构如下：

gdb-dataset/ ├── lica-data/ # 核心Lica数据（布局、渲染图、元数据） │ ├── metadata.csv # 每个布局一行 │ ├── layouts/<template_id>/<layout_id>.json │ ├── images/<template_id>/<layout_id>.{png,jpg,webp,mp4} │ └── annotations/… # 可选注释 │ └── benchmarks/ # 按领域划分的评估输入 ├── category/ # CategoryClassification/, UserIntentPrediction/ ├── image/ ├── layout/ ├── lottie/ ├── svg/ ├── template/ ├── temporal/ # KeyframeOrdering/, MotionTypeClassification/等 └── typography/

获取方式

在线加载：通过HuggingFace Hub直接加载（无需下载）
本地下载：运行 python scripts/download_data.py 下载到本地 data/gdb-dataset/ 目录

评估支持

模型提供商支持

提供商	CLI标志
OpenAI	`--provider openai`
Anthropic	`--provider anthropic`
Gemini	`--provider gemini`
HuggingFace	`--provider hf --device auto`
vLLM	`--provider vllm`
Diffusion	`--provider diffusion`
OpenAI Image	`--provider openai_image`
自定义入口点	`--provider custom --custom-entry module:attr`

评估指标扩展

扩展包	功能
`.[metrics]`	scipy, sklearn, scikit-image, Pillow, cairosvg
`.[svg-metrics]`	增加 torch, transformers, lpips
`.[lottie-metrics]`	增加 rlottie-python
`.[layout-metrics]`	增加 pyiqa, hpsv2, hpsv3, dreamsim, image-reward（需Linux + Python < 3.12）

集成支持

HELM框架：可通过Stanford CRFM的HELM框架运行所有39个基准测试

引用格式

bibtex @article{gdb2026, title={GDB: A Real-World Benchmark for Graphic Design}, author={Deganutti, Adrienne and Hirsch, Elad and Zhu, Haonan and Seol, Jaejung and Mehta, Purvanshi}, journal={arXiv preprint arXiv:2604.04192}, year={2026} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，GDB数据集的构建植根于专业的平面设计任务。该数据集以Lica数据集为基础，后者包含1148个真实设计布局，为评估提供了丰富的现实世界素材。构建过程涉及从Lica数据集中提取布局、图像和元数据，并在此基础上精心设计了涵盖七大领域的39个基准测试。每个基准测试均针对特定的理解或生成任务，通过自动化脚本和人工验证相结合的方式，确保数据质量与任务定义的精确性。数据集的本地版本通过专用脚本下载并解压，形成结构化的目录体系，便于模型加载与评估。

特点

GDB数据集的核心特点在于其全面覆盖平面设计的关键维度。数据集囊括了布局推理、排版、SVG编辑、模板匹配和动画等七大领域，每个领域下设多个细粒度任务，如布局生成、字体属性分类和动画参数估计等。这些任务既包含理解型也包含生成型，能够系统评估模型在专业设计场景下的多模态能力。数据集基于真实设计布局构建，确保了任务与现实工作流程的高度契合。此外，数据集支持从HuggingFace平台直接加载或本地离线使用，提供了灵活的数据访问方式，并集成了多种评估指标和提供商接口，为严谨的模型性能评测奠定了坚实基础。

使用方法

使用GDB数据集进行模型评估遵循模块化的工作流程。用户可通过pip安装相应的Python包，并选择从HuggingFace直接加载数据或下载至本地。评估过程通过统一的命令行工具启动，支持指定具体的基准测试、选择模型提供商（如OpenAI、Gemini或自定义模型）并配置相关参数。数据集与HELM评估框架深度集成，允许用户通过标准接口进行批量测试与结果汇总。对于高级用例，Python API提供了更灵活的编程接口，支持动态加载样本、注册基准测试并运行评估流水线。整个使用过程强调可复现性和扩展性，用户能够根据需求定制评估任务并整合新的模型与指标。

背景与挑战

背景概述

在视觉语言模型快速发展的背景下，专业图形设计领域的自动化评估长期缺乏综合性基准。GDB（GraphicDesignBench）数据集应运而生，由Lica研究团队于2026年创建，其核心研究问题聚焦于如何系统评估模型在真实设计场景下的理解与生成能力。该数据集基于包含1148个实际设计布局的Lica数据集构建，涵盖布局推理、排版、SVG编辑、模板匹配及动画等七大领域的39项基准任务。GDB的建立为图形设计智能化研究提供了关键评估工具，推动了跨模态模型在创意产业中的应用与发展。

当前挑战

GDB数据集致力于解决专业图形设计自动化中的核心挑战，即如何让视觉语言模型精准理解复杂的设计语义并生成符合专业规范的创意内容。具体而言，其构建过程面临多重挑战：首先，设计任务具有高度专业性与主观性，需在布局、字体、动画等多维度建立可量化的评估标准；其次，真实设计数据往往涉及版权与格式多样性，数据清洗与标注需要大量专业人力；此外，SVG、Lottie等专业格式的解析与生成对模型的结构化输出能力提出了极高要求，确保评估既涵盖感知质量也兼顾语义准确性是一项持续的技术难题。

常用场景

经典使用场景

在视觉语言模型评估领域，GDB数据集作为专业图形设计任务的基准测试平台，其经典使用场景集中于对模型在布局推理、排版、SVG编辑及动画生成等复杂任务上的系统性评估。研究人员通过该数据集涵盖的39个基准测试，能够全面衡量模型在真实设计环境下的理解与生成能力，为模型性能的横向对比提供了标准化框架。

解决学术问题

该数据集有效解决了图形设计自动化研究中缺乏综合性评估基准的学术难题，通过提供基于真实设计布局的结构化任务，促进了模型在空间推理、视觉语义对齐及跨模态生成等核心问题上的进展。其意义在于建立了连接学术研究与实际设计需求的桥梁，推动了视觉语言模型在专业设计领域的可解释性与实用性发展。

衍生相关工作

围绕GDB数据集衍生的经典工作包括基于布局生成任务的意图到布局映射模型、结合SVG语义编辑的视觉编程框架，以及针对动画关键帧排序的时序推理算法。这些研究进一步拓展了数据集的边界，催生了如设计风格迁移系统、自适应模板库构建方法等创新方向，持续丰富图形设计智能化的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集