GRAPHICBENCH

Name: GRAPHICBENCH
Creator: University of Maryland, College Park; Adobe Research
Published: 2025-04-16 03:26:59
License: 暂无描述

arXiv2025-04-16 更新2025-04-19 收录

下载链接：

https://github.com/adobe-research

下载链接

链接失效反馈

官方服务：

资源简介：

GRAPHICBENCH是一个针对图形设计规划的基准数据集，由University of Maryland和Adobe Research共同创建。该数据集包含1,079对用户查询和输入图像，涵盖四种设计类型：书籍封面、名片、明信片和海报。数据集通过模拟真实世界设计需求，邀请有经验的研究生根据Behance平台上的设计项目创建用户查询和计划。数据集的构建考虑了设计的多样性，适用于评估大型语言模型在创意设计任务中的规划能力。

GRAPHICBENCH is a benchmark dataset for graphic design planning, co-created by the University of Maryland and Adobe Research. This dataset contains 1,079 pairs of user queries and input images, covering four design categories: book covers, business cards, postcards, and posters. To simulate real-world design requirements, experienced graduate students were invited to create user queries and design plans based on design projects on the Behance platform. The dataset is constructed with consideration of design diversity, and is suitable for evaluating the planning capabilities of large language models (LLMs) in creative design tasks.

提供机构：

University of Maryland, College Park; Adobe Research

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

GRAPHICBENCH数据集的构建采用了多阶段流程，首先通过专业设计师在Adobe Creative Cloud工具上创建真实设计案例作为参考，随后由三名具有Adobe工具使用经验的研究生协作编写用户查询和工作流程。为确保数据多样性，研究团队利用GPT-4生成多样化查询模板，并通过语义相似度检测（SENTENCE-BERT）和n-gram匹配进行冗余过滤。图像资源从OpenCLIPArt和Public Domain Vectors平台获取，采用跨模态检索技术将用户描述的图像需求与274K规模的图像库进行匹配。最后通过人工-LLM协同评估机制（Cohen's Kappa=0.586）对查询质量和图像相关性进行双重验证，形成包含1,079个查询-图像对的基准数据集。

特点

该数据集具有三个显著特征：首先，涵盖书籍封面、名片、明信片和海报四大设计类型，通过分层抽样确保设计概念分布的多样性（如书籍封面包含12个主题类别）。其次，每个设计实例均包含结构化元数据，包括精确的色彩参数（RGB值）、空间位置描述（如“顶部居中”）和尺寸规范（大/中/小）。第三，数据集特别关注隐式设计约束的编码，例如通过人工标注识别出83%的案例需要常识推理（如文本与背景的对比度要求）。测试集的1,059个实例还包含跨专家协作的长视野工作流，平均每个设计涉及2.05个专家代理和18.7个执行步骤。

使用方法

使用GRAPHICBENCH需遵循模块化评估框架：首先将用户查询输入监督代理（Ms）生成设计大纲，随后通过专家招募模块（Photo Editor/Vector Graphic Editor/Layout Designer）分解任务。工作流生成阶段需调用46个预定义动作（如CreateDocument、SetBackgroundColor），其JavaScript实现可直接在Adobe脚本环境执行。评估时采用多维度指标：工作流层面考察交付率（成功生成完整工作流的比例）和设计通过率（GPT-4评估的显/隐式约束满足度）；执行层面测量保真度（OpenCV模板匹配）和VQA通过率（LLaVA模型评估）。建议配合GRAPHICTOWN框架使用，该框架提供分层代理架构处理专家间依赖关系，并通过动作检索机制（参数自动推断）降低执行错误率。

背景与挑战

背景概述

GRAPHICBENCH是由马里兰大学学院公园分校和Adobe Research的研究人员于2025年提出的一个图形设计规划基准数据集。该数据集聚焦于探索大型语言模型（LLM）在开放式创意设计任务中的规划能力，填补了现有研究对明确目标任务的过度关注而忽视开放性创意任务的空白。数据集包含1,079个用户查询和输入图像对，涵盖书籍封面、名片、明信片和海报四种设计类型，通过模拟真实设计需求构建而成。研究人员同时提出了GRAPHICTOWN框架，这是一个包含三个设计专家和46种操作工具的LLM智能体系统，用于在网页环境中执行设计工作流。该数据集的建立为评估LLM在创意设计中的规划与执行能力提供了重要基准，推动了人机协作设计领域的发展。

当前挑战

GRAPHICBENCH面临的核心挑战体现在两个维度：领域问题挑战方面，主要解决LLM在开放式图形设计任务中的规划能力评估难题，包括如何准确理解用户隐含的设计约束、处理多专家协作的复杂工作流，以及评估主观性强的设计成果质量；构建过程挑战方面，研究人员需要克服用户查询多样性保障、图像-文本对齐验证，以及跨设计类型通用性保持等技术难点。具体表现为：1）空间关系推理的困难，模型难以准确处理设计元素间的相对位置；2）全局依赖协调的不足，在多专家协作中难以有效管理跨工作流的依赖关系；3）动作检索的精准度问题，模型在每一步选择最合适设计操作时存在困难。这些挑战使得仅30%的工作流能成功执行出符合设计要求的结果。

常用场景

经典使用场景

GRAPHICBENCH作为一个专注于平面设计领域的基准测试数据集，其经典使用场景在于评估大型语言模型（LLM）代理在开放式创意设计任务中的规划能力。该数据集通过1,079个涵盖书籍封面、名片、明信片和海报四种设计类型的用户查询，模拟真实设计需求场景。研究团队可利用该数据集测试代理从高层次用户需求生成结构化工作流的能力，包括设计约束解析、专家代理协作和工具调用等关键环节。尤其在多专家代理协同完成长周期设计任务时，该数据集能有效验证模型在空间关系推理、全局依赖协调等复杂情境下的表现。

实际应用

在实际应用层面，GRAPHICBENCH可直接赋能设计自动化领域。基于该数据集训练的代理系统可应用于在线设计平台，实现用户自然语言需求到成品设计的端到端生成。例如在电商场景中自动生成商品海报，或在企业服务中快速产出标准化名片。其工作流规划框架GRAPHICTOWN已集成46种Adobe设计工具操作，可直接对接Photoshop等专业软件的脚本环境。此外，该数据集对设计教育具有启示价值，通过分析模型失败案例可提炼人类设计师的隐性知识。

衍生相关工作

围绕GRAPHICBENCH衍生的经典工作主要集中在三个方向：一是扩展基准范围，如OpenCoLE等研究增加了UI设计等新类型；二是优化代理架构，如MetaGPT采用元编程框架改进多专家协作机制；三是增强空间推理能力，如Mind's Eye等工作通过可视化思维链提升LLM的布局理解。在工具学习领域，ToolLLM等研究借鉴其动作检索机制，扩展了API调用泛化能力。这些衍生工作共同推动了语言代理在复杂、开放式任务中的实用化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集