GraphicDesignEvaluation

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/creative-graphic-design/GraphicDesignEvaluation

下载链接

链接失效反馈

官方服务：

资源简介：

GraphicDesignEvaluation数据集用于评估大型多模态模型对图形设计质量的评估能力，基于核心设计原则，包括对齐、重叠和空白。数据集包含700个横幅和海报设计，每个设计由60个人工标注者评分，并提供了人类和基于GPT的评分。数据集以英文为主，并包含有关其创建、注释和使用考虑的详细信息。

创建时间：

2025-10-21

原始信息汇总

GraphicDesignEvaluation 数据集概述

数据集基本信息

数据集名称: GraphicDesignEvaluation
许可证: Apache-2.0
语言: 英语
数据规模: n<1K
主页: https://cyberagentailab.github.io/Graphic-design-evaluation/
代码库: https://github.com/creative-graphic-design/huggingface-datasets/tree/main/datasets/GraphicDesignEvaluation
论文预印本: https://arxiv.org/abs/2410.08885
会议论文: https://dl.acm.org/doi/10.1145/3681758.3698010

数据集配置

绝对评分配置

配置数量: 6个 共同特征:

image: 图像数据
perturbation: 扰动级别分类标签
- 0: none
- 1: small
- 2: medium
- 3: large
scores: int32序列
avg: float32类型

具体配置:

absolute-gpt-alignment: 400个样本，41.6MB
absolute-gpt-overlap: 400个样本，41.6MB
absolute-gpt-whitespace: 400个样本，41.6MB
absolute-human-alignment: 400个样本，41.6MB
absolute-human-overlap: 400个样本，41.6MB
absolute-human-whitespace: 400个样本，41.6MB

相对评分配置

配置数量: 6个 共同特征:

image: 图像数据
comparative: 比较级别分类标签
- 0: small
- 1: medium
- 2: large
avg: 字符串类型
scores: 字符串序列

具体配置:

relative-gpt-alignment: 300个样本，31.2MB
relative-gpt-overlap: 300个样本，31.2MB
relative-gpt-whitespace: 300个样本，31.2MB
relative-human-alignment: 300个样本，31.2MB
relative-human-overlap: 300个样本，31.2MB
relative-human-whitespace: 300个样本，31.2MB

数据集内容

总样本数: 700个横幅和海报设计
设计来源: 100个原始设计 + 600个扰动设计
数据来源: VistaCreate
标注信息: 每个图像由60名人类标注者评分
评分尺度: 1-10分制

研究目的

评估大型多模态模型在图形设计质量评估方面的能力，重点关注三个核心设计原则：

对齐
重叠
留白

引用信息

bibtex @inproceedings{haraguchi2024can, title={Can GPTs Evaluate Graphic Design Based on Design Principles?}, author={Haraguchi, Daichi and Inoue, Naoto and Shimoda, Wataru and Mitani, Hayato and Uchida, Seiichi and Yamaguchi, Kota}, booktitle={SIGGRAPH Asia 2024 Technical Communications}, pages={1--4}, year={2024} }

搜集汇总

数据集介绍

构建方式

在视觉传达设计领域，GraphicDesignEvaluation数据集通过系统性方法构建，涵盖700个横幅和海报设计样本，其中100个为原始设计，600个为经过扰动的变体。这些设计素材源自VistaCreate平台，通过引入对齐、重叠和留白三种核心设计原则的扰动，生成多维度评估样本。每个设计样本由60位人类标注者基于1-10分制进行美学评分，同时集成GPT模型生成的自动化评分，形成双重评估体系。

特点

该数据集的核心特征在于其多维度的评估框架，同时包含人类主观评分与GPT模型自动化评分的双重数据。通过六种配置分别对应绝对评分与相对评分模式，覆盖对齐、重叠和留白三大设计原则的量化分析。数据样本均附带扰动等级标注，从无扰动到大幅扰动形成连续变化序列，为研究设计原则的敏感度提供丰富梯度。

使用方法

研究者可通过加载特定配置名称访问不同评估维度的数据子集，例如absolute-human-alignment对应人类标注者的对齐原则绝对评分。数据集支持直接调用图像字段获取设计样本，结合scores序列分析评分分布，利用avg字段快速获取平均评分。该数据集适用于训练视觉美学评估模型，验证多模态模型与人类审美的一致性，以及探索设计原则的量化表征方法。

背景与挑战

背景概述

在视觉传达设计领域，量化评估设计美学一直面临主观性强、标准化不足的挑战。GraphicDesignEvaluation数据集由CyberAgent AI实验室于2024年构建，旨在探索多模态大模型对平面设计原则的评估能力。该数据集聚焦三大核心设计原则——对齐、重叠与留白，通过700张原始及扰动后的海报与横幅设计，结合60位人类标注者的评分与GPT模型反馈，为设计质量评估提供了可量化的基准。其研究成果发表于SIGGRAPH Asia 2024会议，推动了人工智能与设计学科的交叉研究。

当前挑战

该数据集致力于解决平面设计质量评估中主观性与标准化之间的矛盾，其核心挑战在于建立人类审美与机器评分之间的可靠关联。构建过程中需克服多重困难：首先，设计扰动的量化需精确对应三大设计原则，既要保持视觉合理性又要控制变量维度；其次，人类标注的一致性保障要求精细的标注流程设计与质量控制；此外，多模态模型对设计原则的语义理解深度直接影响评估效度，需通过跨模态对齐技术提升判断准确性。

常用场景

经典使用场景

在视觉设计评估领域，GraphicDesignEvaluation数据集被广泛用于测试多模态模型对平面设计质量的感知能力。该数据集通过呈现包含对齐、重叠和留白等核心设计原则的横幅与海报图像，为研究者提供了系统评估模型审美判断力的基准平台。在典型应用场景中，研究人员将人类评分与GPT生成评分进行对比分析，探索模型在理解设计美学方面的表现差异。

衍生相关工作

该数据集已催生多项重要研究进展，包括基于对比学习的视觉美学评估框架和跨模态设计原则理解模型。相关研究通过分析数据集揭示的评分规律，开发出更精准的设计质量预测算法。这些工作不仅深化了多模态模型在创意领域的应用理解，还为构建下一代智能设计辅助系统奠定了理论基础。

数据集最近研究