Visual Aesthetic Benchmark

github2026-02-24 更新2026-02-25 收录

下载链接：

https://github.com/BakeLab/Visual-Aesthetic-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Aesthetic Benchmark是一个大规模基准测试，用于评估前沿AI模型在由艺术家策划的艺术作品（包括美术、摄影和插图）上的表现，将模型的判断与领域专家的评估进行比较，涵盖400对成对比较。

Visual Aesthetic Benchmark is a large-scale benchmark for evaluating state-of-the-art AI models on artist-curated artworks including fine arts, photography and illustration, which compares model judgments with evaluations from domain experts and covers 400 pairwise comparisons.

创建时间：

2026-02-23

原始信息汇总

Visual Aesthetic Benchmark 数据集概述

数据集简介

Visual Aesthetic Benchmark 是一个大规模基准测试，用于评估前沿AI模型在艺术家策划的艺术作品（涵盖美术、摄影和插画）上的表现。该基准通过400对成对比较，将模型的判断与领域专家的评估进行对比。

关键数据规模

专家判断数量：超过13,000条
评估的前沿模型数量：超过20个
委托创作耗时：超过2,000小时
最高性能表现：26.5%

主要用途

该数据集是一个评估工具包，专门用于评估视觉语言模型在细粒度审美判断上的能力。

评估任务与提示类型

基准测试评估视觉大语言模型在三种提示类型上的表现，每种类型包含3次位置去偏试验：

提示类型	任务描述
`pick_best`	选择最具美学吸引力的图像
`pick_worst`	选择最缺乏美学吸引力的图像
`pick_best_and_worst`	同时选择最佳和最差图像（仅适用于3张及以上图像任务；对于2图像任务，由`pick_best`派生）

评估指标

指标	描述
p^3 (pass^3)	仅当所有3次试验结果一致时为正确。严格的连贯性指标。
ap@1 (avg pass@1)	单次试验准确率的平均值。容忍度更高。
top1 / bot1 / tb1	在`pick_best` / `pick_worst` / 两者皆正确上的准确率。

相关资源链接

项目网站：https://vab.bakelab.ai/
Hugging Face 数据集地址：https://huggingface.co/datasets/BakeLab/Visual-Aesthetic-Benchmark

搜集汇总

数据集介绍

构建方式

在视觉美学评估领域，构建一个具有权威性的基准数据集需要严谨的学术流程。Visual Aesthetic Benchmark的构建过程体现了这一原则，其核心在于通过专家策展的方式汇集艺术作品。数据集精心挑选了涵盖纯艺术、摄影和插画三大领域的作品，并在此基础上组织了超过一万三千次由领域专家完成的审美判断，形成了四百对经过精心配比的图像对比任务。整个数据收集过程耗时超过两千小时，确保了评估样本在美学维度上的多样性与专业性，为模型提供了细粒度且可靠的评判标准。

特点

该数据集在视觉语言模型的美学判断能力评估方面展现出鲜明的特色。其首要特点在于评估任务的精细设计，提供了‘选择最佳’、‘选择最差’以及‘同时选择最佳与最差’三种提示类型，并辅以三次位置去偏的试验，从而全面考察模型判断的一致性与稳定性。数据集覆盖了广泛的前沿模型，超过二十个模型在此基准上接受了检验，而目前取得的最高性能仅为26.5%，这凸显了当前AI在复杂美学理解任务上面临的显著挑战，也证明了该基准的区分度与难度。

使用方法

对于研究人员而言，使用该基准进行评估是一个系统化的工程过程。评估流程始于依赖项安装与环境配置，通过执行预置的脚本即可启动自动化评测。用户可以通过命令行参数灵活指定待评估的模型、提示类型以及并发数，评估过程支持断点续传，增强了大规模实验的鲁棒性。评估完成后，专用的汇总脚本能够对结果进行多维度分析，计算包括严格一致性指标p^3在内的多种度量，并支持将结果导出为结构化JSON文件，便于进一步的学术分析与比较。

背景与挑战

背景概述

视觉美学基准（Visual Aesthetic Benchmark）由BakeLab研究团队于近期构建，旨在系统评估前沿人工智能模型在精细美学判断任务上的表现。该数据集聚焦于艺术策展作品，涵盖美术、摄影与插画三大领域，通过超过13,000条专家标注与400对成对比较，为模型提供了与领域专家评价对齐的评估框架。其核心研究问题在于探索视觉语言模型是否能够模拟人类在复杂美学感知中的细微判别能力，从而推动生成式人工智能在创意与艺术相关应用中的可靠发展，对计算机视觉与美学计算交叉领域产生了显著的学术影响力。

当前挑战

视觉美学基准所针对的领域挑战在于美学评价本身具有高度主观性与文化依赖性，要求模型超越传统图像分类或对象识别，深入理解色彩、构图、风格等抽象视觉属性，并做出与人类专家一致的偏好选择。在数据集构建过程中，主要挑战包括：确保专家标注的可靠性与一致性，需耗费超过2,000小时进行委托标注以覆盖多样艺术领域；设计无偏的评估协议，例如通过位置去偏的三次试验来减少模型输出中的随机偏差；以及整合多模态数据，协调视觉内容与语言提示之间的语义对齐，以全面反映模型在复杂美学任务上的真实能力。

常用场景

经典使用场景

在视觉美学与计算艺术交叉领域，Visual Aesthetic Benchmark 作为一项大规模评估基准，其经典使用场景集中于系统化评测前沿视觉语言模型在精细美学判断任务上的表现。该基准通过专家策展的艺术作品集合，涵盖绘画、摄影与插画等多种艺术形式，要求模型在成对比较中识别最具或最缺乏美学吸引力的图像，从而为模型的美学感知能力提供标准化、可量化的评估框架。

解决学术问题

该数据集有效应对了人工智能在美学理解领域长期存在的评估难题，即如何将主观、多维的美学评价转化为客观、可重复的度量标准。通过引入超过1.3万条领域专家判断，并设计位置去偏的多次试验，它不仅解决了模型美学判断与人类专家共识对齐的验证问题，还促进了关于模型一致性、鲁棒性及跨艺术领域泛化能力的深入研究，为计算美学建立了严谨的实证基础。

衍生相关工作

围绕该数据集衍生的经典工作主要聚焦于模型架构改进与评估方法创新。研究者们借鉴其专家标注范式和严格度量标准，开发了针对美学敏感性的新型训练目标与微调策略；同时，其提出的p^3（pass^3）等一致性指标激发了关于模型决策可靠性的后续探讨，并催生了跨模态美学理解任务的扩展基准，持续丰富计算美学的研究图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集