UNIAA-Bench

arXiv2024-04-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2404.09619v1

下载链接

链接失效反馈

官方服务：

资源简介：

UNIAA-Bench是一个综合基准，包含感知、描述和评估三个美学水平，用于评估多模态大语言模型在图像美学评估任务中的能力。

UNIAA-Bench is a comprehensive benchmark encompassing three aesthetic levels—perception, description, and evaluation—for assessing the capabilities of multimodal large language models in the image aesthetic assessment task.

创建时间：

2024-04-15

搜集汇总

数据集介绍

构建方式

图像美学评估（IAA）领域长期受限于单一数据集或任务的孤立范式，难以与人类多层次的美学认知过程对齐。为突破这一瓶颈，UNIAA-Bench应运而生，其构建过程严谨而系统。该基准从两个维度选取图像源：一是从现有主流IAA数据集（如AVA、AADB、PARA等）中抽取测试集图像作为领域内样本；二是从互联网收集全新图像作为野外样本，确保与训练数据无重叠，以检验模型的泛化能力。在评估体系设计上，UNIAA-Bench严格遵循人类美学信息处理阶段，从感知、描述与评分三个层面构建子集。感知子集包含5354道涵盖内容与主题、构图、色彩、光线、对焦及情感等六类美学属性的选择题；描述子集由501张图像及其专家撰写的长文本美学评语构成；评分子集则整合四个主流IAA数据集的评分标准，用于零样本测试。

特点

UNIAA-Bench的独特之处在于其全面性与专业性，首次系统性地将多模态大语言模型的美学能力解构为三个递进层次。在感知层面，它通过精心设计的是非、选择与程度三种问题类型，覆盖了从基础属性识别到情感氛围感知的完整认知链条，且每个美学属性下的问题数量与选项分布均经过均衡处理。在描述层面，该基准提供的专家标注文本平均长达百词，不仅包含对构图、色彩等元素的分析，还融入了改进建议，这为评估模型生成精细且专业的美学描述设立了严苛标杆。在评分层面，UNIAA-Bench创新性地利用模型输出标记的对数概率进行软最大化池化，将离散的等级词汇（如“优秀”、“差”）转化为连续量化分数，从而在不依赖显式训练的情况下，实现了对模型美学评分能力的零样本评估。这种多维度、多层次的设计使UNIAA-Bench成为检验MLLM美学智能的权威试金石。

使用方法

UNIAA-Bench的使用方法清晰而灵活，旨在为研究者提供一个标准化的评估协议。对于美学感知任务，研究者需向MLLM输入图像与对应的多项选择问题，模型需从给定选项中选出正确答案，最终通过计算准确率来量化其感知能力。对于美学描述任务，模型需基于图像生成详细的美学评语，随后借助单模态GPT（如GPT-4）从完整性、精确性和相关性三个指标，将模型输出与专家标注的黄金描述进行比对打分，为降低GPT的随机性，建议对同一提示进行五次评估并取平均值。对于美学评分任务，研究者需使用固定提示（如“从美学角度评价这张图片”），提取模型输出中评分标记的对数概率，并通过预定义的等级词汇（优秀、好、一般、差、糟糕）及其对应量化分数进行加权求和，最终计算模型得分与真实平均意见分之间的皮尔逊线性相关系数和斯皮尔曼秩相关系数，以衡量其评分能力。

背景与挑战

背景概述

图像美学评估（Image Aesthetic Assessment, IAA）是计算机视觉领域中一项旨在模拟人类审美判断的关键任务，其应用广泛覆盖图像检索、智能摄影与图像编辑等方向。然而，传统IAA方法多局限于单一数据集或子任务，难以实现跨领域、多模态的通用评估。为突破这一瓶颈，北京大学与快手科技的研究团队于2024年联合提出了UNIAA-Bench，这是一个基于多模态大语言模型（MLLM）的统一美学评估基准。该基准由Zhaokun Zhou、Qiulin Wang等研究者主导构建，旨在系统性地评估MLLM在美学感知、描述与评分三个层次上的能力。UNIAA-Bench的提出不仅填补了MLLM在美学评估领域缺乏标准化基准的空白，还通过引入低成本的IAA数据集转换范式（IDCP），显著推动了美学评估从单一任务向通用化、人机对齐方向的发展，其影响力已辐射至计算机视觉与多模态学习的交叉前沿。

当前挑战

UNIAA-Bench所应对的挑战主要涵盖两大层面。在领域问题层面，传统IAA方法面临的核心挑战在于：现有模型往往仅能完成美学评分、属性识别或描述中的单一子任务，缺乏对人脑审美过程（感知、分类、整合与评价）的完整对齐，导致模型在跨数据集泛化与多任务统一上表现不佳。在构建过程中，研究者需克服多重障碍：首先，现有美学数据集格式各异，涵盖数值评分、分类标签与自然语言评论，难以在统一架构下训练；其次，高质量美学指令微调数据的标注成本极高，需依赖所提出的IDCP范式将五个开源数据集（如AVA、AADB、PARA等）转换为统一格式，并经过严格的数据筛选、平衡与问答生成，以确保数据的完整性、准确性与多样性。此外，美学的主观性与复杂性使得构建涵盖六类美学属性（如构图、色彩、情感等）的感知测试集，以及专家级描述与零样本评分基准，均面临显著的标注难度与评估标准统一化的挑战。

常用场景

经典使用场景

在图像美学评估领域，传统方法往往局限于单一数据集或单一任务，难以全面模拟人类审美过程中感知、描述与评价的递进式认知链条。UNIAA-Bench作为首个面向多模态大语言模型（MLLM）的综合性美学基准，系统性地从感知、描述与评估三个层次构建评估体系。其经典使用场景在于，通过涵盖内容与主题、构图、色彩、光线、焦点及情感六大美学维度的5354道感知选择题，以及501段专家标注的长文本描述和四个主流数据集的零样本评分任务，为研究者提供统一、可复现的标准化测试平台，从而衡量MLLM在图像美学任务上的综合能力。

实际应用

UNIAA-Bench的实际应用场景广泛覆盖了需要自动化美学判断的多个工业领域。在智能摄影与图像编辑中，该基准可辅助评估算法对构图、色彩、光线等属性的感知准确性，从而优化自动修图、滤镜推荐等功能。在图像检索与相册管理系统中，基于UNIAA-Bench训练的模型能够根据美学质量对海量图片进行排序与筛选，提升用户体验。此外，在社交媒体内容审核与推荐场景中，该基准有助于筛选出具有高美学吸引力的视觉内容，增强平台的内容生态质量。其零样本评分能力更使其能够直接应用于未见过的图像，降低了领域迁移的成本。

衍生相关工作

UNIAA-Bench的提出催生了一系列极具影响力的后续工作。其核心框架启发了多个面向特定美学子任务的研究，例如基于IDCP（IAA数据集转换范式）的数据增强方法被广泛应用于提升MLLM在美学属性识别上的表现。此外，该基准中关于美学感知与描述的评估指标（如GPT辅助的完整性、精确度、相关性评分）被后续的图像质量评估基准（如Q-Bench）所借鉴和扩展。更值得关注的是，UNIAA-LLaVA作为基线模型，其视觉编码器被提取出来进行监督式评分训练，在AVA和TAD66K数据集上达到了当时最优性能，证明了该框架在迁移学习中的强大潜力，并推动了MLLM在低层视觉与高层语义融合方向的研究浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集