MM-StyleBench

Name: MM-StyleBench
Creator: 香港理工大学
Published: 2025-01-16 02:56:22
License: 暂无描述

arXiv2025-01-16 更新2025-01-17 收录

下载链接：

https://github.com/songrise/MLLM4Art

下载链接

链接失效反馈

官方服务：

资源简介：

MM-StyleBench是由香港理工大学构建的一个大规模、多模态的艺术风格化基准数据集，旨在评估多模态大语言模型（MLLMs）在艺术美学推理中的表现。该数据集包含1000个内容实例和1000个风格实例，涵盖了丰富的图像和文本提示，并带有详细的属性注释。数据来源多样，包括SA-1B、MS-COCO、WikiART和DiffusionDB等，确保了数据的高质量和多样性。数据集通过人类偏好建模和系统相关性分析，帮助解决艺术风格化评估中的主观性问题，并推动风格迁移和艺术图像生成等下游应用的发展。

MM-StyleBench is a large-scale, multimodal artistic stylization benchmark dataset developed by The Hong Kong Polytechnic University, which aims to evaluate the performance of Multimodal Large Language Models (MLLMs) in artistic aesthetic reasoning. This dataset includes 1000 content instances and 1000 style instances, covering diverse image and text prompts with detailed attribute annotations. Its diverse data sources, including SA-1B, MS-COCO, WikiART and DiffusionDB, guarantee the high quality and broad diversity of the dataset. Through human preference modeling and systematic correlation analysis, this dataset helps address the subjectivity issue in artistic stylization evaluation, and promotes the development of downstream applications such as style transfer and artistic image generation.

提供机构：

香港理工大学

创建时间：

2025-01-16

搜集汇总

数据集介绍

构建方式

MM-StyleBench数据集的构建过程充分考虑了多样性和质量。研究者从多个开源数据集中提取内容，包括SA-1B、MS-COCO、WikiART和DiffusionDB，并结合多模态大语言模型（MLLMs）生成多样化的图像和文本提示。内容图像部分通过Ideogram-v1文本到图像扩散模型生成，其余则从现有数据集中随机采样，并通过Gemini-v1.5 pro生成描述。风格部分则从WikiArt和DiffusionDB中提取，并通过MLLMs进行预处理和合并，确保风格描述的多样性和质量。最终，数据集包含1000个内容和1000个风格实例，每个实例都带有详细的属性注释，确保了数据集的广泛覆盖和高质量。

特点

MM-StyleBench数据集的特点在于其规模、多样性和精细的注释。数据集包含1000个内容和1000个风格实例，远超现有数据集的规模。每个实例都带有图像和文本的多模态注释，涵盖了颜色多样性、元素密度、构图等多个属性，为模型评估提供了全面的支持。此外，数据集的多样性通过从多个来源提取内容并利用MLLMs生成变体进一步增强，确保了数据集的广泛覆盖和减少潜在的偏差。这些特点使得MM-StyleBench成为评估艺术风格化任务的理想基准。

使用方法

MM-StyleBench数据集的使用方法主要围绕艺术风格化任务的评估展开。研究者可以通过数据集中的内容和风格实例生成风格化图像，并通过两选一强制选择（2AFC）任务收集人类偏好数据。这些偏好数据可以用于建模人类美学偏好，并与多模态大语言模型（MLLMs）的响应进行相关性分析。通过引入ArtCoT提示方法，研究者可以显著减少MLLMs在艺术评估中的幻觉问题，并提升其美学推理能力。数据集的使用不仅限于风格化评估，还可应用于图像生成、风格迁移等下游任务，为艺术与AI的结合提供了宝贵的反馈信号。

背景与挑战

背景概述

MM-StyleBench是由香港理工大学的Ruixiang Jiang和Changwen Chen于2025年提出的一个多模态风格化基准数据集，旨在评估多模态大语言模型（MLLMs）在艺术美学评价中的推理能力。该数据集包含大量多样化的内容和风格实例，并配有密集的注释，涵盖了从传统绘画到现代数字艺术的多种风格。MM-StyleBench的构建灵感来源于艺术评论中的“形式分析”方法，通过将视觉元素与领域知识（如历史、文化背景和美学原则）相结合，促进更客观的美学评估。该数据集的推出为艺术风格化、图像生成等下游任务提供了重要的基准支持。

当前挑战

MM-StyleBench面临的主要挑战包括：1）美学评价的主观性和复杂性，传统的基于视觉特征的评估方法（如风格损失、美学预测器等）难以全面捕捉人类的美学偏好；2）多模态大语言模型在艺术评价中存在的幻觉问题，模型倾向于使用主观语言进行描述，导致输出与人类偏好不一致；3）数据集的构建过程中，如何确保多样性和高质量注释的平衡，尤其是在风格和内容的多样性方面，避免数据偏差。这些挑战需要通过更精细的任务分解和具体的语言提示来缓解，以提升模型在美学推理中的表现。

常用场景

经典使用场景

MM-StyleBench数据集主要用于评估多模态大语言模型（MLLMs）在艺术风格化任务中的推理能力，特别是在零样本情况下的美学评估。该数据集通过提供大量带有密集注释的内容和风格实例，为研究人员提供了一个标准化的基准，用于测试和比较不同模型在艺术风格化任务中的表现。通过结合人类偏好建模和系统相关性分析，MM-StyleBench能够揭示MLLMs在艺术评估中的幻觉问题，并推动模型在美学推理能力上的提升。

实际应用

MM-StyleBench的实际应用场景广泛，涵盖了艺术风格化、图像生成和强化学习等领域。通过提供人类对齐的美学评估信号，该数据集能够帮助改进风格化算法的设计，生成更具美学价值的艺术作品。此外，MM-StyleBench还可以用于训练和评估多模态生成模型，推动艺术创作工具的智能化发展。在实际应用中，MM-StyleBench的评估结果可以为艺术创作者提供有价值的反馈，帮助他们优化作品的风格和表现力。

衍生相关工作

MM-StyleBench的推出催生了一系列相关研究工作，特别是在多模态大语言模型的美学推理领域。基于该数据集，研究人员提出了ArtCoT提示方法，显著提升了MLLMs在艺术评估中的表现。此外，MM-StyleBench还为风格化算法的评估提供了新的基准，推动了如DiffStyler、ArtFlow等风格化模型的改进。该数据集还启发了更多关于多模态推理和人类偏好对齐的研究，为艺术生成和评估领域带来了新的研究方向和应用前景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集