FineArtBench

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/Ruixiang/FineArtBench

下载链接

链接失效反馈

官方服务：

资源简介：

FineArtBench是一个大规模、密集标注的数据集，专门用于生成艺术（GenArt）的评估和美学推理任务。数据集包含1,000个内容提示和1,000个风格提示，每个都有全面的语义标注。它旨在通过控制比较场景支持客观的美学判断和艺术生成模型的评估。数据集的特点包括提供内容和风格的两种模态（文本和图像）、多层次的细粒度语义标注、设计用于促进人类美学判断与AI模型之间统计无偏的相关性研究，以及支持跨多样艺术风格、内容类型和视觉属性的评估。

创建时间：

2025-12-10

原始信息汇总

FineArtBench数据集概述

数据集基本信息

名称: FineArtBench
许可证: MIT
主要语言: 英语
标签: 艺术、合成数据
规模类别: 10K < n < 100K
任务类别: 图像-文本到图像

数据集简介

FineArtBench是一个用于生成艺术评估和美学推理任务的大规模、密集标注数据集。该数据集包含1000个内容提示和1000个风格提示，每个提示都带有全面的语义标注。其创建目的是通过受控的比较场景，支持对艺术生成模型进行客观的美学判断和评估。

主要特点

内容和风格均以两种模态提供：文本和图像
在多个层次上提供细粒度的语义标注
旨在促进人类美学判断与AI模型之间无统计偏差的相关性研究
支持跨多样化艺术风格、内容类型和视觉属性的评估

支持的任务

美学推理: 评估多模态大语言模型执行与人类专家一致的多方面美学判断的能力
神经风格迁移评估: 在多样化的内容和风格组合上对风格迁移模型进行基准测试

数据构成

内容数据来源

50%生成内容: 使用Ideogram-v1文本到图像扩散模型创建，提示词由GPT-4生成
25% MS-COCO: 从MS-COCO数据集中随机采样原始分辨率图像，标题由Gemini-v1.5 pro生成
25% SA-1B: 从Segment Anything 10亿数据集中随机采样，下采样2倍，标题由Gemini-v1.5 pro生成

风格数据来源

WikiArt处理（76.4%）: 提取关键词，重点关注艺术运动、艺术家和流派规格，然后使用GPT-4进行扩展和组合以创建多样化的风格描述符
DiffusionDB处理（23.6%）: 使用多模态大语言模型预处理文本提示以提取风格描述，合并相似规格并通过子采样进行质量过滤

引用信息

@inproceedings{jiang2025multimodal, title={Multimodal llms can reason about aesthetics in zero-shot}, author={Jiang, Ruixiang and Chen, Chang Wen}, booktitle={Proceedings of the 33rd ACM International Conference on Multimedia}, pages={6634--6643}, year={2025} }

数据文件结构

配置名称: default
内容数据文件: base/content_1k.json
风格数据文件: base/style_1k.json

搜集汇总

数据集介绍

构建方式

在生成艺术评估领域，FineArtBench数据集的构建体现了多源融合与精细化标注的设计理念。内容部分融合了生成模型创作、经典视觉数据集及分割标注数据，其中半数内容通过Ideogram-v1扩散模型生成，并辅以GPT-4生成的多样化提示词；其余内容则分别从MS-COCO和SA-1B数据集中采样，并利用Gemini-v1.5 pro模型生成对应描述。风格部分主要源自WikiArt艺术数据库与DiffusionDB提示词集合，通过关键词提取与GPT-4扩展生成风格描述符，再经过质量筛选与语义合并，形成覆盖艺术运动、艺术家与流派的多层次风格体系。

使用方法

在实践应用中，FineArtBench支持生成艺术领域的多项评估任务。研究者可利用其内容与风格提示对进行可控对比实验，评估神经风格迁移模型在不同艺术风格与内容组合下的表现。数据集的多模态特性使其适用于多模态大语言模型的美学推理能力评测，通过零样本设置检验模型与人类专家审美判断的一致性。使用时可分别加载内容与风格配置文件，结合提供的语义标注开展相关性研究或模型基准测试。

背景与挑战

背景概述

在生成式艺术与计算美学研究领域，客观评估人工智能模型的审美能力一直是一项核心挑战。FineArtBench数据集由Ruixiang Jiang和Chang Wen Chen等研究人员于2025年构建，旨在为生成艺术评估与美学推理任务提供大规模、密集标注的基准资源。该数据集包含一千个内容提示与一千个风格提示，每个提示均配备多模态文本与图像数据以及细粒度语义注释，其设计初衷在于通过可控比较场景，系统化地研究人类审美判断与AI模型输出之间的关联，从而推动艺术生成模型向更具人文感知的方向演进。

当前挑战

FineArtBench致力于解决生成艺术领域中美学评估的客观量化难题，其核心挑战在于如何建立与人类专家判断高度一致的自动化评价体系，这要求模型不仅能识别艺术风格与内容，还需理解深层的审美原则。在数据集构建过程中，研究人员面临多重挑战：一是需平衡合成数据与真实艺术作品的代表性，确保数据分布的多样性与无偏性；二是对大规模艺术图像进行精准的风格与内容解耦标注，涉及复杂的语义层次划分；三是整合多源异构数据（如WikiArt、DiffusionDB、MS-COCO等）时，需保持风格描述的一致性与质量可控，避免噪声干扰后续的统计分析。

常用场景

经典使用场景

在生成艺术与计算美学领域，FineArtBench数据集为评估图像生成模型的美学质量提供了标准化基准。其经典使用场景集中于通过控制变量法，系统比较不同模型在内容提示与风格提示下的艺术生成效果。研究者利用数据集中的千对内容与风格提示，结合多层级语义标注，能够量化分析模型在风格迁移、构图一致性以及视觉吸引力等方面的性能，从而推动生成艺术技术的客观评测与迭代优化。

解决学术问题

该数据集有效解决了生成艺术研究中长期存在的美学评价主观性强、缺乏统一标准的问题。通过提供大规模、密集标注的多模态数据，它支持对多模态大语言模型进行零样本美学推理能力的严谨评估，促进了计算美学与人类专家判断之间的相关性研究。其设计有助于探索艺术风格与内容表达的统计规律，为理解人工智能在创造性任务中的表现提供了实证基础，推动了跨学科的美学计算理论发展。

实际应用

在实际应用中，FineArtBench为艺术生成工具的开发与优化提供了关键支持。设计平台与创意软件可依据其评测结果，集成更精准的风格控制与内容生成算法，提升数字艺术创作的用户体验。教育领域也能借助该数据集，开发艺术鉴赏与美学教育的辅助工具，帮助学生理解不同艺术流派的特点。此外，文化遗产的数字化再现与风格化修复项目亦可参考其丰富的风格语料，实现历史艺术作品的智能再创作与传播。

数据集最近研究