VQArt-Bench

Name: VQArt-Bench
Creator: 苏黎世大学，马克斯·普朗克学会
Published: 2025-10-15 01:29:52
License: 暂无描述

arXiv2025-10-15 更新2025-10-16 收录

下载链接：

https://github.com/AlfaranoAndrea/VQArt-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VQArt-Bench是一个针对文化遗产领域的大型视觉问答数据集。该数据集由一个新颖的多代理流程构建，该流程使用专门代理协作生成微妙的、经过验证的、语言上多样化的问题。该数据集旨在深入评估模型对艺术作品中的象征意义、叙事和复杂视觉关系的理解能力。VQArt-Bench的特点是包含语义丰富的问题，这些问题经过精心设计，旨在测试模型对视觉艺术的真正理解能力，包括识别复杂动作、稀有主题和象征性内容，例如历史或文化主题。这些内容通常被标准VQA方法所忽略。

VQArt-Bench is a large-scale visual question answering (VQA) dataset tailored for the cultural heritage domain. This dataset is constructed using a novel multi-agent pipeline, where specialized agents collaborate to generate subtle, validated, and linguistically diverse questions. The dataset aims to conduct in-depth evaluations of models' abilities to understand symbolic meanings, narratives, and complex visual relationships present in artworks. VQArt-Bench is characterized by semantically rich questions that are meticulously designed to test models' true understanding of visual art, including the recognition of complex actions, rare themes, and symbolic content such as historical or cultural topics. Such content is typically overlooked by standard VQA methods.

提供机构：

苏黎世大学，马克斯·普朗克学会

创建时间：

2025-10-15

原始信息汇总

VQArt-Bench 数据集概述

数据集状态

数据集即将发布

数据集描述

该存储库为 VQArt-Bench 数据集的文件夹

搜集汇总

数据集介绍

构建方式

在文化遗产领域的视觉问答研究中，传统基准常受限于模板化生成方式。VQArt-Bench通过创新性多智能体流程构建，首先由主题选择代理分析艺术品的视觉描述并提取候选问题主题，随后问题生成代理基于文本线索设计开放式问题，再由精炼代理将其转化为含干扰项的多选题，最终由验证代理确保问题具备图像可答性与逻辑严谨性。该流程融合了语义理解与视觉推理，有效规避了传统方法中的符号盲区与语言单一性问题。

特点

该数据集在艺术视觉分析领域展现出显著特性，其问题设计覆盖七个认知维度，从实例识别到视觉推理形成完整评估体系。通过多智能体协作生成的题目兼具语言复杂性与语境敏感性，例如要求模型解析画作中的象征意义或空间关系，而非仅识别表层属性。数据分布呈现艺术领域特有的多样性，涵盖宗教题材、肖像画等主要流派，同时包含丰富的光影效果与构图元素，有效模拟真实艺术鉴赏场景的复杂性。

使用方法

作为文化遗产领域视觉理解的评估工具，该数据集通过标准化多选题形式进行模型测试。研究者可将待评估模型在14,463道题目上的表现与基准模型对比，特别关注实例计数与视觉推理等关键维度的差异。使用时应确保输入图像与问题对保持原始分辨率，通过准确率指标量化模型在艺术符号解读、叙事理解等核心能力上的表现，其结构化评估维度为改进跨模态模型在专业领域的应用提供明确方向。

背景与挑战

背景概述

在视觉问答技术快速发展的背景下，艺术与文化遗产领域的深度语义理解评估成为亟待突破的瓶颈。苏黎世大学与马克斯·普朗克学会于2025年联合发布的VQArt-Bench数据集，通过创新性多智能体生成框架，构建了涵盖14,463道多选题的大规模评测基准。该数据集聚焦艺术图像中的符号意义解析、叙事结构重建与复杂视觉关系推理，有效弥补了传统规则生成方法在文化语义深度上的缺失，为多模态大模型在文化遗产领域的认知能力评估确立了新范式。

当前挑战

该数据集需应对双重挑战：在领域问题层面，艺术图像的符号隐喻、历史语境与风格特征构成独特认知障碍，要求模型突破自然图像的浅层特征识别，实现跨文化符号系统的语义解码；在构建过程中，传统规则模板导致的语言多样性缺失与统计偏差问题尤为突出，为此研发团队通过四阶段智能体协作框架——主题选择、问题生成、选项优化与最终裁决，确保问题既保持语言学复杂性又严格锚定视觉证据，最终达成98%以上的人工验证准确率。

常用场景

经典使用场景

在文化遗产数字化研究领域，VQArt-Bench作为首个基于多智能体流程构建的视觉问答基准，主要应用于评估多模态大模型对艺术图像的深层语义解析能力。该数据集通过涵盖实例识别、空间关系、符号隐喻等七维度推理任务，为学界提供了系统检验模型艺术理解水平的标准化工具，尤其擅长揭示模型在复杂构图分析与文化符号解读方面的局限性。

衍生相关工作

该基准已催生多类创新研究，包括基于MoonViT架构的Kimi-VL模型在原生分辨率视觉编码方面的突破，以及针对艺术长尾分布的对抗训练策略。其多智能体生成框架更被扩展至建筑遗产、手稿分析等领域，衍生出如ArchVQA等垂直数据集，推动形成跨模态艺术理解的技术谱系。

数据集最近研究