ArtVision

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/paolodegasperis/ArtVision

下载链接

链接失效反馈

官方服务：

资源简介：

ArtVision-0725数据集是一个用于评估AI模型在视觉理解和艺术史领域推理能力的专业数据集。它包含了250个不同类别的任务，旨在测试模型在艺术识别、历史时期推理、视觉内容合成等多个维度的能力。数据集采用CSV格式，所有图像都遵循开放或公有领域授权，并提供了每个任务的预期答案或评价标准。

创建时间：

2025-07-28

原始信息汇总

ArtVision-0725数据集概述

基本信息

许可证: CC-BY-SA-4.0
语言: 意大利语 (it)
标签: 艺术、视觉、VLM、历史、艺术品、LLM
数据格式: CSV
数据文件: ArtVision-0725.csv (训练集)

数据集描述

ArtVision-0725数据集旨在测试和评估人工智能模型在视觉艺术和艺术史背景下的视觉理解、艺术识别、时间推理和多模态生成能力。

主要目标

评估艺术作品中的视觉内容理解能力
测量作者归属、艺术运动识别和历史背景能力
分析不同图像间的综合与关联能力
检查从视觉提示或文本指令生成图像的能力
测试基本识别能力(如主题、对称性、文本、动物、人数等)

数据集结构

任务数量: 250个
图像许可: 所有图像均为开放许可或公共领域
验证: 每个任务都有预期答案或明确的评估标准

任务类别

代码	类别	描述
`art_recognition`	艺术识别	评估对艺术作品作者、风格和历史背景的识别
`chronological_reasoning`	时间推理	评估将作品或场景置于正确历史时期的能力
`contextual_summary`	上下文摘要	需要创建文本来连接视觉或语义相关但历史遥远的作品
`vision_reading`	视觉文本阅读	测试转录和解释图像中文本的能力
`vision_basic`	基本视觉分析	包括对称性、主题计数、主要主题识别等任务
`vision_logic`	视觉逻辑推理	评估对图表中逻辑过程的理解和描述
`img_gen`	图像生成	要求创建与视觉模式或构图指令一致的图像
`vision_reasoning`	解释性推理	包括作者归属、艺术影响识别、视觉错误和隐藏细节等任务

CSV文件列结构

列名	描述
`id`	任务ID
`task_id`	唯一任务代码
`categoria`	任务功能类别
`tipo_input`	所需输入类型
`tipo_output`	预期输出类型
`prompt`	主要任务指令
`instructions`	补充说明
`folder_path`	图像文件夹路径
`immagine_[1-3]_path`	图像文件名
`opera_[1-3]`	图像中作品标题
`immagine_attesa`	自动验证的参考图像
`difficolta`	任务难度等级
`opzione_[1-3]`	多项选择题选项
`autore[1-3]`	作者分类选项
`risposta_attesa`	自动验证的参考答案
`note_curatoriali`	对专家评估者有用的注释

使用方式

用于具有视觉能力的LLM的多模态基准测试
生成和分类模型的比较评估
基于视觉的生成回答的定性分析

引用要求

ArtVision-0725 Dataset: Visual Reasoning Tasks for Art Historical Evaluation (2025), Paolo De Gasperis.

搜集汇总

数据集介绍

构建方式

ArtVision数据集通过精心设计的250个任务构建而成，涵盖艺术识别、年代推理、视觉阅读等八类评估维度。每个任务以1750至1980年间的历史艺术作品图像为基础，结合开放式与封闭式问题设计，确保评估的全面性与深度。数据采集严格遵循开放许可原则，所有图像均来自公有领域或开放授权资源，并辅以详尽的元数据标注，包括作品标题、作者信息及难度分级。

特点

该数据集突出表现为多模态评估框架，深度融合视觉与文本推理能力测试。其核心特色在于涵盖艺术史特有的认知挑战，如作者归属判定、风格流派辨识及跨时代语境合成。任务设计兼具基础视觉识别与高阶逻辑推理，例如从图表解析到基于视觉指令的图像生成，有效模拟艺术史研究中的复杂决策过程。所有任务均配备黄金标准答案，支持自动化评估与人工验证的双重机制。

使用方法

研究人员可通过加载CSV格式的数据文件，依据任务ID与类别索引调用对应图像及提示文本。评估时需将多模态模型输出与预设的期望答案或图像进行比对，支持生成型与分类型任务的双重验证。该数据集适用于跨模型基准测试，尤其擅长揭示模型在艺术史语境下的视觉-语言关联能力。使用中应注意结合附带的策展注释深化定性分析，对于生成类任务建议采用人工评估辅助自动化指标。

背景与挑战

背景概述

艺术视觉数据集ArtVision由Paolo De Gasperis于2025年创建，专注于评估多模态模型在艺术史领域的视觉解读能力。该数据集涵盖1750至198年间的艺术作品，通过八类任务系统检验模型的视觉理解、艺术识别、年代推理及多模态生成等核心能力。其设计深刻反映了数字人文与计算艺术史的交叉研究需求，为人工智能在文化遗产领域的应用建立了重要基准。

当前挑战

ArtVision需解决艺术史领域中风格 attribution、跨时代语境化等复杂认知任务的自动化挑战，涉及多模态融合与时空推理的难点。构建过程中面临艺术图像版权清理、黄金标注的专家验证、以及逻辑性视觉任务的结构化设计等难题，尤其需平衡学术严谨性与模型可评估性。

常用场景

经典使用场景

在艺术史与计算机视觉交叉领域，ArtVision数据集为多模态模型评估提供了标准化测试框架。其经典应用场景集中于对模型视觉解读能力的系统性验证，通过八类精心设计的任务——从艺术品识别、年代推理到文本转录与逻辑图表分析，全面检验模型在复杂艺术语境下的认知表现。该数据集特别适用于评估模型对1750至1980年间艺术作品的风格辨识、作者归属及历史语境理解能力，为多模态人工智能在文化遗产领域的应用奠定评估基础。

实际应用

该数据集的实际应用延伸至智能博物馆导览、数字化艺术教育及文化遗产保护等多个领域。在博物馆场景中，基于其训练的多模态模型可自动生成画作解说、识别艺术品真伪并还原历史上下文；教育领域则通过视觉问答任务辅助艺术史教学，实现个性化学习路径规划；此外，在数字人文研究中，该数据集支持的图像生成与逻辑推理能力可用于重建破损艺术品或可视化艺术演变脉络，为文化资产的数字化存续提供技术支撑。

衍生相关工作

ArtVision数据集已衍生出多项艺术智能领域的创新研究。基于其构建的基准测试催生了专注于艺术属性识别的专用模型，如融合艺术史知识的视觉-语言预训练框架；在生成方向，受其视觉逻辑任务启发的Diagram-to-Image生成模型，实现了从概念草图到艺术化渲染的突破。相关研究进一步拓展至跨时代艺术风格对比分析、艺术影响力网络构建等深度应用，形成了以多模态艺术认知为核心的技术生态链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集