MMArt

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/Shuaimyself/MMArt

下载链接

链接失效反馈

官方服务：

资源简介：

MMArt 是一个大规模的多视角多模态视觉艺术理解数据集，包含 74,234 幅 WikiArt 绘画作品。每幅作品由专业模型从四个独立的角度进行注释：叙事与场景、形式分析、情感反应和历史背景，以及一个统一的综合描述。数据集涵盖了 20 种艺术风格和 743 位艺术家的作品，每个绘画样本包含 5 个文本字段，平均每个视角的描述长度为 70-80 字。数据集适用于图像到文本生成、艺术描述生成和检索等任务。文本注释由作者原创，绘画图像未包含在数据集中，需通过 WikiArt.org 获取。数据集采用 CC BY 4.0 许可发布。

创建时间：

2026-04-07

搜集汇总

数据集介绍

构建方式

在视觉艺术理解领域，MMArt数据集的构建体现了多模型协同标注的前沿理念。该数据集以WikiArt平台上的74,234幅绘画作品为基础，通过精心设计的自动化流程生成多视角文本描述。具体而言，每幅画作分别由四个专用模型从叙事、形式、情感及历史四个独立维度进行解读：叙事与场景描述由Qwen3-VL-8B-Instruct模型生成；形式分析依托基于LLaVA-7B微调的GalleryGPT模型完成；情感响应则结合Qwen3-VL-8B-Instruct与ARTEMIS-v2众包反应数据；历史语境解读采用检索增强生成技术，利用sentence-transformers模型从艺术史文献中检索相关知识片段。最终，通过Qwen3-8B模型将四个视角融合为统一描述，形成结构化的多模态艺术数据集。

特点

MMArt数据集的核心特点在于其多层次、结构化的艺术注解体系。数据集涵盖20种艺术风格与743位艺术家，每幅作品均配备五类文本字段，包括四个独立视角的专项描述与一个综合统一描述，平均每段描述长度达70至80词。尤为突出的是，情感视角的描述中99%均与ARTEMIS-v2众包情感数据相锚定，确保了情感解读的客观性与可验证性。数据字段设计兼具全面性与细粒度，不仅包含作品元数据，还提供艺术风格分类、主导情感标签及检索相似度等量化指标，为艺术理解研究提供了丰富而可靠的语义基础。

使用方法

研究者可通过HuggingFace的datasets库直接加载MMArt数据集，利用标准接口访问训练集中的画作注解。由于版权限制，数据集仅包含文本标注，原始图像需通过WikiArt平台获取，用户可依据image_id字段提供的相对路径定位对应作品。该数据集适用于多模态任务研究，如图像描述生成、跨模态检索、艺术风格分析及情感计算等方向。在具体应用中，可分别调用各视角描述字段进行专项分析，或利用统一描述字段开展综合性艺术理解实验，为探索计算美学与艺术认知提供了标准化数据支撑。

背景与挑战

背景概述

在数字人文与计算机视觉交叉领域，艺术图像的理解长期面临语义鸿沟的挑战。MMArt数据集由Shuai Wang等研究人员于2026年构建，旨在通过多视角标注框架深化视觉艺术的理解。该数据集基于WikiArt平台，收录了74,234幅绘画作品，每幅作品均从叙事、形式、情感与历史四个独立维度生成专业解读，并融合为统一描述。其核心研究问题在于突破传统图像描述的单一片面性，为多模态艺术分析提供结构化、细粒度的语义资源，推动艺术智能向解释性、上下文感知的方向演进。

当前挑战

MMArt数据集致力于解决艺术理解中多维度语义解析的复杂挑战，其核心在于如何将主观、抽象的艺术体验转化为可计算的多视角文本表征。构建过程中的挑战尤为显著：首先，需协调不同专业模型（如Qwen3-VL-8B-Instruct、GalleryGPT）生成风格一致且深度各异的描述；其次，历史上下文依赖检索增强生成技术，需确保艺术史知识的准确性与相关性；此外，情感标注需与ARTEMIS-v2众包数据对齐，以保障情感反应的客观基础。这些挑战共同指向了跨模态艺术数据在规模性、一致性与解释性上的平衡难题。

常用场景

经典使用场景

在视觉艺术理解领域，MMArt数据集为多模态学习提供了丰富的研究素材。其经典使用场景集中于艺术图像的跨模态检索与描述生成，通过整合叙事、形式、情感与历史四个独立视角的标注，支持模型从多维度解析绘画内容。研究者可基于该数据集训练图像到文本的生成模型，或构建检索系统，实现艺术作品的语义匹配与深度理解，推动艺术智能向更细腻、更全面的方向发展。

解决学术问题

MMArt数据集有效应对了艺术计算中单一视角描述的局限性问题。传统艺术数据集往往仅提供简短标题或类别标签，难以捕捉作品的多重内涵。该数据集通过引入多视角标注，解决了艺术图像语义丰富性建模的挑战，为研究多模态融合、视角对齐与知识增强提供了基准。其意义在于促进了艺术理解从表面识别向深层解释的转变，为跨学科艺术研究奠定了数据基础。

衍生相关工作

围绕MMArt数据集，已衍生出多项经典研究工作。例如，基于其多视角标注的融合方法研究，探索如何将叙事、形式、情感与历史信息有效整合为统一描述；在跨模态检索方向，研究者利用该数据集训练视觉-语言对齐模型，提升艺术图像的语义搜索性能；同时，其情感标注部分与ARTEMIS-v2的衔接，也推动了艺术情感计算模型的演进，为情感感知的图像描述生成提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集