five

MMArt

收藏
Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/Shuaimyself/MMArt
下载链接
链接失效反馈
官方服务:
资源简介:
MMArt 是一个大规模的多视角多模态视觉艺术理解数据集,包含 74,234 幅 WikiArt 绘画作品。每幅作品由专业模型从四个独立的角度进行注释:叙事与场景、形式分析、情感反应和历史背景,以及一个统一的综合描述。数据集涵盖了 20 种艺术风格和 743 位艺术家的作品,每个绘画样本包含 5 个文本字段,平均每个视角的描述长度为 70-80 字。数据集适用于图像到文本生成、艺术描述生成和检索等任务。文本注释由作者原创,绘画图像未包含在数据集中,需通过 WikiArt.org 获取。数据集采用 CC BY 4.0 许可发布。
创建时间:
2026-04-07
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉艺术理解领域,MMArt数据集的构建体现了多模型协同标注的前沿理念。该数据集以WikiArt平台上的74,234幅绘画作品为基础,通过精心设计的自动化流程生成多视角文本描述。具体而言,每幅画作分别由四个专用模型从叙事、形式、情感及历史四个独立维度进行解读:叙事与场景描述由Qwen3-VL-8B-Instruct模型生成;形式分析依托基于LLaVA-7B微调的GalleryGPT模型完成;情感响应则结合Qwen3-VL-8B-Instruct与ARTEMIS-v2众包反应数据;历史语境解读采用检索增强生成技术,利用sentence-transformers模型从艺术史文献中检索相关知识片段。最终,通过Qwen3-8B模型将四个视角融合为统一描述,形成结构化的多模态艺术数据集。
特点
MMArt数据集的核心特点在于其多层次、结构化的艺术注解体系。数据集涵盖20种艺术风格与743位艺术家,每幅作品均配备五类文本字段,包括四个独立视角的专项描述与一个综合统一描述,平均每段描述长度达70至80词。尤为突出的是,情感视角的描述中99%均与ARTEMIS-v2众包情感数据相锚定,确保了情感解读的客观性与可验证性。数据字段设计兼具全面性与细粒度,不仅包含作品元数据,还提供艺术风格分类、主导情感标签及检索相似度等量化指标,为艺术理解研究提供了丰富而可靠的语义基础。
使用方法
研究者可通过HuggingFace的datasets库直接加载MMArt数据集,利用标准接口访问训练集中的画作注解。由于版权限制,数据集仅包含文本标注,原始图像需通过WikiArt平台获取,用户可依据image_id字段提供的相对路径定位对应作品。该数据集适用于多模态任务研究,如图像描述生成、跨模态检索、艺术风格分析及情感计算等方向。在具体应用中,可分别调用各视角描述字段进行专项分析,或利用统一描述字段开展综合性艺术理解实验,为探索计算美学与艺术认知提供了标准化数据支撑。
背景与挑战
背景概述
在数字人文与计算机视觉交叉领域,艺术图像的理解长期面临语义鸿沟的挑战。MMArt数据集由Shuai Wang等研究人员于2026年构建,旨在通过多视角标注框架深化视觉艺术的理解。该数据集基于WikiArt平台,收录了74,234幅绘画作品,每幅作品均从叙事、形式、情感与历史四个独立维度生成专业解读,并融合为统一描述。其核心研究问题在于突破传统图像描述的单一片面性,为多模态艺术分析提供结构化、细粒度的语义资源,推动艺术智能向解释性、上下文感知的方向演进。
当前挑战
MMArt数据集致力于解决艺术理解中多维度语义解析的复杂挑战,其核心在于如何将主观、抽象的艺术体验转化为可计算的多视角文本表征。构建过程中的挑战尤为显著:首先,需协调不同专业模型(如Qwen3-VL-8B-Instruct、GalleryGPT)生成风格一致且深度各异的描述;其次,历史上下文依赖检索增强生成技术,需确保艺术史知识的准确性与相关性;此外,情感标注需与ARTEMIS-v2众包数据对齐,以保障情感反应的客观基础。这些挑战共同指向了跨模态艺术数据在规模性、一致性与解释性上的平衡难题。
常用场景
经典使用场景
在视觉艺术理解领域,MMArt数据集为多模态学习提供了丰富的研究素材。其经典使用场景集中于艺术图像的跨模态检索与描述生成,通过整合叙事、形式、情感与历史四个独立视角的标注,支持模型从多维度解析绘画内容。研究者可基于该数据集训练图像到文本的生成模型,或构建检索系统,实现艺术作品的语义匹配与深度理解,推动艺术智能向更细腻、更全面的方向发展。
解决学术问题
MMArt数据集有效应对了艺术计算中单一视角描述的局限性问题。传统艺术数据集往往仅提供简短标题或类别标签,难以捕捉作品的多重内涵。该数据集通过引入多视角标注,解决了艺术图像语义丰富性建模的挑战,为研究多模态融合、视角对齐与知识增强提供了基准。其意义在于促进了艺术理解从表面识别向深层解释的转变,为跨学科艺术研究奠定了数据基础。
衍生相关工作
围绕MMArt数据集,已衍生出多项经典研究工作。例如,基于其多视角标注的融合方法研究,探索如何将叙事、形式、情感与历史信息有效整合为统一描述;在跨模态检索方向,研究者利用该数据集训练视觉-语言对齐模型,提升艺术图像的语义搜索性能;同时,其情感标注部分与ARTEMIS-v2的衔接,也推动了艺术情感计算模型的演进,为情感感知的图像描述生成提供了新思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作