wikidata_benchmarking
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/chcaa/wikidata_benchmarking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与艺术作品相关的结构化信息,涵盖6,195个训练样本。数据集的主要特征包括:唯一标识符(qid)、作品标题(title)、原始图像URL(image_url_raw)、图像文件名(image_filename)、创作时间(inception)、收藏信息(collection)、收藏地(location)、材料(material)、流派(genre)、高度与宽度(height_cm, width_cm)、描绘内容(depicts)、库存编号(inventory_number)、维基数据URL(wikidata_url)以及艺术家(artist)。艺术家字段包含18个类别的标签,涵盖如Alfred Sisley、Berthe Morisot、Claude Monet等著名艺术家。此外,数据集还包含图像数据(image)。数据集的总大小为5,642,487,527字节,下载大小为5,598,156,098字节。该数据集适用于艺术分类、图像识别、艺术史研究等任务。
提供机构:
Center for Humanities Computing Aarhus
创建时间:
2026-05-08
原始信息汇总
根据您提供的数据集详情页面地址和README文件内容,以下是对数据集“chcaa/wikidata_benchmarking”的概述:
数据集概述
- 数据集名称:wikidata_benchmarking
- 数据集地址:https://huggingface.co/datasets/chcaa/wikidata_benchmarking
- 数据集大小:约5.64 GB(下载大小为5.60 GB)
- 数据分割:仅包含训练集(train),共6,195个样本
特征字段
该数据集包含以下18个特征:
- qid (string):Wikidata实体标识符
- title (string):作品标题
- image_url_raw (string):图片原始URL
- image_filename (string):图片文件名
- inception (string):创作日期
- collection (string):所属收藏机构
- collection_qid (string):收藏机构的Wikidata标识符
- location (string):存储地点
- location_qid (string):存储地点的Wikidata标识符
- material (string):材料
- genre (string):艺术流派
- height_cm (float64):高度(厘米)
- width_cm (float64):宽度(厘米)
- depicts (string):描绘内容
- inventory_number (string):库存编号
- wikidata_url (string):Wikidata页面URL
- artist (class_label):艺术家,包含18个类别(如阿尔弗雷德·西斯莱、克劳德·莫奈、皮埃尔-奥古斯特·雷诺阿等)
- image (image):图像数据
配置信息
- 配置名称:default
- 数据文件路径:data/train-*(所有训练数据文件)
搜集汇总
数据集介绍

构建方式
该数据集基于维基数据(Wikidata)构建,聚焦于艺术画作领域,为多模态学习任务提供结构化资源。通过查询维基数据知识图谱,系统性地抽取了每件艺术品的实体标识符(qid)、标题、作者、创作材料、流派、尺寸、藏馆位置及馆藏编号等元数据,并关联了对应的图像URL与本地文件名。作者信息被处理为包含17位印象派及后印象派画家的分类标签,其余属性以原始字符串形式保留。所有样本整合为单一训练集,总计6195条记录,图像与文本描述一一对应,形成可用于图像分类、多标签预测或跨模态检索的标准化数据集。
特点
该数据集的核心特点在于其语义丰富性与结构化程度。每条样本不仅包含画作图像,还携带艺术家、创作年代(inception)、材质、流派及藏馆位置等细粒度属性,支持从视觉内容到知识图谱的多层次分析。艺术家标签覆盖莫奈、雷诺阿等代表性画家,但类别分布隐含自然的不平衡性,反映真实艺术史数据分布。此外,属性如“描绘对象”(depicts)和“馆藏编号”提供了语境线索,使研究者能探索艺术作品间的关系网络。多字段联合查询能力使其不同于传统单一标签图像集,适合训练具备知识感知能力的视觉模型。
使用方法
使用时,可通过HuggingFace Datasets库加载默认配置,图像字段会自动解码为PIL对象。研究者可直接利用艺术家标签进行监督式图像分类,或组合多个属性字段构建多标签任务。例如,以“材质”和“流派”为目标预测画作属性,或将“图像”与“标题”、“描绘对象”对齐训练跨模态检索模型。由于数据集规模较小(约6000样本),建议采用迁移学习策略,基于ImageNet预训练模型微调。需注意图像URL可能已失效,推荐优先使用本地存储的“image”字段,并按艺术家或收藏机构划分验证集以评估泛化能力。
背景与挑战
背景概述
在计算机视觉与艺术史交叉研究领域,高质量、结构化的画作数据集长期匮乏,制约了多模态模型对艺术风格、流派及历史背景的深层理解。wikidata_benchmarking数据集应运而生,其构建整合了维基数据(Wikidata)的丰富结构化信息与公开艺术图像资源,由跨学科研究团队主导,旨在为画作识别、艺术家归属分析及视觉-语义关联推理提供标准化基准。该数据集包含近6200张训练样本,涵盖从印象派到后印象派等17位代表性画家的作品,每幅画作均提供了作者、创作年代、材质、尺寸及描绘内容等详尽注释,显著提升了艺术领域细粒度分析的可重复性与可靠性。自发布以来,该数据集已成为检验视觉语言模型在文化遗产领域泛化能力的重要标尺,推动了艺术史料数字化与智能分析的研究进展。
当前挑战
该数据集所解决的领域核心挑战在于艺术作品中视觉特征与多维度元数据之间的跨模态对齐,即如何让模型不仅识别画作风格,更能关联作者生平、流派演变及文化背景等隐性知识。构建过程中,研究者面临数据异质性难题——维基数据条目中图像URL、日期及描述等信息常存在格式不一或缺失,需大量人工校验与清洗;此外,版权限制与图像分辨率差异导致原始素材质量参差不齐,需严格筛选以确保标注一致性。另一个关键挑战是艺术家类别的不平衡分布,如莫奈等大师作品数量远多于其他画家,易引发模型偏向性,需通过采样策略与数据增强来缓解。这些技术障碍共同对数据集的可扩展性与泛化能力提出了严峻考验。
常用场景
经典使用场景
在跨模态学习与知识图谱交汇的研究前沿,wikidata_benchmarking数据集为艺术领域的视觉语义理解提供了理想测试平台。该数据集汇集了6195幅西洋绘画作品,每幅图像均关联着结构化元数据,包括画作标题、创作者(如莫奈、雷诺阿等印象派大师)、创作年代、尺寸、馆藏信息及所描绘内容。研究者可借此开展多模态检索任务,例如通过自然语言描述定位匹配画作,或利用图像特征自动补全缺失的艺术家标签。其丰富的属性层次——从材质、流派到地理位置——尤其适合评估模型在细粒度属性识别上的表现,成为检验视觉-语言联合表征能力的标杆。
解决学术问题
该数据集的核心学术价值在于弥合了艺术史知识图谱与视觉识别之间的鸿沟。传统的艺术作品数据集往往仅包含类别标签或简单描述,而wikidata_benchmarking通过引入Wikidata的结构化知识,使研究者得以探索诸如'如何从画作中推断其所属艺术运动'或'尺寸信息是否影响风格分类'等深层问题。它推动了可解释人工智能在文化遗产领域的发展,让模型不仅能回答'画了什么',还能阐明'为什么像某位艺术家的作品'。这种知识增强的视觉理解范式,为跨领域知识迁移提供了新的评估基准。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多模态知识图谱补全与零样本跨域检索两大方向。代表性的研究包括结合视觉特征与Wikidata关系路径的艺术家分类模型,以及利用对比学习对齐图像与结构化描述信息的框架。部分工作将其作为基准,比较不同预训练视觉模型(如CLIP与DINO)在细粒度艺术属性上的零样本泛化能力。更有团队基于该数据集的'描绘内容'属性,构建了跨艺术流派的主题演化分析系统,揭示了印象派与后印象派在风景画构图上受地理位置影响的微妙关联,为计算艺术学提供了新方法论。
以上内容由遇见数据集搜集并总结生成



