five

chcaa/wikidata_benchmarking

收藏
Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/chcaa/wikidata_benchmarking
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个关于艺术作品的数据集,包含6195个训练样本,总大小约5.64GB。数据集特征包括作品ID(qid)、标题(title)、原始图像URL(image_url_raw)、图像文件名(image_filename)、创作时间(inception)、收藏信息(collection)、收藏ID(collection_qid)、地点(location)、地点ID(location_qid)、材料(material)、流派(genre)、高度和宽度(height_cm、width_cm)、描绘内容(depicts)、库存编号(inventory_number)、维基数据URL(wikidata_url)、艺术家(artist)和图像(image)。艺术家字段涵盖多位著名艺术家,如阿尔弗雷德·西斯莱、克劳德·莫奈、皮埃尔-奥古斯特·雷诺阿等,表明数据集可能专注于印象派或相关艺术领域的作品。数据集仅提供训练分割,适用于艺术分类、图像分析或艺术史研究等任务。

This dataset is an artwork-related dataset containing 6,195 training samples with a total size of approximately 5.64 GB. The features include work ID (qid), title, raw image URL (image_url_raw), image filename (image_filename), inception date (inception), collection information (collection), collection ID (collection_qid), location (location), location ID (location_qid), material, genre, height and width (height_cm, width_cm), depicts content, inventory number, Wikidata URL (wikidata_url), artist, and image (image). The artist field covers multiple renowned artists such as Alfred Sisley, Claude Monet, Pierre-Auguste Renoir, etc., suggesting that the dataset may focus on Impressionist or related art movements. Only a training split is provided, making it suitable for tasks like art classification, image analysis, or art history research.
提供机构:
chcaa
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于维基数据(Wikidata)平台构建,精选了18位印象派及后印象派画家的6,195幅艺术作品。每一项数据条目均通过维基数据实体标识符(qid)进行关联,并系统采集了作品的标题、原始图像链接、文件名称、创作年份、所属收藏机构及其标识符、地理位置与材质、流派等元信息。同时,精确记录了画作的高度与宽度(厘米),并提取了画中描绘对象与藏品编号,形成了一个结构化、多维度的艺术作品知识库。图像数据以原始文件形式纳入,确保了视觉信息的完整性。
使用方法
数据集以Hugging Face Datasets库的标准格式发布,默认配置下直接加载训练集即可使用。图像字段已处理为PIL图像对象,便于直接与深度学习框架(如PyTorch或TensorFlow)的视觉模型对接。研究者可将艺术家标签'artist'作为分类目标进行模型微调,亦可利用'title'、'depicts'及'location'等文本字段构建多模态检索或图像描述生成任务。此数据集尤其适合用于验证模型对艺术作品风格、内容及上下文关联的理解能力。
背景与挑战
背景概述
在数字人文与计算机视觉交叉领域,艺术品图像的多模态理解长期受限于高质量、结构化数据集的匮乏。Wikidata Benchmarking数据集由开放知识图谱Wikidata驱动构建,整合了来自17位印象派及后印象派艺术家的6195幅画作,涵盖克劳德·莫奈、爱德华·马奈、皮埃尔-奥古斯特·雷诺阿等巨匠作品。该数据集于近期发布,依托Wikidata的实体链接(QID)与属性体系,为每幅作品标注了标题、创作年份(inception)、馆藏地、材质、流派、尺寸及描绘对象等17项结构化属性,并关联艺术家分类标签。其核心研究问题聚焦于如何利用知识图谱增强视觉模型的归因、风格转换与细粒度识别能力,推动博物馆数字化与艺术史定量分析研究。作为连接机器视觉与语义知识库的桥梁,该数据集为多模态对齐、零样本分类及艺术领域自监督学习提供了规范的基准测试平台。
当前挑战
该数据集面临的首要挑战是领域问题的复杂性:艺术品图像分类不仅需区分艺术家风格,还需应对同一画家不同时期笔触演变、相似题材跨艺术家模仿(如莫奈与马奈的风景画)等模糊边界,对模型感知细粒度语义差异的能力提出极高要求。此外,图像采集受限于博物馆摄影环境、画作损坏或修复后的视觉偏差,以及部分作品的年代褪色问题,导致训练数据存在光照、角度或色彩失真。在构建过程中,主要挑战源于Wikidata众包体系的非标准化注释:部分字段(如inception、material)可能缺失或含歧义,需依赖专家校验;高分辨率图像版权合规性要求进一步增加了数据处理与发布成本,确保仅包含进入公共领域的藏品影像。这些因素共同制约了模型的泛化能力与评估的绝对公平性。
常用场景
经典使用场景
在艺术史与计算机视觉交叉研究领域,wikidata_benchmarking数据集为画家身份识别与画作属性分析提供了重要基准。该数据集汇集了19位印象派及后印象派大师的超过6000幅画作,涵盖克劳德·莫奈、皮埃尔-奥古斯特·雷诺阿等巨匠。每一幅画作不仅附带高分辨率图像,更标注了创作年代、尺寸、材质、流派及典藏机构等结构化元数据,构建起从视觉内容到文化背景的桥梁。研究者通常利用这一资源训练多模态分类模型,以自动识别画家的独特笔触风格,同时结合地点、材质等细粒度属性,探索艺术创作中的时空规律与材料偏好。
解决学术问题
这一数据集精准回应了视觉艺术研究中长期存在的跨模态匹配难题——如何将画作的语义标签与图像特征有效对齐。通过提供统一标准的艺术家分类标签与丰富的上下文元数据,它解决了以往美术数据集依赖单一文本描述、缺乏结构化知识支撑的困境。学术界借助wikidata_benchmarking得以开展画作归属鉴定、风格迁移的定量评估,以及艺术市场中的真伪鉴别算法研究。其深远意义在于,不仅推动了计算美学的发展,更为数字人文领域提供了一个可复现、可拓展的基准实验平台,使艺术史研究从主观经验走向客观量化。
实际应用
在实际落地层面,wikidata_benchmarking已催生出多款智能鉴赏与策展工具。博物馆与美术馆利用基于该数据集训练的识别模型,大批量数字化藏品归类与展览文案自动生成成为可能。艺术品交易平台上,卖方可通过上传图像快速检索到与之相似的珍品及历史成交记录,提升估值效率。此外,教育领域涌现出交互式艺术学习应用,用户拍摄任意画作即可获知作者背景、创作流派及作品材质,实现‘随手一拍,穿越百年’的沉浸式体验,极大降低了艺术欣赏的专业门槛。
数据集最近研究
最新研究方向
该数据集聚焦于艺术画作的多模态关联与知识图谱构建,通过整合维基数据(Wikidata)中艺术品的结构化属性(如艺术家、流派、材质)与视觉图像,为计算机视觉与知识图谱的交叉研究提供了高价值基准。当前前沿方向包括基于视觉-语义对齐的零样本艺术作品分类、知识增强的图像描述生成,以及利用艺术家-流派-材质关系进行文化传承中的数字修复与风格迁移。尤其伴随AIGC浪潮,该数据集成为验证大规模模型在艺术领域少样本学习能力的关键资源,推动了文化计算与智慧博物馆的数字化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作