wikifragments-visual-arts-embeds

Hugging Face2026-02-18 更新2026-02-19 收录

下载链接：

https://huggingface.co/datasets/cilabuniba/wikifragments-visual-arts-embeds

下载链接

链接失效反馈

官方服务：

资源简介：

WikiFragmentsVA 是一个专注于视觉艺术领域的多模态数据集，源自英文维基百科。该数据集包含文本段落与相关图像（信息框和缩略图）的配对，并渲染为统一的视觉片段。每个片段作为一个独立的知识单元，包含一个段落及其上方的所有图像，渲染为文档布局形式的图像。此外，数据集还提供了通过 ColQwen2 v1.0 生成的多向量嵌入表示，包括优化的池化表示以支持高效检索。数据集适用于多模态检索增强生成（RAG）、视觉文档检索等任务，特别适合艺术史、风格和艺术家相关的复杂问题回答。数据规模在 1M 到 10M 之间，语言为英文。文本数据遵循 CC BY-SA 4.0 许可，图像则遵循各自的原始许可。

WikiFragmentsVA is a multimodal dataset focused on the visual arts domain, sourced from the English Wikipedia. This dataset pairs text passages with their corresponding images (info boxes and thumbnails), which are rendered into standardized visual fragments. Each fragment serves as an independent knowledge unit, comprising a single text passage and all images positioned above it, rendered into an image formatted as a document layout. In addition, the dataset offers multi-vector embedding representations generated via ColQwen2 v1.0, including optimized pooled representations to enable efficient retrieval. The dataset is applicable to tasks such as multimodal retrieval-augmented generation (RAG) and visual document retrieval, and is particularly ideal for complex question answering related to art history, artistic styles, and individual artists. The dataset has a scale ranging from 1M to 10M entries, and is in English. The text data is licensed under CC BY-SA 4.0, while the images are subject to their respective original licenses.

创建时间：

2026-02-15

搜集汇总

数据集介绍

构建方式

在视觉艺术领域，数据集的构建过程体现了对多模态知识单元的精心组织。该数据集源自英文维基百科，通过从“视觉艺术”类别出发，递归遍历至五层深度，筛选出相关页面。每个多模态片段被定义为包含一个段落及其上方所有图像的原子知识单元，利用FragmentCreator工具将图像与文本融合渲染为统一视觉布局。随后，借助ColQwen2 v1.0模型生成多向量嵌入表示，并通过分层聚类策略压缩为池化表征，以支持高效检索。

特点

该数据集的核心特点在于其深度融合的视觉与文本表征。每个片段不仅包含经过清洗的段落文本，还整合了相关的图像、标题及元数据，并以网格形式呈现为单一视觉文档。嵌入表示采用多向量架构，既保留完整的细粒度信息，又通过聚类生成优化的池化向量，实现两阶段检索的平衡。领域聚焦于视觉艺术，为艺术史、风格及艺术家相关的复杂推理任务提供了丰富的多模态上下文。

使用方法

该数据集主要服务于多模态检索增强生成任务。用户可利用池化嵌入进行快速初筛，再通过完整多向量嵌入执行晚期交互重排序，以提升检索精度。在视觉文档检索场景中，模型可依据图文对齐程度评估其检索能力。此外，渲染后的片段图像可直接输入多模态大语言模型，为艺术领域的问答与推理任务提供视觉上下文支持。使用时需注意遵循CC BY-SA 4.0文本许可及图像各自的版权条款。

背景与挑战

背景概述

在数字人文与多模态人工智能交叉领域，视觉艺术的知识理解长期面临文本与图像信息割裂的挑战。为应对这一难题，意大利巴里大学博士生Nicola Fanelli及其团队于2025年推出了WikiFragments-visual-arts-embeds数据集。该数据集基于2024年英文维基百科快照构建，通过递归遍历“视觉艺术”类别及其五层子类，提取出融合段落文本与关联图像的原子化知识单元。作为ArtSeek研究框架的核心组成部分，该数据集通过预渲染的视觉片段与ColQwen2多向量嵌入技术，为艺术史、风格分析与艺术家研究提供了结构化的多模态基准，显著推动了检索增强生成技术在专业领域的应用深度。

当前挑战

该数据集致力于解决视觉艺术领域多模态检索与理解的复杂问题，其核心挑战在于如何有效对齐异构模态信息以支持细粒度知识推理。具体而言，构建过程需克服三大技术障碍：首先，从维基百科半结构化页面中精确提取图文关联的原子化片段，需设计自动化解析算法以保持视觉元素的语义连贯性；其次，为平衡检索效率与精度，需开发基于层次聚类的令牌池化策略，将高维多向量嵌入压缩为可管理的表征形式；最后，数据集继承源数据的固有局限，包括西方艺术中心的覆盖偏差、图像分辨率的技术约束，以及动态知识库的时效性缺口，这些因素共同构成了模型泛化与应用部署的潜在边界。

常用场景

经典使用场景

在视觉艺术领域的多模态信息检索与增强生成研究中，WikiFragmentsVA数据集常被用于构建基于检索增强生成（RAG）的智能问答系统。该数据集将维基百科中视觉艺术相关的文本段落与对应图像融合为统一的视觉片段，为模型提供了图文并茂的知识单元。研究者利用其预渲染的片段图像与多向量嵌入表示，能够高效实现从海量艺术知识中检索相关上下文，进而支撑多模态大语言模型进行深度的艺术风格、历史背景及艺术家生平等方面的推理与回答。

实际应用

在实际应用中，WikiFragmentsVA数据集能够赋能数字人文与艺术教育平台，构建智能化的艺术知识库与导览系统。例如，在博物馆的数字化展示或在线艺术课程中，系统可根据用户提问快速检索并呈现相关的艺术作品图像与详细解说，实现沉浸式的互动学习体验。同时，它也为艺术市场分析、版权图像溯源等专业场景提供了可靠的多模态数据支撑。

衍生相关工作

围绕该数据集衍生的经典工作首推其配套框架ArtSeek，该研究专注于通过多模态上下文推理与晚期交互检索实现深度艺术品理解。此外，数据集的设计理念也促进了多模态检索模型在领域特定知识上的适应性研究，例如基于ColQwen2架构的嵌入优化、视觉文档检索的评估基准构建等，为后续视觉艺术领域的多模态人工智能应用奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集