WikiFragments

Name: WikiFragments
Creator: 巴里阿尔多·莫罗大学计算机科学系
Published: 2025-07-29 23:31:58
License: 暂无描述

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/cilabuniba/artseek

下载链接

链接失效反馈

官方服务：

资源简介：

WikiFragments是一个基于维基百科的图像文本片段数据集，包含超过5千万个片段，涵盖了整个英文维基百科。该数据集旨在支持知识驱动的多模态推理，通过晚交互检索技术动态获取关于艺术家、象征意义和历史背景的相关信息。每个片段都包含一段文本和与之相关的图像，以及关于来源维基百科页面的元数据。数据集的创建过程包括从维基百科中提取文本和图像，并使用ColQwen2编码成图像格式，以便进行高效的多模态检索。该数据集主要用于艺术作品的分析和理解，旨在帮助人工智能系统实现更深入的艺术解读，包括对艺术家、风格、流派、媒介和标签的预测，以及复杂视觉问答和艺术作品解释。

WikiFragments is a Wikipedia-based image-text fragment dataset containing over 50 million fragments covering the entire English Wikipedia. It aims to support knowledge-driven multimodal reasoning by dynamically retrieving relevant information regarding artists, symbolic connotations and historical backgrounds via late interaction retrieval techniques. Each fragment comprises a text snippet, its associated image, and metadata of the source Wikipedia page. The dataset construction process involves extracting text and images from Wikipedia, and encoding the data into appropriate formats using ColQwen2 to facilitate efficient multimodal retrieval. This dataset is primarily applied to the analysis and comprehension of artworks, with the goal of helping AI systems achieve more in-depth art interpretation, including predictions of artists, artistic styles, genres, media and tags, as well as complex visual question answering and artwork explanations.

提供机构：

巴里阿尔多·莫罗大学计算机科学系

创建时间：

2025-07-29

原始信息汇总

ArtSeek数据集概述

数据集简介

ArtSeek是一个用于理解艺术作品的多模态系统，结合了以下三个主要组件：

基于延迟交互的多模态检索
通过延迟交互分类网络(LICN)进行多任务属性预测
通过多模态大型语言模型进行上下文推理

核心组件

1. 多模态检索

检索机制：从包含500多万个多模态信息片段的维基百科视觉艺术部分进行检索
基础模型：基于ColQwen2模型开发的延迟交互检索机制

2. 属性预测

网络架构：延迟交互分类网络(LICN)
预测能力：可预测艺术家、流派、风格等艺术品属性
技术特点：结合多模态检索与分类头，预测每个分类任务的多个嵌入

3. 上下文推理

模型基础：使用Qwen2.5-VL-32B多模态大型语言模型
功能特点：对检索信息和预测属性进行推理，回答艺术品相关问题并提供解释

数据收集与预处理

WikiArt图像下载
- 来源：ArtGraph知识图谱中的艺术品
- 数量：116,475张图像
- 用途：训练LICN模块
ArtGraph数据集创建
- 基础：ArtGraph知识图谱的Neo4j数据库
- 保存位置：data/artgraph目录
维基百科数据处理
- 范围：维基百科"视觉艺术"类别及其链接页面(默认深度5)
- 处理工具：修改版WikiExtractor
- 输出：包含文本和图像的JSON格式文件
片段数据集构建
- 内容：维基百科段落及关联图像
- 存储：Qdrant向量数据库(约需1.5TB磁盘空间)

模型资源

检索模型：vidore/colqwen2-v1.0
推理模型：Qwen/Qwen2.5-VL-32B-Instruct-AWQ
LICN模块：权重即将发布

系统要求

硬件配置：
- 8 CPU核心
- 128GB内存
- NVIDIA A100 GPU(64GB显存)
存储需求：Qdrant数据库约需1.5TB空间

搜集汇总

数据集介绍

构建方式

WikiFragments数据集的构建基于Wikipedia的大规模文本与图像片段，通过改进的WikiExtractor工具从Wikipedia页面中提取段落及相关的图像。每个多模态片段定义为包含一个段落及其上方所有图像的原子信息单元。片段中的图像和文本被统一编码为图像格式，以支持多模态检索。数据集最终包含超过500万视觉艺术相关的片段，其中约41.7万片段包含文本和图像，其余为纯文本片段。

特点

WikiFragments数据集的特点在于其多模态结构和规模。它不仅包含文本段落，还整合了相关的图像及其标题，形成统一的信息单元。这种结构使得数据集特别适合支持基于视觉和文本信息的联合检索任务。此外，数据集覆盖了广泛的视觉艺术主题，从艺术家传记到历史背景，为艺术分析提供了丰富的上下文知识。

使用方法

WikiFragments数据集主要用于支持多模态检索任务，特别是在艺术分析领域。用户可以通过输入图像和文本查询，利用数据集中的多模态片段进行信息检索。数据集的设计允许高效的检索和重新排序，确保返回的结果既相关又多样化。此外，数据集还可用于训练和评估多模态模型，提升其在艺术理解和解释任务中的表现。

背景与挑战

背景概述

WikiFragments数据集由意大利巴里大学计算机科学系的Nicola Fanelli、Gennaro Vessio和Giovanna Castellano等研究人员于2025年创建，旨在支持基于知识的多模态推理任务。该数据集作为ArtSeek框架的核心组成部分，专门针对艺术品分析领域，通过整合维基百科规模的多模态图像-文本片段，为艺术作品的理解提供了丰富的上下文知识。其创新性在于突破了传统方法对维基数据或维基百科链接的依赖，使得对缺乏标注的数字化艺术藏品进行分析成为可能，显著推动了计算艺术史学领域的发展。

当前挑战

WikiFragments数据集面临的核心挑战体现在两个方面：在领域问题层面，艺术作品的深度理解需要同时解决视觉元素识别与复杂文化语境推理的双重难题，现有模型往往难以平衡低层视觉特征与高层语义知识的关系；在构建过程层面，数据集需处理维基百科非结构化数据的异构性，包括图像-文本对齐质量不一、艺术专业术语的歧义性，以及跨语言文化背景知识的整合问题。此外，多模态片段的有效检索还面临计算效率与语义保真度的权衡挑战，这对大规模知识库的实时应用提出了严峻考验。

常用场景

经典使用场景

WikiFragments数据集在艺术分析领域具有广泛的应用，尤其在多模态推理和知识增强生成任务中表现突出。该数据集通过整合维基百科中的图像-文本片段，为艺术作品的视觉理解和上下文分析提供了丰富的知识基础。研究人员可以利用WikiFragments进行艺术作品的风格分类、艺术家识别以及历史背景推断等任务，从而推动计算机视觉与艺术史研究的交叉发展。

实际应用

在实际应用中，WikiFragments数据集被用于开发智能艺术分析工具，例如博物馆的数字化导览系统和在线艺术教育平台。这些工具能够根据用户上传的艺术作品图像，自动生成详细的解说文本，包括作品的创作背景、艺术风格和象征意义。此外，该数据集还支持艺术市场的自动化鉴定和分类，帮助收藏家和拍卖行快速获取作品的权威信息。

衍生相关工作

WikiFragments数据集衍生了一系列经典研究工作，特别是在多模态检索和知识增强生成领域。例如，ArtSeek框架利用该数据集实现了基于视觉输入的端到端艺术分析，结合了多模态检索、属性分类和推理生成三大模块。其他相关研究还包括基于WikiFragments的跨模态检索系统、艺术问答系统以及风格迁移模型，这些工作进一步扩展了数据集在艺术与人工智能交叉领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集