wikimedia-commons-documents-subsampled

Hugging Face2025-06-11 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/jinaai/wikimedia-commons-documents-subsampled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语言的数据配置，包括阿拉伯语、孟加拉语、德语、英语、西班牙语、法语、印地语、匈牙利语、印度尼西亚语、意大利语、日语、韩语、马来语、荷兰语、葡萄牙语、俄语、泰语、乌尔都语和越南语。每种语言配置都包含查询、图像、图像文件名、许可证类型、许可证文本、文档语言和文本描述等特征。数据集分为测试集，每种语言的测试集都提供了下载大小和文件大小信息。

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，多模态数据集的构建对文档检索与识别至关重要。本数据集从Wikimedia Commons平台系统性地抽取历史文档图像及其元数据，涵盖查询语句、图像文件、许可信息及多语言文本描述等结构化特征。通过EasyOCR引擎对图像进行光学字符识别，生成对应的文本描述，并采用分层抽样策略从完整数据集中随机选取1000条样本，确保数据代表性与均衡性。

特点

该数据集显著特点在于其跨语言与多模态融合架构，覆盖阿拉伯语、中文、英语等20种语言配置，每种语言独立包含测试集分割。每个样本集成图像像素数据、文件名、许可类型及多语言文档标签，形成丰富的元数据矩阵。文本描述字段提供机器提取的OCR内容，为研究多语言文档理解与跨模态对齐提供坚实基础，同时严格标注版权信息以符合学术伦理规范。

使用方法

研究者可通过HuggingFace数据集库直接加载指定语言配置（如zh、en等），获取测试分割进行检索模型评估。典型应用场景包括跨模态文档检索任务，其中查询文本与图像特征需进行语义匹配。使用时应遵循数据许可协议，通过license_text字段溯源原始文档页面，并依据免责声明对潜在敏感内容进行审查与过滤。

背景与挑战

背景概述

随着数字人文与多模态信息检索研究的深入，跨语言文档检索成为学术热点。wikimedia-commons-documents-subsampled数据集由Jina AI团队基于维基媒体公共资源构建，旨在为多模态检索模型提供评估基准。该数据集涵盖阿拉伯语、中文、英语等20种语言的文档图像及其OCR文本描述，核心研究聚焦于通过图文关联性解决历史文档的跨模态检索问题，对推动数字档案智能化管理与跨语言文化遗产保护具有重要意义。

当前挑战

该数据集需解决历史文档图像与多语言文本描述的跨模态对齐问题，其挑战在于文档图像质量参差不齐导致的OCR识别误差，以及多语言语境下语义一致性维护。构建过程中面临维基媒体资源异构性整合难题，需协调不同版权协议内容的合规使用，同时需克服非拉丁语系文字OCR的技术瓶颈，确保跨语言检索任务中特征表示的公平性与可比性。

常用场景

经典使用场景

在跨模态信息检索领域，该数据集通过整合多语言文档图像与对应文本描述，为研究者提供了评估图文检索模型的标准化测试平台。其经典应用场景包括训练和验证视觉-语言匹配算法，特别是在处理历史文档的多语言OCR文本与图像对应关系方面展现出独特价值。

衍生相关工作

基于该数据集衍生的经典工作包括多模态神经检索架构的优化研究，特别是在低资源语言场景下的跨模态对齐算法。众多研究团队利用其构建了文档图像分类基准测试，并开发了针对历史文档保护的增强型OCR技术，这些成果显著推动了数字人文领域的学术进展。

数据集最近研究