DocMMIR

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/Lord-Jim/DocMMIR

下载链接

链接失效反馈

官方服务：

资源简介：

DocMMIR（文档级多模态信息检索）数据集是一个用于文档级多模态信息检索任务的数据库。该数据集包含来自arXiv论文、维基百科和幻灯片的图像-文本对，特别设计用于多模态检索任务。

创建时间：

2025-09-02

原始信息汇总

DocMMIR数据集概述

数据集描述

DocMMIR（Document-level Multimodal Information Retrieval）是一个用于文档级多模态信息检索的数据集。该数据集包含来自arXiv论文、维基百科和演示文稿的图文对，专门为多模态检索任务设计。

数据集统计

统计项	维基百科	arXiv	幻灯片	总计
训练集数量	360,285	62,764	27,057	450,079
验证集数量	14,775	3,000	1,409	19,184
测试集数量	14,805	3,000	1,399	19,204
总文档数	389,838	68,764	29,865	488,467
平均图像数	1.33	7.72	30.43	4.01
平均文本数	380.44	765.96	2060.42	537.43
平均查询数	43.71	54.70	39.35	44.99

总样本数：264,000
数据格式：WebDataset（tar文件）
文件数量：264个tar文件
数据来源：arXiv论文、维基百科、演示文稿

数据格式

数据集采用WebDataset格式存储，每个样本包含：

{sample_id}.json：包含元数据的JSON文件
- id：唯一样本标识符
- title：文档标题
- class：样本类别
- query：查询文本
- texts：相关文本列表
- image_names：图像文件名列表
- num_images：图像数量
- domain：数据源领域（arxiv、wiki、slides）
{sample_id}_{img_idx:03d}.png：对应的图像文件

许可证

MIT许可证

任务类别

多模态
图文匹配
文本到图像
图像到文本

语言

英语

规模类别

100K<n<1M

搜集汇总

数据集介绍

构建方式

在文档级多模态信息检索研究领域，DocMMIR数据集通过系统化采集arXiv学术论文、维基百科条目及演示文稿三类权威来源构建而成。其构建过程采用自动化流水线，从原始文档中提取结构化图像-文本对，并依据文档层级关系进行语义对齐，最终以WebDataset格式封装为264个分片压缩文件，确保数据完整性与高效存取。

特点

该数据集涵盖学术、百科与演示场景的多元文档类型，包含48.8万份文档与逾26万样本量，呈现显著的模态不平衡特性——平均每文档含4.01张图像与537.43段文本。其独特价值在于提供文档层级的跨模态检索基准，每个样本均配备结构化元数据（标题、类别、查询语句）及严格对齐的图像-文本序列，支持细粒度的跨模态语义匹配研究。

使用方法

研究者可通过Git LFS或HuggingFace CLI多线程下载数据集，利用WebDataset标准接口实现流式加载。数据使用需注意样本内文件路径映射关系：元数据以JSON存储文档语义信息，图像文件按样本ID与索引编号规范化存储。下游任务可通过解析样本文件夹内的图像序列与对应文本来构建跨模态检索或生成任务训练 pipeline。

背景与挑战

背景概述

文档级多模态信息检索作为跨模态理解的前沿领域，近年来受到学术界广泛关注。DocMMIR数据集由研究团队于当代构建，专门针对学术论文、维基百科和演示文稿等多源文档，旨在推动文档层级的多模态检索研究。该数据集整合了图像-文本对，涵盖超过48万份文档，平均每份文档包含4.01张图像和537.43段文本，为模型训练提供了丰富的跨模态关联信息。其构建不仅深化了多模态表示学习的理论基础，更显著提升了学术文献与教育材料检索的智能化水平，对信息检索和人工智能交叉领域产生了深远影响。

当前挑战

DocMMIR数据集致力于解决文档级多模态检索的核心难题，包括跨模态语义对齐、异构数据融合及长文档理解等挑战。构建过程中面临多重技术障碍：需从arXiv论文、维基百科和演示文稿等异构来源提取高质量图像-文本对，并保证数据的平衡性与代表性；同时需处理文档结构复杂性，如数学公式与图表的多模态关联，以及长文本与多图像间的细粒度匹配。数据标准化与存储格式的统一亦构成显著挑战，需设计高效的数据组织方案以支持大规模分布式训练。

常用场景

经典使用场景

在跨模态信息检索领域，DocMMIR数据集通过整合arXiv学术论文、维基百科条目及演示文稿中的图文对，为文档级多模态检索任务提供了标准化测试平台。研究者利用其丰富的图文关联数据，可训练模型实现跨模态语义对齐，有效评估文本到图像及图像到文本的双向检索性能。

解决学术问题

该数据集解决了多模态学习中文档级语义理解的核心挑战，为学术研究提供了大规模真实场景下的跨模态基准测试环境。其重要意义在于推动了多模态表示学习、跨模态注意力机制以及异构信息融合等方向的发展，并通过结构化数据组织方式降低了复杂文档处理的实验门槛。

衍生相关工作

基于DocMMIR衍生的经典工作包括跨模态Transformer架构的优化研究，以及针对学术文档特性的多粒度检索模型。这些工作显著提升了复杂文档中视觉元素与文本信息的协同理解能力，并为后续WebDataset格式在多模态数据集中的应用提供了重要范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集