MMDocIR-Challenge

Hugging Face2025-01-26 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/MMDocIR/MMDocIR-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

MMDocIR数据集是为2025年Web会议中的多模态信息检索挑战（MIRC）设计的，属于多模态文档检索挑战赛道。该数据集包含313个文档的20,395页截图，每页包含OCR文本和视觉语言模型（VLM）生成的文本。数据集的主要文件包括`MMDocIR_gt_remove.jsonl`（包含问题及其相关信息）、`MMDocIR_doc_passages.parquet`（包含文档页面的截图和文本信息）、`page_images.rar`（包含所有文档页面的截图）和`MMDocIR_doc_passages.json`（包含所有相关页面的信息）。数据集用于评估多模态检索模型的性能。

创建时间：

2025-01-25

原始信息汇总

MMDocIR Challenge

许可

Apache-2.0

数据集描述

用于2025年Web Conference的多模态信息检索挑战（MIRC）下的多模态文档检索挑战轨道。

提交指南

根据相关性分数降序返回给定文档内的前10个段落id。如果文档包含少于10页，则返回所有页面。检索范围是每个文档内（平均65.1页），而不是全局段落语料库（总计20395页）。

数据集结构

MMDocIR_gt_remove.jsonl
- 包含所有问题和相关信息。
- 字段：question_id（字符串），question（字符串），doc_name（字符串），domain（字符串），num_of_pages（整数），passage_id（列表）。
MMDocIR_doc_passages.parquet
- 包含313个文档的20395个文档页面截图。
- 字段：doc_name（字符串），domain（字符串），passage_id（字符串），image_path（字符串），image_binary（JPEG图像二进制），ocr_text（字符串），vlm_text（字符串）。
page_images.rar
- 包含313个文档的20395个文档页面截图。
MMDocIR_doc_passages.json
- 包含313个文档的所有相关页面信息。
- 字段：page（整数），image_path（字符串），ocr_text（字符串），vlm_text（字符串）。

引用信息

@misc{dong2025mmdocirbenchmarkingmultimodalretrieval, title={MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents}, author={Kuicai Dong and Yujing Chang and Xin Deik Goh and Dexun Li and Ruiming Tang and Yong Liu}, year={2025}, eprint={2501.08828}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2501.08828}, }

搜集汇总

数据集介绍

构建方式

MMDocIR-Challenge数据集的构建旨在满足多模态信息检索领域的需求，特别是在Web Conference 2025的Multimodal Document Retrieval Challenge Track中。该数据集由313份文档组成，共计20,395页文档页面截图，每份文档包含文本和图像两种模态的信息。构建过程中，数据集设计者首先收集了文档页面的截图及其对应的文本信息，随后将问题与相关文档及段落通过唯一的标识符进行关联，形成了可用于多模态检索任务的数据集。

使用方法

使用MMDocIR-Challenge数据集时，研究者可以通过读取`MMDocIR_gt_remove.jsonl`文件获取问题及其相关文档信息，并通过`MMDocIR_doc_passages.parquet`文件获取文档页面的详细数据。数据集要求参与者根据给定的问题，返回文档中相关性最高的前10个段落的标识符。在处理时，研究者可以利用Python中的pandas库和json库来读取和处理这些数据文件，从而进行多模态检索的相关研究或竞赛任务。

背景与挑战

背景概述

MMDocIR Challenge数据集，旨在推动多模态信息检索领域的发展，由Kuicai Dong等研究人员于2025年创建，并在Web Conference 2025中进行发布。该数据集聚焦于多模态文档检索的挑战，其核心研究问题是提升长文档中相关信息片段的检索效率与准确性。MMDocIR数据集的构建，为多模态检索领域提供了重要的实验平台，对相关技术的进步与评估标准的建立产生了显著影响。

当前挑战

该数据集面临的挑战主要表现在两个方面：一是领域内问题解决的挑战，即在多模态文档中准确识别并返回与查询相关的信息片段；二是构建过程中的挑战，包括如何高效处理大规模的文档数据，以及如何在多模态信息融合、OCR文本识别和视觉语言模型文本生成等方面实现技术突破。

常用场景

经典使用场景

MMDocIR Challenge数据集，作为多模态信息检索领域的重要资源，其经典的使用场景主要集中于长文档的多模态检索任务。该数据集涵盖了丰富的文档页面截图及其文本信息，旨在通过问题与文档内容之间的相关性评分，实现文档内部的最佳段落检索。

解决学术问题

该数据集解决了传统信息检索中难以处理长文档的问题，特别是在多模态环境下，如何有效地结合文本和图像信息进行检索。MMDocIR Challenge通过提供带有问题相关信息的标注数据，助力研究者探索长文档中多模态信息融合的检索方法，对学术研究具有显著的推动作用。

实际应用

在实际应用中，MMDocIR Challenge数据集可被用于构建智能问答系统，特别是在处理学术文献、法律文件或技术手册等长文档时，系统能够快速定位到用户所需的关键段落，提高信息检索的准确性和效率。

数据集最近研究