five

MMDocIR-Challenge

收藏
Hugging Face2025-01-26 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/MMDocIR/MMDocIR-Challenge
下载链接
链接失效反馈
官方服务:
资源简介:
MMDocIR数据集是为2025年Web会议中的多模态信息检索挑战(MIRC)设计的,属于多模态文档检索挑战赛道。该数据集包含313个文档的20,395页截图,每页包含OCR文本和视觉语言模型(VLM)生成的文本。数据集的主要文件包括`MMDocIR_gt_remove.jsonl`(包含问题及其相关信息)、`MMDocIR_doc_passages.parquet`(包含文档页面的截图和文本信息)、`page_images.rar`(包含所有文档页面的截图)和`MMDocIR_doc_passages.json`(包含所有相关页面的信息)。数据集用于评估多模态检索模型的性能。
创建时间:
2025-01-25
原始信息汇总

MMDocIR Challenge

许可

  • Apache-2.0

数据集描述

  • 用于2025年Web Conference的多模态信息检索挑战(MIRC)下的多模态文档检索挑战轨道。

提交指南

  • 根据相关性分数降序返回给定文档内的前10个段落id。如果文档包含少于10页,则返回所有页面。检索范围是每个文档内(平均65.1页),而不是全局段落语料库(总计20395页)。

数据集结构

  1. MMDocIR_gt_remove.jsonl

    • 包含所有问题和相关信息。
    • 字段:question_id(字符串),question(字符串),doc_name(字符串),domain(字符串),num_of_pages(整数),passage_id(列表)。
  2. MMDocIR_doc_passages.parquet

    • 包含313个文档的20395个文档页面截图。
    • 字段:doc_name(字符串),domain(字符串),passage_id(字符串),image_path(字符串),image_binary(JPEG图像二进制),ocr_text(字符串),vlm_text(字符串)。
  3. page_images.rar

    • 包含313个文档的20395个文档页面截图。
  4. MMDocIR_doc_passages.json

    • 包含313个文档的所有相关页面信息。
    • 字段:page(整数),image_path(字符串),ocr_text(字符串),vlm_text(字符串)。

引用信息

@misc{dong2025mmdocirbenchmarkingmultimodalretrieval, title={MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents}, author={Kuicai Dong and Yujing Chang and Xin Deik Goh and Dexun Li and Ruiming Tang and Yong Liu}, year={2025}, eprint={2501.08828}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2501.08828}, }

搜集汇总
数据集介绍
main_image_url
构建方式
MMDocIR-Challenge数据集的构建旨在满足多模态信息检索领域的需求,特别是在Web Conference 2025的Multimodal Document Retrieval Challenge Track中。该数据集由313份文档组成,共计20,395页文档页面截图,每份文档包含文本和图像两种模态的信息。构建过程中,数据集设计者首先收集了文档页面的截图及其对应的文本信息,随后将问题与相关文档及段落通过唯一的标识符进行关联,形成了可用于多模态检索任务的数据集。
使用方法
使用MMDocIR-Challenge数据集时,研究者可以通过读取`MMDocIR_gt_remove.jsonl`文件获取问题及其相关文档信息,并通过`MMDocIR_doc_passages.parquet`文件获取文档页面的详细数据。数据集要求参与者根据给定的问题,返回文档中相关性最高的前10个段落的标识符。在处理时,研究者可以利用Python中的pandas库和json库来读取和处理这些数据文件,从而进行多模态检索的相关研究或竞赛任务。
背景与挑战
背景概述
MMDocIR Challenge数据集,旨在推动多模态信息检索领域的发展,由Kuicai Dong等研究人员于2025年创建,并在Web Conference 2025中进行发布。该数据集聚焦于多模态文档检索的挑战,其核心研究问题是提升长文档中相关信息片段的检索效率与准确性。MMDocIR数据集的构建,为多模态检索领域提供了重要的实验平台,对相关技术的进步与评估标准的建立产生了显著影响。
当前挑战
该数据集面临的挑战主要表现在两个方面:一是领域内问题解决的挑战,即在多模态文档中准确识别并返回与查询相关的信息片段;二是构建过程中的挑战,包括如何高效处理大规模的文档数据,以及如何在多模态信息融合、OCR文本识别和视觉语言模型文本生成等方面实现技术突破。
常用场景
经典使用场景
MMDocIR Challenge数据集,作为多模态信息检索领域的重要资源,其经典的使用场景主要集中于长文档的多模态检索任务。该数据集涵盖了丰富的文档页面截图及其文本信息,旨在通过问题与文档内容之间的相关性评分,实现文档内部的最佳段落检索。
解决学术问题
该数据集解决了传统信息检索中难以处理长文档的问题,特别是在多模态环境下,如何有效地结合文本和图像信息进行检索。MMDocIR Challenge通过提供带有问题相关信息的标注数据,助力研究者探索长文档中多模态信息融合的检索方法,对学术研究具有显著的推动作用。
实际应用
在实际应用中,MMDocIR Challenge数据集可被用于构建智能问答系统,特别是在处理学术文献、法律文件或技术手册等长文档时,系统能够快速定位到用户所需的关键段落,提高信息检索的准确性和效率。
数据集最近研究
最新研究方向
MMDocIR Challenge作为2025年Web Conference的多模态信息检索挑战赛的一部分,专注于多模态文档检索领域。该数据集的构建旨在推动长文档多模态检索技术的进步,其研究方向的焦点是如何在给定的文档内部,基于相关性得分,有效地返回最相关的段落。当前研究的热点在于如何融合文本与图像信息,以提升检索的准确性和效率。MMDocIR数据集的出现,为评估和比较不同多模态检索算法提供了一个统一的标准,对于推动相关领域的学术交流和工业应用具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作