REAL-MM-RAG
收藏arXiv2025-02-18 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.12342v1
下载链接
链接失效反馈官方服务:
资源简介:
REAL-MM-RAG数据集是由IBM Research Israel和Weizmann Institute of Science创建的多模态检索基准。该数据集包含8000页文档,涵盖四个子领域,旨在满足真实世界检索的四个关键特性:多模态文档、增强难度、真实RAG查询和准确标注。数据集包括文本、图表、表格和图像等,要求系统处理组合的文本和视觉数据。数据集通过自动化管道进行查询生成、过滤、重写和错误验证,以提供可靠的评估和多级别的查询重写鲁棒性评估。
The REAL-MM-RAG dataset is a multimodal retrieval benchmark developed by IBM Research Israel and the Weizmann Institute of Science. This dataset consists of 8,000 pages of documents across four subfields, and is designed to meet four key characteristics of real-world retrieval: multimodal documents, enhanced difficulty, realistic RAG queries, and accurate annotations. It includes text, charts, tables, images and other modalities, requiring the system to process combined textual and visual data. The dataset adopts automated pipelines for query generation, filtering, rewriting and error validation to deliver reliable evaluation and robust assessment of multi-level query rewriting.
提供机构:
IBM Research Israel, Weizmann Institute of Science
创建时间:
2025-02-18
搜集汇总
数据集介绍

构建方式
REAL-MM-RAG数据集通过自动化流程构建,以模拟真实世界的多模态文档检索挑战。首先,收集了来自IBM的8000页文档,涵盖金融报告、财务演示文稿、技术报告和技术演示文稿等四个子领域。接着,使用Pixtral-12B视觉语言模型(VLM)生成每个文档页面的查询-答案对,并通过Mixtral-8x22B-v0.1大型语言模型(LLM)进行过滤,确保查询适合RAG并自然。然后,引入了多层次的查询改写步骤,通过LLM对每个查询进行不同程度的改写,以评估模型对语义理解的能力。最后,使用VLM对每个查询与所有页面进行匹配,确保所有相关页面都被正确标记,以提高标签的准确性。
特点
REAL-MM-RAG数据集具有四个关键特点。首先,它包含了多模态文档,包括文本、图像、表格和图形等视觉元素,反映了现实世界材料的复杂性。其次,它具有增强的难度,因为查询需要超越简单的关键词匹配,涉及大量的上下文相似的页面,以确保具有挑战性的评估。第三,它具有真实的RAG查询,问题必须自然地提出,而不直接引用页面,反映了用户在不知道答案位置时寻求信息的情况。最后,它具有准确的标记,所有与查询相关的文档都必须正确且详尽地标记,以防止检索性能的低估和避免假阴性。
使用方法
使用REAL-MM-RAG数据集的方法包括:首先,将数据集导入到检索模型中,并进行相应的预处理,如文档分块和查询改写。其次,使用文本和视觉检索方法对文档和查询进行嵌入,并计算它们之间的相似度。然后,根据相似度对文档进行排序,并选择排名靠前的文档作为检索结果。最后,对检索结果进行评估,例如使用NDCG@5等指标来衡量检索模型的性能。
背景与挑战
背景概述
在多模态文档检索领域,REAL-MM-RAG数据集的引入标志着对现实世界检索挑战的深入理解和应对。该数据集由IBM Research Israel和Weizmann Institute of Science的研究人员于2025年创建,旨在解决现有基准未能充分捕捉到的真实世界挑战。REAL-MM-RAG数据集的核心研究问题集中在多模态文档的检索上,旨在提高检索模型在现实世界场景中的准确性和实用性。该数据集的创建填补了多模态检索模型评估领域的空白,为相关研究提供了新的视角和工具。
当前挑战
REAL-MM-RAG数据集面临的挑战主要包括:1) 所解决的领域问题,即多模态文档检索的挑战,要求模型能够处理包含文本、图像、表格等多种元素的复杂文档,并准确理解用户的查询意图;2) 构建过程中所遇到的挑战,如如何生成符合真实世界用户行为的查询,以及如何确保所有相关文档都被正确标记。为了应对这些挑战,研究人员提出了多级查询改写方案,并创建了专门的训练数据集,以增强模型对改写查询和表格密集型文档的检索能力。
常用场景
经典使用场景
REAL-MM-RAG数据集主要用于评估和改进多模态检索模型在真实场景下的性能。它通过提供包含文本、图像、表格等多种模态的长文档,以及自然、多样化的查询,使得模型能够在更具挑战性的环境中进行检索。此外,该数据集还引入了多级查询改写机制,以评估模型对语义理解的鲁棒性。
解决学术问题
REAL-MM-RAG数据集解决了多模态检索模型在实际应用中存在的不足,例如对表格密集型文档的处理能力和对查询改写的鲁棒性。该数据集的设计使得研究者能够更准确地评估模型在真实场景下的性能,并针对性地进行改进。
衍生相关工作
REAL-MM-RAG数据集的提出和评估方法为多模态检索领域的研究提供了新的思路和方法。基于该数据集的研究成果可以应用于开发更鲁棒的检索模型,提高模型在实际应用中的性能和可靠性。此外,该数据集的构建过程也为其他类型的数据集构建提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成



