REAL-MM-RAG_TechSlides

Hugging Face2025-03-16 更新2025-03-17 收录

下载链接：

https://huggingface.co/datasets/ibm-research/REAL-MM-RAG_TechSlides

下载链接

链接失效反馈

官方服务：

资源简介：

REAL-MM-RAG-Bench是一个现实世界的多模态检索基准，旨在在可靠、具有挑战性和现实的环境下评估检索模型。该基准使用自动管道构建，其中查询由视觉语言模型(VLM)生成，经过大型语言模型(LLM)过滤和重写，以确保高质量的检索评估。为了模拟现实世界的检索挑战，引入了多级查询重写，从微小的措辞调整到重大的结构变化，确保模型在真正的语义理解上而不是简单的关键词匹配上进行测试。

REAL-MM-RAG-Bench is a real-world multimodal retrieval benchmark designed to evaluate retrieval models in a reliable, challenging, and realistic environment. This benchmark is constructed using an automatic pipeline, where queries are generated by Vision-Language Models (VLMs) and then filtered and rewritten by Large Language Models (LLMs) to ensure high-quality retrieval evaluation. To simulate real-world retrieval challenges, multi-level query rewriting is introduced, ranging from minor wording adjustments to significant structural changes, ensuring that models are tested on genuine semantic understanding rather than simple keyword matching.

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

REAL-MM-RAG_TechSlides数据集的构建采用了自动化流程，其中查询由视觉语言模型(VLM)生成，经过大型语言模型(LLM)筛选和重写，以确保高质量的检索评估。数据集模拟真实世界的检索挑战，引入了多层次查询重写，从细微的措辞调整到显著的结构性变化，以检验模型真正的语义理解能力而非简单的关键词匹配。

特点

该数据集的特点在于其多模态文档的多样性，包含了文本、视觉元素和表格，旨在测试模型在自然语言查询基础上的信息检索能力。此外，数据集注重于长文档的检索，反映了现实世界中的检索挑战，并且确保了文档在子领域上的一致性，专注于IBM的数据，增加了检索的难度。数据集中的查询经过多级别重写，以评估模型在超出简单词汇匹配的鲁棒性。

使用方法

使用该数据集时，需先安装datasets库。通过load_dataset函数加载数据集，可以根据需要选择测试集或其他分割。加载后，可以通过查询到图像文件名的映射以及图像文件名到相关查询的映射来索引数据，从而方便地进行数据检索和模型评估。

背景与挑战

背景概述

REAL-MM-RAG_TechSlides数据集是由IBM研究团队构建的多模态检索基准，旨在评估在可靠、具有挑战性和现实场景下检索模型的表现。该数据集通过自动化流程构建，其中查询由视觉语言模型（VLM）生成，经大规模语言模型（LLM）过滤和重写，确保高质量的检索评估。该数据集的创建时间为2025年，主要研究人员包括Navve Wasserman、Roi Pony等，核心研究问题是在多模态文档中基于自然语言查询进行有效信息检索。REAL-MM-RAG_TechSlides作为该基准的一个子集，包含了62个关于商业和IT自动化的技术演示文稿，其研究对多模态检索领域产生了重要影响。

当前挑战

该数据集在研究领域中面临的挑战主要包括：1) 多模态检索的准确性，特别是在处理长文档和高度相似的页面时，如何确保模型能够准确检索相关信息；2) 查询的重写水平多样性，数据集中的多级查询重写要求模型具备超越简单关键词匹配的真正语义理解能力；3) 表格理解的准确性，模型在处理包含大量表格的财务报告时，需要能够准确检索相关的表格数据。构建过程中遇到的挑战则包括如何自动化生成高质量的查询，以及如何确保大规模数据集的标注质量。

常用场景

经典使用场景

REAL-MM-RAG_TechSlides数据集的典型应用场景在于评估多模态检索模型在技术和商业自动化领域文档中的性能。该数据集包含的技术演示文稿混合了文本、视觉元素和表格，模拟了现实世界中对技术文档和商业洞察的检索需求，使得研究者在模型训练和评估过程中，能够针对实际的业务和技术场景进行优化。

衍生相关工作

REAL-MM-RAG_TechSlides数据集的发布促进了相关领域的研究，如多模态信息检索、文档理解、以及查询重写技术等。它衍生出的相关工作进一步推动了多模态检索技术的发展，提升了模型在处理真实世界复杂检索任务时的性能和可靠性。

数据集最近研究