CMRAG-Bench
收藏Hugging Face2026-03-06 更新2026-03-07 收录
下载链接:
https://huggingface.co/datasets/Yuwh07/CMRAG-Bench
下载链接
链接失效反馈官方服务:
资源简介:
CMRAG测试数据集是一个用于CMRAG论文研究的测试数据集。该数据集中的所有PDF文件均经过`Qwen2.5-VL-72B`渲染和解析处理,具体包括:将PDF页面渲染为图像(`*.png`格式),解析后的页面内容存储在`*_parser.html`文件中,子图像/区域的边界框信息存储在`*_subimg_boxes.json`文件中。数据集目录结构分为多个子集,包括MMLongBench、LongDocURL、finreport、finslides、techreport和techslides。每个子集下包含相应的检索/问答标注文件(`*_retrieval.json`),用于支持检索任务的研究与应用。
创建时间:
2026-03-06
原始信息汇总
CMRAG-Bench 数据集概述
数据集简介
CMRAG-Bench 是一个用于 CMRAG 论文的测试数据集。该数据集中的所有 PDF 文件均已通过 Qwen2.5-VL-72B 模型进行渲染和解析。
数据处理与内容
- PDF渲染:PDF页面被渲染为图像,格式为
*.png。 - 内容解析:解析后的页面内容存储在
*_parser.html文件中。 - 区域标注:子图像/区域的边界框信息存储在
*_subimg_boxes.json文件中。
目录结构
数据集根目录为 /ywh/data,主要包含以下子集:
MMLongBenchLongDocURLfinreportfinslidestechreporttechslides
在 images/ 目录下,每个子文件夹对应一个 PDF 文件的处理结果,文件夹以 PDF 文件名或文档 ID 命名。每个 PDF 处理文件夹内包含:
<page_id>.png<page_id>_parser.html<page_id>_subimg_boxes.json
子集与检索标注
每个子集均提供一个检索/问答标注文件,具体如下:
MMLongBench/mmlongbench_retrieval.jsonLongDocURL/filtered_LongDocURL_retrieval.jsonfinreport/finreport_retrieval.jsonfinslides/finslides_retrieval.jsontechreport/techreport_retrieval.jsontechslides/techslides_retrieval.json
这些 *_retrieval.json 文件包含了对应子集的检索或问答标注信息。
搜集汇总
数据集介绍
构建方式
在多媒体文档理解领域,CMRAG-Bench数据集的构建体现了对复杂文档结构解析的深度探索。该数据集通过Qwen2.5-VL-72B模型对原始PDF文档进行自动化处理,将每一页渲染为高分辨率图像,并同步生成包含文本与布局信息的HTML解析文件。同时,模型精准识别文档中的子图像或特定区域,将其边界框坐标存储于结构化JSON文件中,从而构建起一个涵盖视觉、文本与空间信息的统一表示体系。
特点
CMRAG-Bench数据集的核心特征在于其多模态与细粒度标注的有机结合。数据集不仅包含金融报告、技术文档、幻灯片等多种专业领域的文档子集,还为每个子集配备了详尽的检索与问答标注。这些标注以JSON格式系统组织,明确指出了文档中关键信息的空间位置与语义关联,为评估模型在长文档、多页面环境下的检索与理解能力提供了标准化基准。
使用方法
为有效利用CMRAG-Bench数据集,研究者可依据其清晰的目录结构定位所需子集。每个PDF文档的处理结果独立存放于以文档名命名的文件夹内,包含图像、解析文件与区域框标注。通过加载对应的`*_retrieval.json`标注文件,即可获取预设的检索查询与标准答案,进而对多模态检索模型或视觉语言模型进行系统性评估,推动长文档理解技术的前沿发展。
背景与挑战
背景概述
CMRAG-Bench数据集是近年来多模态检索增强生成领域的重要评估基准,由前沿研究团队构建,旨在系统评估模型在复杂长文档跨模态检索与问答任务中的性能。该数据集整合了金融报告、技术文档及其演示幻灯片等多种专业文档类型,通过将PDF页面渲染为图像并解析结构化内容,为研究视觉-语言模型在真实场景下的信息理解与推理能力提供了标准化测试平台。其创建推动了多模态大模型在文档智能分析方向的发展,为学术界和工业界评估模型处理长篇、多格式文档的检索与生成能力设立了新的标杆。
当前挑战
CMRAG-Bench数据集所针对的核心挑战在于解决多模态长文档场景下的精准检索与问答问题,这类任务要求模型同时理解文档的视觉布局、文本内容及跨页语义关联,克服传统单模态方法在格式复杂、信息分散的长文档中表现不足的局限。在构建过程中,数据集面临多源异构文档的标准化处理难题,包括PDF的高保真渲染、视觉元素与文本的结构化解析,以及跨文档子集的一致性标注,这些步骤需平衡自动化效率与标注质量,确保评估任务既贴近实际应用又具备可复现性。
常用场景
经典使用场景
在视觉语言模型与文档理解领域,CMRAG-Bench数据集为评估模型在长文档多模态检索增强生成任务中的性能提供了标准化测试平台。该数据集通过将PDF文档渲染为图像并解析其结构化内容,构建了涵盖金融报告、技术文档等多种专业领域的复杂查询-检索对。研究者利用该数据集能够系统性地检验模型在跨模态信息对齐、长上下文理解以及精准内容定位方面的能力,为推进文档智能处理技术奠定了实证基础。
实际应用
在实际应用层面,CMRAG-Bench数据集能够直接服务于金融分析、技术文档管理与学术文献检索等专业场景。基于其构建的检索增强生成系统可协助分析师从海量报告快速提取关键数据,或帮助工程师在复杂技术手册中定位解决方案。该数据集所验证的技术方案,为开发高效、准确的智能文档处理工具提供了可靠参照,具有显著的产业转化潜力。
衍生相关工作
围绕CMRAG-Bench数据集,学术界衍生出一系列聚焦长文档多模态理解的前沿研究。这些工作深入探索了基于视觉语言的检索排序算法、跨页面上下文建模架构以及端到端的问答生成系统。部分研究进一步扩展了数据集的标注维度,引入了时序推理或领域自适应任务,持续丰富了多模态文档处理的技术图谱,并为后续大规模基准的构建提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



