FinRAGBench-V

github2025-08-25 更新2025-08-29 收录

下载链接：

https://github.com/zhaosuifeng/FinRAGBench-V

下载链接

链接失效反馈

官方服务：

资源简介：

FinRAGBench-V是一个用于金融领域视觉检索增强生成（RAG）的综合基准，解决了现有金融RAG研究主要关注文本而忽视金融文档中丰富视觉内容的问题。通过整合多模态数据并提供视觉引用，FinRAGBench-V确保可追溯性并支持多模态大语言模型（MLLM）的稳健评估。包含从各种真实金融来源收集的多模态金融语料库，包括研究报告、财务报表、招股说明书、学术论文、金融杂志和金融新闻。语料库包含来自1,104份中文文档的60,780页中文页面和来自1,105份英文文档的51,219页英文页面。还构建了一个高质量的人工标注问答数据集，涵盖异构数据类型（图表、表格和文本）和七个问题类别。

FinRAGBench-V is a comprehensive benchmark for visual retrieval-augmented generation (RAG) in the financial domain, addressing the critical gap that existing financial RAG research primarily focuses on text while overlooking the abundant visual content within financial documents. By integrating multimodal data and providing visual citations, FinRAGBench-V ensures traceability and supports robust evaluation of multimodal large language models (MLLMs). It encompasses a multimodal financial corpus gathered from diverse real-world financial sources, including research reports, financial statements, prospectuses, academic papers, financial magazines, and financial news. The corpus consists of 60,780 Chinese-language pages from 1,104 Chinese documents and 51,219 English-language pages from 1,105 English documents. A high-quality manually annotated question-answering (QA) dataset has also been constructed, covering heterogeneous data types (charts, tables, and text) and seven question categories.

创建时间：

2025-08-12

原始信息汇总

FinRAGBench-V 数据集概述

数据集简介

FinRAGBench-V 是一个面向金融领域的视觉检索增强生成（RAG）综合基准测试数据集，旨在解决现有金融RAG研究主要关注文本而忽略金融文档中丰富视觉内容的问题。该数据集整合了多模态数据并提供视觉引用功能，确保可追溯性并支持多模态大语言模型（MLLMs）的稳健评估。

核心组成

多模态检索语料库

数据来源：收集自多种真实金融来源的文档，包括研究报告、财务报表、招股说明书、学术论文、金融杂志和金融新闻。
语料规模：包含60,780个中文页面和51,219个英文页面，源自1,104份中文文档和1,105份英文文档。

高质量问答数据集

标注方式：人工标注的高质量问答数据集。
数据类型：涵盖异构数据类型（图表、表格和文本）。
问题类别：涵盖七种问题类别，包括时间敏感问题、数值计算、比较和排序以及多页查询。

基准方法

提供RGenCite多模态RAG基线方法，集成以下功能：

检索：从数据集中高效检索相关文本和视觉信息。
生成：基于检索内容生成高质量答案。
细粒度视觉引用：提供精确的视觉证据（页面级和块级）以支持答案。

自动评估方法

提出视觉引用的自动评估方法：

评估指标：在多引用级别测量精确率和召回率。
技术手段：使用边界框和图像裁剪技术评估引用视觉证据的对齐情况。

数据获取

数据集文件（包括语料库、查询和相关度判断）可从 https://huggingface.co/datasets/zhaosuifeng/FinRAGBench-V/tree/main 下载。

引用信息

bibtex @misc{zhao2025finragbenchvbenchmarkmultimodalrag, title={FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain}, author={Suifeng Zhao and Zhuoran Jin and Sujian Li and Jun Gao}, year={2025}, eprint={2505.17471}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.17471}, }

搜集汇总

数据集介绍

构建方式

在金融文档多模态分析领域，FinRAGBench-V通过整合多样化真实金融来源构建其语料库，涵盖研究报告、财务报表、招股说明书及学术论文等材料，总计包含60,780页中文与51,219页英文文档。高质量问答数据集经由人工精细标注，覆盖图表、表格与文本等异构数据类型，并设计七类问题范畴，包括时间敏感型查询与数值计算等复杂场景。

特点

FinRAGBench-V的突出特点在于其全面支持视觉检索增强生成与细粒度视觉引用机制，不仅提供多模态检索语料库，还实现了页面级与区块级的精确视觉证据标注。该基准提出自动化视觉引用评估方法，采用边界框与图像裁剪技术衡量引用对齐质量，为多模态大语言模型在金融领域的可追溯性与可靠性评估提供坚实基础。

使用方法

使用FinRAGBench-V需首先下载并预处理语料库与查询数据集，通过合并分卷压缩文件并转换为标准格式以支持后续操作。检索阶段借助配置化参数执行多模态编码与匹配，生成模块基于检索结果产生答案并附带视觉引用标注。评估流程包含生成质量与引用准确性双重检验，通过自动化脚本实现端到端的性能度量与结果分析。

背景与挑战

背景概述

随着金融领域多模态数据分析需求的日益增长，2025年由赵穗峰等人提出的FinRAGBench-V数据集应运而生，填补了现有金融检索增强生成研究中对视觉内容关注的空白。该数据集由清华大学等机构联合构建，聚焦于金融文档中图表、表格与文本的融合理解，通过整合研究报告、财务报表及学术论文等多源数据，构建了包含逾十万页中英文文档的多模态语料库。其核心研究问题在于提升多模态大语言模型在金融场景下的视觉检索与证据追溯能力，为金融智能分析提供了重要的基准支撑。

当前挑战

金融领域多模态检索增强生成面临双重挑战：在领域问题层面，需解决金融文档中时序数据解析、数值计算验证及跨页内容关联等复杂查询需求，同时要求模型提供细粒度的视觉证据追溯；在构建过程中，需克服多源异构数据标准化、高质量人工标注一致性，以及中英文金融术语与视觉元素的精准对齐等难题。此外，自动评估视觉引用的精度与召回率仍需依赖创新的边界框与图像裁剪技术来实现可靠验证。

常用场景

经典使用场景

在金融多模态信息处理研究中，FinRAGBench-V作为基准测试集被广泛应用于评估视觉检索增强生成系统的性能。研究者通过该数据集验证模型对金融图表、表格及文本混合内容的跨模态检索能力，特别针对时间敏感型查询、数值计算和跨页面对比等复杂场景进行系统性测试，为金融文档智能分析提供标准化评估框架。

衍生相关工作

该数据集催生了RGenCite等多模态RAG基线系统的创新，推动了细粒度视觉引证技术的发展。相关研究延伸至金融文档结构化解析、跨语言金融信息检索等领域，并与OpenMatch等检索系统形成技术互补，共同构建起金融多模态智能处理的完整技术生态。

数据集最近研究