FinRAGBench-V

Name: FinRAGBench-V
Creator: 北京大学计算机科学技术系高可信软件技术实验室
Published: 2025-05-23 12:51:51
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.17471v1

下载链接

链接失效反馈

官方服务：

资源简介：

FinRAGBench-V是一个为金融领域定制的多模态RAG基准，有效整合了多模态数据并提供视觉引用以确保可追溯性。它包括一个包含60,780个中文页面和51,219个英文页面的双语检索语料库，以及一个高质量、人工标注的问答(QA)数据集，跨越异构数据类型和七个问题类别。此外，我们引入了RGenCite，一个RAG基线，它无缝地集成了视觉引用和生成。此外，我们提出了一种自动引用评估方法，系统地评估多模态大型语言模型(MLLMs)的视觉引用能力。在RGenCite上进行的广泛实验强调了FinRAGBench-V的挑战性，为金融领域多模态RAG系统的发展提供了宝贵的见解。

FinRAGBench-V is a multimodal RAG benchmark tailored for the financial domain, which effectively integrates multimodal data and provides visual citations to ensure traceability. It comprises a bilingual retrieval corpus containing 60,780 Chinese pages and 51,219 English pages, as well as a high-quality, manually annotated question answering (QA) dataset spanning heterogeneous data types and seven question categories. Furthermore, we introduce RGenCite, a RAG baseline that seamlessly integrates visual citations and generation. Additionally, we propose an automatic citation evaluation method to systematically assess the visual citation capabilities of multimodal large language models (MLLMs). Extensive experiments conducted on RGenCite highlight the challenging nature of FinRAGBench-V and provide valuable insights for the development of multimodal RAG systems in the financial domain.

提供机构：

北京大学计算机科学技术系高可信软件技术实验室

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

FinRAGBench-V数据集的构建过程体现了严谨的学术态度与创新的技术路线。研究团队从六个权威金融数据源（包括研究报告、财务报表、招股说明书等）系统采集了1,104份中文和1,105份英文文档，通过专业的分页处理转化为112,000余张标准化图像。在问答数据集构建阶段，采用GPT-4o辅助生成初始问题后，经过严格的人工验证流程，从11,328个候选问题中精选出1,394个高质量双语问答对，覆盖文本推理、图表计算等七大类金融任务。这种'大模型生成+专家校验'的双阶段构建模式，既保证了数据规模又确保了专业准确性。

特点

该数据集的核心特征体现在三个维度：多模态融合性、金融领域专属性与可视化溯源机制。其检索语料库完整保留了原始金融文档中的文本、表格和图表等异构数据，避免了传统文本化处理造成的信息损失。特别设计的视觉引用标注体系支持页面级和区块级双重溯源，使模型输出具备审计追踪能力。1,394个标注问答对涵盖利率计算、趋势预测等典型金融场景，其中跨页推理类问题占比12.8%，充分模拟了实际业务中复杂信息整合的需求。

使用方法

使用FinRAGBench-V需遵循标准化评估框架：在检索阶段，可采用ColQwen2等多模态检索器获取TOP-10相关页面；生成阶段推荐集成RGenCite基线系统，该系统要求模型同步生成答案与视觉引用坐标。评估体系包含三个层级：采用nDCG@k衡量检索质量，ROUGE分数评估答案准确性，创新的'图像裁剪法'自动计算引文精确率与召回率。对于专业金融任务，建议重点考察模型在表格数值计算（占比13.3%）和跨页推理任务上的表现，这些指标能有效反映金融RAG系统的实际应用能力。

背景与挑战

背景概述

FinRAGBench-V是由北京大学和中国科学院大学的研究团队于2025年提出的一个多模态金融领域检索增强生成（RAG）基准数据集。该数据集旨在解决金融领域传统RAG系统过度依赖文本数据而忽视视觉内容的关键问题，填补了金融文档中图表等视觉信息分析的空白。数据集包含中英文双语检索语料库（中文60,780页，英文51,219页）和高质量人工标注的问答数据集（1,394个QA对），覆盖研究报告、财务报表等七类金融文档类型。其创新性地引入视觉引用机制，通过RGenCite基线模型实现了页面级和区块级的细粒度视觉溯源，为金融多模态分析提供了可验证的研究框架。

当前挑战

FinRAGBench-V面临的核心挑战体现在领域问题和构建过程两个维度。在领域层面，需解决金融多模态理解中图表数值推理（如K线图解析）、跨页表格关联（如分页财务报表整合）等专业难题，现有模型在区块级视觉引用的平均准确率仅为48.2%。在构建过程中，挑战包括：1）多模态文档对齐问题，需协调文本、表格与图表间的语义关联；2）视觉引用标注复杂性，区块级坐标标注需保持0.82以上的IoU精度；3）金融术语双语一致性维护，中英文QA对需确保专业表述的等效性；4）时效性数据动态更新，需建立年度报告等文档的版本控制机制。

常用场景

经典使用场景

FinRAGBench-V作为金融领域多模态检索增强生成（RAG）的基准测试数据集，其经典使用场景主要集中在金融文档的多模态信息检索与生成任务上。该数据集通过整合文本、图表和表格等异构数据，支持实时市场分析、趋势预测和利率计算等金融应用。特别是在处理需要同时理解文本和视觉信息的复杂金融问题时，FinRAGBench-V能够有效避免传统文本RAG在信息转换过程中的关键信息丢失问题。

实际应用

在实际应用层面，FinRAGBench-V可直接服务于金融机构的智能投研系统，通过多模态检索增强生成技术提升研究报告自动生成的准确性和可解释性。其视觉引用功能特别适用于监管合规场景，确保金融分析结论的可追溯性。该数据集还可用于构建金融问答助手，帮助从业者快速从海量年报、研究报告中提取关键信息，显著提升信息处理效率。

衍生相关工作

基于FinRAGBench-V衍生的经典工作包括RGenCite基准系统，该系统创新性地将检索、生成与视觉引用集成到统一流程中。在评估方法方面，该数据集推动了box-bounding和image-cropping两种视觉引用评估策略的发展。相关研究还揭示了多模态检索器在金融数据上的显著优势，以及当前MLLMs在数值推理和细粒度引用方面的技术瓶颈，为后续研究指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集