FinMMDocR

Name: FinMMDocR
Creator: 北京邮电大学; 同花顺信息网络股份有限公司
Published: 2025-12-31 23:00:03
License: 暂无描述

arXiv2025-12-31 更新2026-01-05 收录

下载链接：

https://bupt-reasoning-lab.github.io/FinMMDocR

下载链接

链接失效反馈

官方服务：

资源简介：

FinMMDocR是由北京邮电大学与同花顺信息网络联合开发的金融多模态推理基准数据集，包含1200个中英双语专家标注的数值推理问题。该数据集涵盖837份平均50.8页的金融长文档，涉及9种专业文档类型（如公司研究报告、金融工程文件等），具有丰富的视觉元素和高信息密度（平均38.8k tokens/文档）。数据构建过程采用两阶段方法：既更新了现有公开数据集DocMath-EvalCompLong的600个英文样本，又全新创建了600个中文样本，所有问题均配备Python解决方案和精确答案。该数据集专为评估模型在三大核心能力而设计：场景感知（57.9%问题含12类隐含金融场景）、文档理解（需处理跨页面多模态信息）和多步计算（平均11个推理步骤），主要应用于金融决策支持、投资分析等需要专业级数值推理的现实场景。

FinMMDocR is a financial multimodal reasoning benchmark dataset jointly developed by Beijing University of Posts and Telecommunications and Tonghua Shun Information Network, comprising 1200 expert-annotated numerical reasoning questions in both Chinese and English. This dataset covers 837 long financial documents with an average length of 50.8 pages, involving 9 professional document types such as corporate research reports and financial engineering documents, and features rich visual elements and high information density, averaging 38.8k tokens per document. The dataset construction adopts a two-stage approach: it not only updates 600 English samples from the existing public dataset DocMath-EvalCompLong, but also newly creates 600 Chinese samples. All questions are paired with Python solutions and exact answers. FinMMDocR is specifically designed to evaluate three core capabilities of models: scene awareness, where 57.9% of the questions contain 12 types of implicit financial scenarios, document understanding that requires processing cross-page multimodal information, and multi-step calculation with an average of 11 reasoning steps. It is mainly applied in real-world scenarios requiring professional numerical reasoning such as financial decision support and investment analysis.

提供机构：

北京邮电大学; 同花顺信息网络股份有限公司

创建时间：

2025-12-31

原始信息汇总

FinMMDocR 数据集概述

数据集基本信息

数据集名称：FinMMDocR
发布年份：2025
相关会议/期刊：AAAI 2026
论文标题：FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation
论文链接：https://arxiv.org/abs/2512.24903
代码/数据链接：🤗 Dataset (Hugging Face)

核心目标与特点

目标：评估多模态大语言模型（MLLMs）在真实世界金融数值推理任务上的性能。
主要特点：
1. 场景感知：57.9%的问题包含隐含的金融场景。
2. 文档理解：包含大量、多类型、长篇幅的金融文档。
3. 多步计算：问题平均需要11步推理（5.3步信息提取 + 5.7步计算）。

数据集规模与构成

问题数量：1,200个专家标注的问题。
文档数量：837份文档。
文档平均页数：50.8页。
文档语言：中文/英文双语。
文档类别：涵盖9种类型（例如：公司研究）。
金融场景：涵盖12种类型（例如：投资组合管理）。

任务挑战与复杂性

隐含场景问题比例：57.9%。
平均推理步骤：11步。
跨页证据需求：65.0%的问题需要跨页证据，平均涉及2.4页。
示例复杂性：例如，涉及美中关税冲突场景的问题，需要整合隐含假设、从多页（第1、15、19页）检索证据，并进行12步计算。

评估结果

最佳模型性能：性能最佳的MLLM（OpenAI o4-mini-high）准确率仅为58.0%。
性能趋势：随着场景复杂性和推理步骤的增加，模型性能显著下降。
方法对比：不同的检索增强生成（RAG）方法在此任务上表现出显著的性能差异。

搜集汇总

数据集介绍

构建方式

FinMMDocR数据集的构建过程体现了对金融领域多模态推理任务的深度模拟。该数据集包含1200个双语（中英文）数值推理问题，其构建融合了公开数据集的精选重构与全新数据的原创生成。具体而言，研究团队从DocMath-EvalCompLong数据集中筛选并重新标注了600个英文问题，确保其多样性与复杂性；同时，基于385份授权获取的中文金融研究报告，人工构建了600个全新的中文问题。每个问题均配备了真实世界金融场景、视觉丰富的长文档（平均50.8页）、详细的证据页面标注、Python解决方案及精确答案。为确保数据质量，由15名金融专业硕士生和2名CFA认证专家组成的标注团队，通过交叉评审与专家仲裁流程，对生成内容进行了严格的逻辑校正、证据核实与计算验证，最终构建了一个涵盖9类文档、12种金融场景的高质量基准。

使用方法

FinMMDocR数据集主要用于评估多模态大语言模型在复杂金融环境下的推理能力。研究者可通过两种输入范式进行实验：一是将文档页面图像直接输入MLLMs进行端到端推理；二是先使用OCR引擎提取文本，再输入LLMs进行处理。评估时推荐采用程序思维提示法，以生成Python代码的形式输出答案，并在0.2%的容错率下计算准确率。此外，该数据集支持对检索增强生成方法的系统性评测，包括基于视觉或文本的嵌入模型检索，以及多智能体协作的Agentic RAG框架分析。通过细粒度指标（如场景数量、文档长度、推理步骤数）的分解评估，可深入诊断模型在情境理解、文档解析、知识推理与数值计算各环节的瓶颈，从而推动面向真实金融任务的多模态推理技术发展。

背景与挑战

背景概述

FinMMDocR是由北京邮电大学推理实验室联合同花顺网络信息股份有限公司于2025年推出的一个双语多模态金融推理基准数据集。该数据集旨在评估多模态大语言模型在真实世界金融数值推理任务上的专业能力，其核心研究问题聚焦于如何系统衡量模型在复杂金融场景下的情境感知、长文档理解与多步骤计算等综合推理性能。通过整合1200个专家标注的问题、837份涵盖九种类型的中英文金融长文档，FinMMDocR显著推进了金融多模态推理评估的深度与广度，为领域内模型的能力边界提供了更为严谨的量化标尺，对推动金融人工智能向专业化、场景化发展具有重要的学术与工程价值。

当前挑战

FinMMDocR所针对的领域挑战在于解决真实金融分析中复杂多模态推理的评估难题，传统基准在情境隐含性、文档多样性与计算复杂性方面存在明显不足。具体而言，该数据集构建过程中面临三大挑战：一是情境感知的深度建模，需设计涵盖12类金融场景的隐含假设问题，要求模型进行专家级推演；二是多模态长文档的理解与信息提取，需处理平均50.8页、富含图表元素的专业文档，并支持跨页证据关联；三是高精度多步骤计算，平均每个问题需11步推理，涉及严格的数值提取与计算，且65%的问题要求跨页推理，对模型的鲁棒性与精确性提出了极高要求。

常用场景

经典使用场景

在金融多模态推理领域，FinMMDocR数据集被广泛用于评估多模态大语言模型在真实世界金融场景下的专业文档理解与多步骤数值计算能力。该数据集通过融合情境感知、文档理解与多步骤计算三大核心维度，为模型提供了高度仿真的金融分析任务。研究者通常利用其1200个双语专家标注问题，涵盖财务报表分析、投资组合管理等12类金融场景，要求模型从平均50.8页的视觉丰富文档中提取关键信息，并执行平均11步的推理计算，从而系统检验模型在复杂金融环境下的综合推理性能。

解决学术问题

FinMMDocR有效解决了现有金融推理基准在真实性、复杂性与多模态融合方面的不足。传统基准往往依赖抽象考题或单一模态输入，难以模拟金融专家在实际工作中整合情境假设、处理视觉密集文档并进行精确多步计算的全过程。该数据集通过引入57.9%的隐式金融场景问题、837份涵盖9类双语专业文档以及65.0%的跨页证据需求，填补了领域内对真实世界多模态推理能力评估的空白。其严格评估标准（0.2%容错率）与丰富标注（Python解决方案、证据页注释）为提升模型在专业金融分析中的可靠性与可解释性提供了关键支撑。

实际应用

在实际金融分析场景中，FinMMDocR能够模拟投资银行、资产管理公司等机构对多模态金融文档的深度处理需求。例如，分析师可借助该数据集训练或评估模型从长达数十页的行业研究报告、财务报表中提取关键指标（如市盈率、库存周转天数），结合关税政策变动等情境假设，计算跨境大宗商品进口量调整等复杂问题。数据集涵盖的837份双语文档与跨页推理要求，可直接应用于自动化财务报告解析、投资决策支持系统的开发，助力金融机构提升信息处理效率与决策精准度。

数据集最近研究