five

FinMMDocR

收藏
github2026-01-01 更新2026-01-06 收录
下载链接:
https://github.com/BUPT-Reasoning-Lab/FinMMDocR
下载链接
链接失效反馈
官方服务:
资源简介:
FinMMDocR是一个用于评估金融数值推理的多模态基准数据集,包含1,200个精心设计的金融推理问题,源自真实世界的金融研究文档。每个问题需要多模态理解,结合文本分析、视觉文档解释和数值推理。数据集支持双语(中文和英文),涵盖金融分析和数值推理领域。

FinMMDocR is a multimodal benchmark dataset tailored for evaluating financial numerical reasoning. It contains 1,200 meticulously designed financial reasoning questions sourced from real-world financial research documents. Each question necessitates multimodal comprehension, integrating textual analysis, visual document interpretation and numerical reasoning. The dataset supports bilingual (Chinese and English) content and covers the fields of financial analysis and numerical reasoning.
创建时间:
2026-01-01
原始信息汇总

FinMMDocR 数据集概述

数据集基本信息

  • 数据集名称:FinMMDocR
  • 核心定位:一个用于评估多模态大语言模型在金融数值推理任务上的双语多模态基准。
  • 核心特点:包含真实世界场景、视觉丰富的文档和多步骤计算。

数据集规模与构成

  • 问题总数:1,200个精心设计的金融推理问题。
  • 数据来源:源自真实世界的金融研究文档。
  • 模态构成:文本 + 图像 + 数值数据。
  • 语言:双语(中文和英文)。
  • 领域:金融分析与数值推理。
  • 文档类型:涵盖9个主要金融研究类别。

数据发布状态

  • 当前发布版本
    • 完整的 test.json 文件,包含全部1,200个问题及完整数据结构。
    • 一份示例文档(0000)的10张关联图像及所有OCR结果。
  • 论文接受后将完整发布
    • 所有1,200个问题的完整图像数据集(所有文档图像)。
    • 完整文档集合的所有OCR结果。
    • 额外的预处理变体(如 images_50, images_15 等)。

数据结构与内容

每个问题遵循以下JSON结构: json { "question_id": "test-0", "doc_id": "0000", "doc_type": "Market Interpretation", "question": "详细的问题描述...", "evidence": { "table": [页码列表], "image": [], "plain_text": [], "generalized_text (layout)": [], "pie_chart": [], "bar_chart": [], "scatter_chart": [], "line_chart": [] }, "python_solution": "专家编写的Python解决方案代码", "ground_truth": 数值答案, "source_id": "0000-01", "pages_num": 15, "images": ["/data/images/0000/page_1.png", ...], "texts": "/data/texts/0000.json" }

关键组件详解

  1. 问题信息

    • question_id:唯一标识符(test-0 至 test-1199)。
    • doc_id:源文档标识符。
    • doc_type:金融研究类别。
    • question:需要多模态分析的详细金融推理问题。
  2. 证据追踪evidence 字段追踪相关的视觉元素,包括表格、图像、纯文本、布局文本以及特定图表类型(饼图、柱状图、散点图、折线图)所在的页码。

  3. 多模态资源

    • images:源文档每一页的图像路径数组。
    • texts:从文档中提取的文本内容的路径。
    • pages_num:源文档的总页数。
  4. 解决方案与真实答案

    • python_solution:专家编写的、变量名清晰、执行逻辑明确的Python代码。
    • ground_truth:执行解决方案得出的数值答案(通常为浮点数)。
    • source_id:链接到源文档的特定标识符。

所需推理技能

  • 文档理解:从表格中定位并提取相关金融数据。
  • 数值推理:应用增长率计算和预测。
  • 金融知识:理解市盈率、市值和行业分析。
  • 多模态处理:结合文本和视觉元素的信息。

数据处理与工具

数据集包含全面的预处理工具,用于处理具有不同分辨率和数量限制的多模态文档图像。

图像数量控制

通过智能拼接策略管理图像数量:

  • 处理策略
    • ≤50张图像:直接复制,不做修改。
    • 50张图像:通过智能拼接减少总图像数量。

  • 输出结构:生成 images_50/ 目录,确保每个文档图像数≤50。

图像分辨率处理

支持多种分辨率要求:

  • 支持的分辨率:原始分辨率、3840px(高质量)、1920px(标准)。
  • 处理逻辑:将图像的最大边调整至目标分辨率(如3840或1920),同时保持宽高比,并使用高质量重采样算法。
  • 分辨率变体:可生成如 images_15_1920/images_15_3840/ 等目录。

预处理流程

  1. 运行 python merge_image.py 进行图像数量控制。
  2. (如需)手动处理进一步将图像减少至≤15张。
  3. 运行 python resize_image.py 进行分辨率处理。

评估框架

支持思维链和程序链两种评估方法,并提供全面的指标和自动化处理。

评估方法

  1. 思维链评估
    • 使用基于LLM的答案提取来从模型响应中解析数值答案。
    • 计算通过比较提取答案与真实答案得出的准确率。
  2. 程序链评估
    • 从模型响应中提取可执行的Python代码。
    • 在具有超时保护的独立进程中执行代码。
    • 比较执行结果与真实答案。

评估指标

  • 准确率:正确答案的百分比。
  • 执行率:成功处理响应的百分比。
  • 令牌使用量:消耗的总完成令牌数。

项目目录结构

FinMMDocR/ ├── data/ # 数据集和预处理输出 │ ├── images/ # 原始文档图像 │ ├── images_50/ # 处理后图像(≤50每文档) │ ├── images_15/ # 进一步减少的图像(≤15每文档) │ ├── images_15_1920/ # 1920px分辨率图像 │ ├── images_15_3840/ # 3840px分辨率图像 │ ├── texts/ # 每个文档的OCR结果 │ └── test.json # 主数据集文件(1,200问题) ├── models/ # RAG嵌入模型参数 ├── outputs/ # 推理和评估结果 ├── retrieved_results/ # RAG实验结果 ├── scripts/ # 自动化和评估脚本 └── utils/ # 实用函数和工具

搜集汇总
数据集介绍
main_image_url
构建方式
在金融多模态推理领域,FinMMDocR数据集的构建体现了严谨的学术规范。其核心来源于真实的金融研究报告,涵盖了市场解读、行业分析等九大类别,确保了数据源的现实性与专业性。构建过程通过精心设计1200道双语推理问题,每道题目均需融合文本分析、视觉文档解读与数值计算。数据标注不仅包含结构化的问题描述与证据追踪,还提供了由专家编写的Python解决方案及精确的数值真值,形成了完整的评估闭环。
特点
该数据集显著特点在于其深度融合的多模态特性与复杂的金融场景。每个问题均关联富含图表、表格的文档图像,要求模型同时处理视觉元素与结构化文本数据。问题设计强调多步计算与场景感知,例如基于历史增长率预测未来营收,考验模型在真实金融语境下的推理能力。数据集采用双语呈现,并提供了详尽的证据标注与资源路径,为评估大语言模型在专业领域的综合能力设立了高标准。
使用方法
使用FinMMDocR进行评估需遵循其提供的完整技术管线。首先通过数据预处理脚本管理图像数量与分辨率,生成适用于不同实验设置的变体。随后,利用推理脚本支持多种主流大语言模型,配置相应的API密钥与参数进行多模态问答生成。最终,通过自动化评估框架,采用思维链或程序链方法提取模型答案,与标注的真值进行对比,计算准确率等核心指标,从而系统性地衡量模型在金融多模态推理任务上的性能。
背景与挑战
背景概述
在金融科技与多模态人工智能交叉领域,FinMMDocR数据集应运而生,旨在为金融数值推理任务提供一个严谨的评估基准。该数据集由研究团队在开发过程中借助现代AI工具辅助构建,其核心研究问题聚焦于评估多模态大语言模型在复杂金融场景下的综合推理能力。数据集包含1200个精心设计的双语问题,源自真实世界的研究文档,要求模型融合文本分析、视觉文档解读与多步骤数值计算。FinMMDocR的创建标志着金融人工智能从单一模态分析向场景感知、文档理解与深度计算融合的范式转变,对推动金融领域的可信人工智能发展具有显著影响力。
当前挑战
FinMMDocR所针对的金融多模态推理领域面临多重挑战。首要挑战在于模型需同时处理异构信息,包括从复杂表格、图表中提取关键数值,并理解其金融语义,进而执行多步骤的精确计算。构建过程中的挑战同样严峻,涉及从大量真实金融文档中构建高质量、多样化的双语问题,确保问题既反映实际业务场景又具备可评估的计算逻辑。此外,处理高分辨率文档图像的数量与分辨率平衡、设计能够追踪多模态证据的数据结构,以及为每个问题提供可执行的程序化真值,均是数据集构建中需要克服的技术难题。
常用场景
经典使用场景
在金融智能分析领域,FinMMDocR数据集为评估多模态大语言模型的复杂推理能力提供了标准化的测试平台。该数据集包含1200个源自真实金融研究报告的双语问题,每个问题均要求模型融合文本理解、视觉文档解析与多步骤数值计算。其经典使用场景体现在对模型进行端到端的金融数值推理评估,例如要求模型从包含表格、图表的研究报告中提取关键财务指标,并基于历史增长率预测未来销售收入。这种场景模拟了专业分析师处理多模态金融文档的实际工作流程,有效检验了模型在真实业务环境下的综合认知能力。
解决学术问题
FinMMDocR致力于解决多模态人工智能在专业垂直领域面临的若干核心学术挑战。该数据集通过精心设计的场景感知任务,突破了传统基准在文档理解深度与领域知识结合方面的局限。它系统性地应对了三大难题:如何让模型在富含视觉元素的金融文档中进行精准信息定位与关联;如何实现跨模态的数值推理与多步骤计算;以及如何评估模型对复杂金融场景的语义理解。其构建为领域特定的多模态推理研究提供了可量化的评估框架,显著推进了金融人工智能从感知到认知的演进。
衍生相关工作
围绕FinMMDocR数据集,学术界与工业界已衍生出一系列聚焦于金融多模态推理的经典研究工作。这些工作主要沿两个方向展开:一是模型架构创新,研究者开发了专门针对金融文档视觉布局进行优化的多模态编码器,以及融合领域知识的检索增强生成框架;二是评估方法演进,催生了更精细的链式思维与程序式思维自动评估协议。此外,该数据集也促进了金融场景下的少样本学习、跨语言迁移以及可解释性AI等研究方向,为构建更专业、更可靠的金融人工智能系统奠定了坚实的基准基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作