FinMMDocR
收藏FinMMDocR 数据集概述
数据集基本信息
- 数据集名称:FinMMDocR
- 核心定位:一个用于评估多模态大语言模型在金融数值推理任务上的双语多模态基准。
- 核心特点:包含真实世界场景、视觉丰富的文档和多步骤计算。
数据集规模与构成
- 问题总数:1,200个精心设计的金融推理问题。
- 数据来源:源自真实世界的金融研究文档。
- 模态构成:文本 + 图像 + 数值数据。
- 语言:双语(中文和英文)。
- 领域:金融分析与数值推理。
- 文档类型:涵盖9个主要金融研究类别。
数据发布状态
- 当前发布版本:
- 完整的
test.json文件,包含全部1,200个问题及完整数据结构。 - 一份示例文档(
0000)的10张关联图像及所有OCR结果。
- 完整的
- 论文接受后将完整发布:
- 所有1,200个问题的完整图像数据集(所有文档图像)。
- 完整文档集合的所有OCR结果。
- 额外的预处理变体(如 images_50, images_15 等)。
数据结构与内容
每个问题遵循以下JSON结构: json { "question_id": "test-0", "doc_id": "0000", "doc_type": "Market Interpretation", "question": "详细的问题描述...", "evidence": { "table": [页码列表], "image": [], "plain_text": [], "generalized_text (layout)": [], "pie_chart": [], "bar_chart": [], "scatter_chart": [], "line_chart": [] }, "python_solution": "专家编写的Python解决方案代码", "ground_truth": 数值答案, "source_id": "0000-01", "pages_num": 15, "images": ["/data/images/0000/page_1.png", ...], "texts": "/data/texts/0000.json" }
关键组件详解
-
问题信息:
question_id:唯一标识符(test-0 至 test-1199)。doc_id:源文档标识符。doc_type:金融研究类别。question:需要多模态分析的详细金融推理问题。
-
证据追踪:
evidence字段追踪相关的视觉元素,包括表格、图像、纯文本、布局文本以及特定图表类型(饼图、柱状图、散点图、折线图)所在的页码。 -
多模态资源:
images:源文档每一页的图像路径数组。texts:从文档中提取的文本内容的路径。pages_num:源文档的总页数。
-
解决方案与真实答案:
python_solution:专家编写的、变量名清晰、执行逻辑明确的Python代码。ground_truth:执行解决方案得出的数值答案(通常为浮点数)。source_id:链接到源文档的特定标识符。
所需推理技能
- 文档理解:从表格中定位并提取相关金融数据。
- 数值推理:应用增长率计算和预测。
- 金融知识:理解市盈率、市值和行业分析。
- 多模态处理:结合文本和视觉元素的信息。
数据处理与工具
数据集包含全面的预处理工具,用于处理具有不同分辨率和数量限制的多模态文档图像。
图像数量控制
通过智能拼接策略管理图像数量:
- 处理策略:
- ≤50张图像:直接复制,不做修改。
-
50张图像:通过智能拼接减少总图像数量。
- 输出结构:生成
images_50/目录,确保每个文档图像数≤50。
图像分辨率处理
支持多种分辨率要求:
- 支持的分辨率:原始分辨率、3840px(高质量)、1920px(标准)。
- 处理逻辑:将图像的最大边调整至目标分辨率(如3840或1920),同时保持宽高比,并使用高质量重采样算法。
- 分辨率变体:可生成如
images_15_1920/、images_15_3840/等目录。
预处理流程
- 运行
python merge_image.py进行图像数量控制。 - (如需)手动处理进一步将图像减少至≤15张。
- 运行
python resize_image.py进行分辨率处理。
评估框架
支持思维链和程序链两种评估方法,并提供全面的指标和自动化处理。
评估方法
- 思维链评估:
- 使用基于LLM的答案提取来从模型响应中解析数值答案。
- 计算通过比较提取答案与真实答案得出的准确率。
- 程序链评估:
- 从模型响应中提取可执行的Python代码。
- 在具有超时保护的独立进程中执行代码。
- 比较执行结果与真实答案。
评估指标
- 准确率:正确答案的百分比。
- 执行率:成功处理响应的百分比。
- 令牌使用量:消耗的总完成令牌数。
项目目录结构
FinMMDocR/ ├── data/ # 数据集和预处理输出 │ ├── images/ # 原始文档图像 │ ├── images_50/ # 处理后图像(≤50每文档) │ ├── images_15/ # 进一步减少的图像(≤15每文档) │ ├── images_15_1920/ # 1920px分辨率图像 │ ├── images_15_3840/ # 3840px分辨率图像 │ ├── texts/ # 每个文档的OCR结果 │ └── test.json # 主数据集文件(1,200问题) ├── models/ # RAG嵌入模型参数 ├── outputs/ # 推理和评估结果 ├── retrieved_results/ # RAG实验结果 ├── scripts/ # 自动化和评估脚本 └── utils/ # 实用函数和工具




