FinMME

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/luojunyu/FinMME

下载链接

链接失效反馈

官方服务：

资源简介：

FinMME是一个金融领域的多模态推理评估基准数据集，包含超过11000个高质量金融研究样本，涵盖了18个金融领域和6个资产类别。数据集包含了多种类型的图表，并通过20个标注员和精心设计的验证机制确保了数据质量。此外，还开发了一个名为FinScore的评估系统，用于无偏见的评估。

创建时间：

2025-05-29

原始信息汇总

FinMME 数据集概述

基本信息

许可证: MIT
语言: 英语 (en)
标签: 金融 (finance)、多模态 (multimodal)、推理 (reasoning)
数据集大小类别: 10K < n < 100K

数据集结构

特征:
- id (int32)
- image (image)
- question_text (string)
- question_type (string)
- options (string)
- answer (string)
- unit (string)
- tolerance (float32)
- verified_caption (string)
- related_sentences (string)
拆分:
- train:
  - 样本数量: 11,099
  - 字节大小: 419,829,046.637
下载大小: 398,554,212
数据集大小: 419,829,046.637

任务类别

多项选择 (multiple-choice)
问答 (question-answering)

数据集描述

FinMME 是一个专门用于金融领域多模态推理评估的数据集，包含以下特点：

规模: 超过 11,000 个高质量金融研究样本。
覆盖范围: 18 个金融领域和 6 种资产类别。
图表类型: 10 种主要图表类型和 21 种子类型。
数据质量: 通过 20 名标注者和精心设计的验证机制确保。
评估系统: 开发了 FinScore，包含幻觉惩罚和多维能力评估。

使用说明

评估协议请参考: https://github.com/luo-junyu/FinMME

引用

BibTex @inproceedings{finmme, title={FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation}, author={Junyu Luo and Zhizhuo Kou and Liming Yang and Xiao Luo and Jinsheng Huang and Zhiping Xiao and Jingshu Peng and Chengzhong Liu and Jiaming Ji and Xuanzhe Liu and Sirui Han and Ming Zhang and Yike Guo}, booktitle={Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics}, year={2025} }

搜集汇总

数据集介绍

构建方式

在金融多模态大模型快速发展的背景下，FinMME数据集通过系统化采集与严格标注流程构建而成。研究团队从18个金融领域和6种资产类别中精选样本，涵盖10大类21子类图表类型，由20名专业标注人员采用分层抽样策略进行数据采集。通过设计双重校验机制和专家复核流程，确保11,099个样本的标注质量达到研究级标准，每个样本均包含图像、问题文本、选项、答案及验证说明等多维度字段。

特点

作为金融领域首个专业多模态评估基准，FinMME展现出显著的领域特异性与结构复杂性。数据集创新性地整合了股价走势图、资产负债表等专业金融图表与自然语言问题，每个样本配备精确的容差参数和单位标注。其特色在于构建了包含幻觉惩罚机制的FinScore评估体系，通过问题类型、资产类别等多维度标签，支持模型在投资决策、风险分析等专业场景下的细粒度性能评估。

使用方法

该数据集适用于多模态大模型在金融领域的微调与评估，研究者可通过HuggingFace平台直接加载数据。典型工作流程包括：利用图像-问题对进行跨模态表征学习，基于验证说明字段实施对抗性训练，参照FinScore协议进行多维度能力测试。官方GitHub仓库提供完整的评估框架，支持对模型金融推理能力、图表解析准确度等核心指标的系统化测评。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）的快速发展，金融领域缺乏有效且专业的评估数据集成为制约该领域研究深入的关键瓶颈。为填补这一空白，FinMME数据集应运而生，由Junyu Luo等学者于2025年提出，收录了涵盖18个金融领域和6种资产类别的11,000余个高质量研究样本，包含10种主要图表类型及21种子类型。该数据集通过20名标注员和精心设计的验证机制确保数据质量，并创新性地开发了包含幻觉惩罚和多维能力评估的FinScore评价体系，为金融多模态推理研究提供了标准化评估框架，对推动金融智能分析技术的发展具有重要意义。

当前挑战

FinMME数据集致力于解决金融多模态推理评估的复杂性问题，其核心挑战体现在两方面：领域问题层面，金融图表具有高度专业性和语义密度，模型需同时处理视觉元素与金融术语的深层关联，且需规避市场敏感信息导致的预测偏差；构建过程中，跨资产类别的样本平衡、多标注者间的一致性校验，以及动态金融市场导致的时效性维护，均为数据质量控制带来显著挑战。此外，评估体系需精准量化模型在金融语境下的幻觉生成概率，这对标注粒度和评估维度设计提出了极高要求。

常用场景

经典使用场景

在金融多模态研究领域，FinMME数据集作为专门设计的评估工具，主要应用于测试和提升多模态大语言模型（MLLMs）在金融图表理解和推理任务中的表现。该数据集通过涵盖18个金融领域和6种资产类别的多样化样本，为研究人员提供了一个标准化的测试平台，用以验证模型在解析复杂金融图表及关联文本信息方面的能力。

解决学术问题

FinMME数据集有效解决了金融领域缺乏高质量多模态评估基准的学术难题。通过精心设计的样本结构和验证机制，该数据集不仅填补了金融多模态推理评估的空白，还为研究者提供了量化模型性能的工具，促进了金融领域多模态技术的标准化发展。其引入的FinScore评估体系进一步解决了模型幻觉惩罚和多维度能力评估的难题。

衍生相关工作

基于FinMME数据集，学术界已衍生出多项重要研究工作，包括金融多模态预训练模型优化、跨模态金融信息检索系统开发等。该数据集还促进了金融领域专用评估指标体系的建立，为后续研究如金融知识图谱构建、智能问答系统改进等提供了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集