FINMME

Name: FINMME
Creator: 北京大学多媒体信息处理国家重点实验室, 香港科技大学, 加州大学洛杉矶分校, 华盛顿大学
Published: 2025-05-30 23:36:19
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/luojunyu/FinMME

下载链接

链接失效反馈

官方服务：

资源简介：

FINMME是一个包含超过11,000个高质量金融研究样本的多模态数据集，涵盖了18个金融领域和6种资产类别，包括10种主要图表类型和21个子类型。数据集的质量通过20名标注者和精心设计的验证机制得到保证。此外，我们还开发了FinScore评估系统，该系统结合了幻觉惩罚和多维度能力评估，以提供无偏见的评估。实验结果表明，即使是像GPT-4o这样的最先进的模型在FINMME上的表现也不令人满意，突出了其挑战性。基准测试表现出高鲁棒性，在不同提示下的预测变化率保持在1%以下，与现有数据集相比表现出卓越的可靠性。我们的数据集和评估协议可在https://github.com/luo-junyu/FinMME获得。

FINMME is a multimodal dataset containing over 11,000 high-quality financial research samples, covering 18 financial domains, 6 asset categories, 10 main chart types and 21 subtypes. The quality of the dataset is guaranteed by 20 annotators and a meticulously designed validation mechanism. Additionally, we have developed the FinScore evaluation system, which combines hallucination penalty and multi-dimensional capability assessment to provide unbiased evaluations. Experimental results demonstrate that even state-of-the-art models such as GPT-4o achieve unsatisfactory performance on FINMME, highlighting its inherent challenge. Benchmark tests exhibit high robustness, with the prediction variation rate under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://github.com/luo-junyu/FinMME.

提供机构：

北京大学多媒体信息处理国家重点实验室, 香港科技大学, 加州大学洛杉矶分校, 华盛顿大学

创建时间：

2025-05-30

原始信息汇总

FinMME 数据集概述

基本信息

许可证: MIT
语言: 英语 (en)
标签: 金融 (finance)、多模态 (multimodal)、推理 (reasoning)
数据集大小: 419,829,046.637 字节
下载大小: 398,554,212 字节
样本数量: 11,099 (训练集)

数据集特征

特征列:
- id (int32)
- image (image)
- question_text (string)
- question_type (string)
- options (string)
- answer (string)
- unit (string)
- tolerance (float32)
- verified_caption (string)
- related_sentences (string)

任务类别

多项选择 (multiple-choice)
问答 (question-answering)

数据集描述

FinMME 是一个专门为金融领域设计的多模态评估数据集，包含超过 11,000 个高质量的金融研究样本，涵盖以下内容：

18 个金融领域
6 种资产类别
10 种主要图表类型 和 21 种子类型

数据质量

通过 20 名标注人员 进行标注
采用 精心设计的验证机制 确保数据质量

评估系统

FinScore: 包含幻觉惩罚和多维能力评估，提供无偏见的评估

使用说明

评估协议请参考: https://github.com/luo-junyu/FinMME

引用

BibTex @inproceedings{finmme, title={FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation}, author={Junyu Luo and Zhizhuo Kou and Liming Yang and Xiao Luo and Jinsheng Huang and Zhiping Xiao and Jingshu Peng and Chengzhong Liu and Jiaming Ji and Xuanzhe Liu and Sirui Han and Ming Zhang and Yike Guo}, booktitle={Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics}, year={2025} }

搜集汇总

数据集介绍

构建方式

FINMME数据集通过精心设计的流程构建，涵盖了18个金融核心领域和6种资产类别。数据收集过程结合了手动筛选和自动化爬取，从7000多份专业研究报告和网页截图中提取高质量金融图像及关联文本。为确保数据质量，采用了三阶段清洗流程：自动去重、格式标准化和人工审核。标注团队由20名标注员组成，包括12名初级标注员和8名专家，标注过程耗时约800小时，并通过并行的人工与大型语言模型标注策略确保内外一致性。

特点

FINMME数据集以其高质量、全面覆盖和细粒度标注著称。包含超过11,000个金融多模态样本，涵盖10种主要图表类型和21种子类型，每个样本均包含金融图像、图像描述、专业研究报告描述和细粒度数据标签。数据集通过严格的专家验证机制，确保标注错误率低于1%。此外，FINMME引入了分层评估框架，涵盖综合感知、细粒度分析和认知推理三个维度，并设计了FinScore评估系统，结合幻觉惩罚和多维能力评估，为金融领域的多模态模型提供了可靠的基准。

使用方法

FINMME数据集的使用方法包括多选问题和计算问题的组合评估。多选问题包含单选和多选格式，旨在挑战模型并减少幻觉倾向。评估过程中引入了幻觉惩罚机制，通过平衡正确答案的奖励和过度选择的惩罚来优化评分。FinScore结合了领域标准化评分和幻觉惩罚率，确保模型在准确性和可靠性上的综合表现。用户可通过商业API或本地部署进行模型评估，实验表明，即使是领先的多模态大型语言模型在FINMME上的表现也仅略高于50%，凸显了其在金融领域的挑战性和必要性。

背景与挑战

背景概述

FINMME是由北京大学与香港科技大学等机构的研究团队于2025年推出的金融多模态推理评估基准数据集。该数据集针对金融领域缺乏专业评估工具的问题，收录了涵盖18个金融领域、6种资产类别的11,099个高质量样本，包含10大类21子类金融图表。作为首个系统化评估多模态大模型在金融领域应用能力的数据集，FINMME通过精心设计的验证机制将标注错误率控制在1%以下，并创新性地引入包含幻觉惩罚的FinScore评估体系。其构建过程历时800人工小时，联合20名专业标注者与金融专家共同完成，为量化金融、投资分析等专业场景提供了可靠的评估基准。

当前挑战

FINMME面临的核心挑战体现在两个维度：领域问题层面，金融数据特有的高知识密度和复杂关联性导致现有模型在跨模态推理（如财报图表解析）和精确计算（如复合增长率推算）任务中表现欠佳，顶级模型准确率仅达50%；构建过程层面，专业金融术语的歧义消除（如衍生品术语标准化）、多源数据合规性审查（涉及7,000份研究报告的版权清理），以及保持跨资产类别标注一致性（覆盖股票、外汇等6类资产）构成主要技术难点。此外，金融领域对预测误差的零容忍特性，要求数据集必须设计严格的幻觉检测机制，这进一步增加了质量控制的复杂度。

常用场景

经典使用场景

在金融多模态研究领域，FINMME数据集作为专业评估基准，被广泛应用于测试多模态大语言模型（MLLMs）对复杂金融图表与文本的综合解析能力。其覆盖18个核心金融领域和6种资产类别的11,099个样本，尤其适合验证模型在宏观经济研究、衍生品量化分析等高知识密度任务中的表现。典型场景包括模型对财报趋势图的时间序列识别、风险收益矩阵的跨模态关联分析，以及基于多图表联动的投资策略推理。

实际应用

在实际金融分析场景中，FINMME支撑了智能投研系统的多模态理解能力优化。头部金融机构利用其评估投研报告的自动解析系统，提升对股票评级图表与文本描述的联合理解准确率；量化团队则借助其衍生品风险图谱数据集，训练模型识别波动率曲面与期权条款的隐含关联。实验表明，即使GPT-4o在该数据集上的综合准确率仅46.56%，凸显其在真实金融决策支持系统中的落地仍需针对性优化。

衍生相关工作

FINMME催生了多个金融多模态领域的创新研究：基于其构建的FinVQA系统首次实现财报视觉问答的端到端训练；衍生数据集MME-Finance扩展了技术分析图表库；Qwen-VL团队利用其分层评估框架开发了金融领域适配的视觉编码器。这些工作共同推进了MLLMs在资产配置、风险预警等场景的应用深度，相关成果被ICLR等顶会收录。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集