FinMTM

Hugging Face2026-01-26 更新2026-01-27 收录

下载链接：

https://huggingface.co/datasets/HiThink-Research/FinMTM

下载链接

链接失效反馈

官方服务：

资源简介：

FinMTM 是一个多轮多模态基准数据集，旨在评估视觉语言模型（VLMs）在现实金融推理和代理设置中的表现。由于专业图表格式和知识密集型推理的挑战，金融问答任务具有较高难度，而现有基准大多为单轮且问题多样性有限。FinMTM 通过扩展数据多样性和任务覆盖范围，提供了全面的现实世界评估场景。该数据集包含 11,133 个中英文双语金融问答对，基于多样化的金融视觉内容（如K线图、统计图表、报告图表等）。任务类型涵盖客观问题（单选和多选）、多轮开放式对话以及金融代理任务。数据集采用任务特定的评估协议，包括多选题的集合重叠评分、多轮对话的加权轮次和会话级评分，以及代理任务的规划质量和最终结果组合指标。 FinMTM 已对 22 种 VLMs 进行了广泛实验，揭示了这些模型在细粒度视觉感知、长上下文推理和复杂代理工作流方面的关键局限。数据集资源开源，包含代码和基准测试工具。数据规模方面，客观问题共 3,964 个（单选 1,982，多选 1,982），多轮开放式问题 6,169 个（分为理解、计算、自我纠正和记忆四个子类），金融代理任务 1,000 个（单代理 728，多代理 272）。

创建时间：

2026-01-14

原始信息汇总

FinMTM 数据集概述

数据集基本信息

数据集名称：FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation
许可证：mit
任务类别：question-answering
支持语言：中文 (zh)、英文 (en)

核心目标

FinMTM 是一个多轮多模态基准测试，旨在现实金融推理和智能体环境中评估视觉语言模型 (VLMs)。该数据集旨在解决现有基准测试多为单轮且问题多样性有限的问题，通过扩展数据多样性和任务覆盖范围，进行全面的、面向真实世界的评估。

关键特性

双语与多模态：包含 11,133 个中英文金融问答对，基于多样化的金融视觉图像（如K线图、统计图、报告图表）。
多样化任务覆盖：包含客观问题（单选和多选）、多轮开放式对话以及金融智能体任务。
任务特定评估协议：
- 多项选择：集合重叠评分
- 多轮对话：加权轮次级 + 会话级评分
- 智能体任务：结合规划质量和最终结果的复合指标
广泛的模型评估：对 22 个 VLMs 进行了广泛实验，揭示了在细粒度视觉感知、长上下文推理和复杂智能体工作流方面的关键局限性。
开源：代码和基准资源可在 https://github.com/HiThink-Research/FinMTM 获取。

数据构成与统计

任务	评估目标	数据量
客观问题 (单选题)	单选题格式下的基本理解和选择	1982
客观问题 (多选题)	多选题格式下的全面理解和选择	1982
客观问题 (总计)	单选 + 多选	3964
多轮开放式问题 (理解)	实体识别；空间感知	2082
多轮开放式问题 (计算)	多步数值计算；图表数值估算	1893
多轮开放式问题 (自我纠正)	对抗鲁棒性；逻辑一致性	1210
多轮开放式问题 (记忆)	跨页面实体链接；长上下文理解；多源知识融合	984
多轮开放式问题 (总计)	L1 + L2 + L3 + L4	6169
金融智能体 (单智能体)	单智能体工具规划与执行	728
金融智能体 (多智能体)	多智能体协作规划与执行	272
金融智能体 (总计)	单智能体 + 多智能体	1000
FinMTM (总计)	客观问题 + 开放式问题 + 智能体	11133

数据使用与结构

数据集按任务类型分为三个主要部分，每个部分包含中英文数据及对应的图像文件。

1. 客观问题数据

路径结构：datasets/OQ/ 下按语言 (EN, CN) 组织。
内容：包含 SC.jsonl (单选题)、MC.jsonl (多选题) 和对应的图像压缩包 (EN_images.zip, CN_images.zip)。

2. 多轮开放式问题数据

路径结构：datasets/MT/ 下按语言 (EN, CN) 组织。
内容：
- 图像文件按图表类型（如 line, pie, table, report 等）存放于 Image/ 目录下。
- 四个层级的JSONL文件：L1_com.jsonl (理解)、L2_cal.jsonl (计算)、L3_cor.jsonl (自我纠正)、L4_mem.jsonl (记忆)。

3. 金融智能体问题数据

路径结构：datasets/Agent/ 下按语言和股票市场 (CN_stocks, EN_stocks) 组织。
内容：
- 图像文件按公司/股票代码（如 中信银行, APPL.OQ）存放于 Image/ 目录下。
- 智能体数据文件：agent_data.jsonl。

许可与使用声明

代码许可证：Apache 2.0
数据许可证：Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
使用限制：数据和代码仅授权用于研究用途。使用应遵守 OpenAI 的政策：https://openai.com/policies/terms-of-use

搜集汇总

数据集介绍

构建方式

在金融领域，数据集的构建往往需要兼顾专业性与多样性，FinMTM的构建过程体现了这一原则。该数据集通过精心设计的多轮对话与多模态任务框架，整合了来自真实金融场景的视觉素材，如K线图、统计图表及财报插图，并围绕这些素材生成了涵盖客观问答、开放式对话及智能体任务的双语问答对。构建过程中，研究团队依据任务类型对数据进行分层组织，确保每一类任务都能精准评估模型在特定金融推理场景下的表现，最终形成了包含11,133个样本的综合性基准。

使用方法

为了有效利用FinMTM数据集进行模型评估，使用者需遵循其结构化的数据组织方式。数据集按任务类型分为客观问题、多轮开放式问题及金融智能体问题三大模块，每个模块下进一步按中英文语言细分。用户需先行下载对应的JSONL数据文件与图像压缩包，并按照预设的目录结构进行存放，确保图像路径与数据记录中的引用能够正确关联。在具体评估时，可根据不同任务类型调用相应的评分脚本，对模型在基础金融视觉理解、多步数值推理、长上下文处理以及工具规划与协作等维度的表现进行系统性测试。

背景与挑战

背景概述

在金融科技与人工智能交叉领域，视觉语言模型（VLMs）的评估长期面临数据单一与任务局限的困境。现有基准多聚焦于单轮问答，难以模拟真实金融场景中复杂的多轮交互与深度推理需求。为应对这一挑战，由HiThink Research联合武汉大学、浙江大学等机构的研究团队于近期共同构建了FinMTM数据集。该数据集旨在通过提供涵盖中英双语、包含超过一万一千个问答对的多轮多模态基准，系统评估模型在金融图表理解、知识密集型推理及智能体协作规划等方面的综合能力，从而推动金融领域人工智能向更实用、更鲁棒的方向发展。

当前挑战

FinMTM数据集致力于解决金融视觉问答这一核心领域问题，其挑战在于金融图表（如K线图、统计图）具有高度专业化格式，要求模型具备细粒度视觉感知与领域知识融合的复杂推理能力。在构建过程中，研究团队面临多重挑战：需精心设计涵盖客观题、多轮开放式对话及金融智能体任务的多样化评估体系；需确保中英双语数据在专业术语与语境上的一致性；需采集与标注大量异构的金融视觉材料，并构建能够检验模型长上下文理解、对抗鲁棒性及多源知识融合的复杂对话流，这对数据质量与评估协议的科学性提出了极高要求。

常用场景

经典使用场景

在金融智能分析领域，FinMTM数据集作为多轮多模态基准，其经典应用场景在于全面评估视觉语言模型在复杂金融推理任务中的表现。该数据集通过涵盖客观问答、多轮开放式对话及金融智能体任务，为模型提供了模拟真实金融决策环境的测试平台，尤其擅长检验模型对蜡烛图、统计图表等专业视觉信息的解析能力，以及跨页面实体链接、长上下文理解等高级认知功能。

解决学术问题

FinMTM数据集有效解决了金融自然语言处理研究中长期存在的任务单一性与场景局限性问题。传统金融问答基准多局限于单轮交互，缺乏对多轮对话、对抗性修正及智能体协作等复杂场景的覆盖。该数据集通过引入多层次任务结构与双语多模态数据，为学术界提供了系统评估模型细粒度视觉感知、知识密集型推理及长序列决策能力的标准化工具，推动了金融领域多模态推理研究向更贴近实际应用的方向演进。

实际应用

在实际金融科技应用中，FinMTM数据集为智能投顾、风险预警系统及自动化报告生成等场景提供了关键的训练与评估资源。其多轮对话设计能够模拟客户与金融顾问的交互过程，而智能体任务则直接对应投资决策支持系统中的工具调用与协同规划需求。通过该数据集优化的模型，可显著提升对市场图表动态解读、财务报告跨页信息整合等实际业务挑战的处理精度与鲁棒性。

数据集最近研究