MME-Finance

Name: MME-Finance
Creator: 海思研究
Published: 2024-11-06 02:59:51
License: 暂无描述

arXiv2024-11-06 更新2024-11-07 收录

下载链接：

https://hithink-research.github.io/MME-Finance

下载链接

链接失效反馈

官方服务：

资源简介：

MME-Finance是由海思研究团队创建的一个双语多模态金融基准数据集，旨在评估多模态大语言模型（MLLMs）在金融领域的理解和推理能力。数据集包含2274个问题，涵盖了从简单的视觉感知任务到复杂的认知任务，如投资建议和风险预警。数据集的创建过程包括从主流金融平台收集图像，并通过专家团队进行详细验证和标注。MME-Finance的应用领域主要集中在金融分析和投资决策支持，旨在解决现有模型在处理金融图像和专业知识时的不足。

MME-Finance is a bilingual multimodal financial benchmark dataset developed by the Hisilicon Research Team, which aims to evaluate the comprehension and reasoning abilities of multimodal large language models (MLLMs) in the financial domain. The dataset consists of 2274 questions, covering tasks ranging from simple visual perception tasks to complex cognitive ones including investment advice and risk early warning. The dataset construction process involves collecting images from mainstream financial platforms, followed by detailed verification and annotation by a team of experts. The application scenarios of MME-Finance mainly focus on financial analysis and investment decision support, aiming to address the shortcomings of existing models when handling financial images and professional financial knowledge.

提供机构：

海思研究

创建时间：

2024-11-06

原始信息汇总

MME-Finance 数据集概述

数据集简介

MME-Finance 是一个面向金融领域的多模态基准测试数据集，旨在评估和推动大型金融多模态模型的发展。该数据集专注于金融领域的视觉问答（VQA）任务，包含多种类型的金融图表和专业问题，由金融行业专家进行标注和审核。

主要特点

领域专业性：数据集包含金融领域特有的图表（如蜡烛图、技术指标图）和专业知识（如期货、换手率）。
实际应用导向：图表包括电脑截图、手机拍摄等多种形式，模拟真实应用场景。
专家标注：问题和答案由具有10年以上金融行业经验的专家进行审核和标注。

数据收集与生成

数据收集：通过电脑截图、手机拍摄和手机应用截图等方式收集金融图表，分为蜡烛图、技术指标图、统计图、表格、文档和混合图六种类型。
问题生成：使用GPT-4o生成问题和答案，并由专家进行审核，确保数据集的质量。

评估方法

评估流程：设计了针对金融特性的评估流程，包括推理阶段的提示设计、模型输出的标准化评估，以及基于LLM的评分系统。
评分系统：评分系统分为六个等级，从0（完全错误）到5（完全正确），总分为所有样本的平均分。

数据集统计

样本数量：包含1,171个图像-问题-答案对，涵盖11个不同任务，分为3个能力等级。
图表类型分布：统计图表占主要比例，混合图表最少。
图像风格分布：电脑截图和手机拍摄各占约47.3%和40.5%，垂直和水平手机截图样本数量相近。

实验结果

模型表现：在MME-Finance上，主流多模态语言模型（MLLMs）的表现差异显著，许多模型准确率较低，表明该基准测试的挑战性。
最佳模型：开源模型Qwen2VL-72B和闭源模型GPT-4o分别获得65.69和63.18的最高分，但在与金融最相关的图表类型（如蜡烛图和技术指标图）上表现较差。

相关链接

arXiv: https://arxiv.org/abs/2411.03314
GitHub: https://github.com/HiThink-Research/MME-Finance.git
HuggingFace: https://huggingface.co/datasets/hithink-ai/MME-Finance

搜集汇总

数据集介绍

构建方式

MME-Finance数据集的构建基于广泛的真实金融应用场景研究，选择了6种常见的金融图表类型，包括蜡烛图、技术指标图、统计图、表格、文档和混合图。基于这些图像和金融场景中的实际用户需求，设计了一系列开放式问答任务，涵盖从光学字符识别（OCR）任务到复杂认知任务，如提供投资建议。为确保数据集质量，设计了详细的标注流程，并邀请具有10年以上金融行业经验的专家进行答案的详细验证。

特点

MME-Finance数据集的特点在于其金融专业性和实用性，包括反映用户实际需求的设计图表（如电脑截图和手机摄影），根据金融领域查询偏好创建问题，以及由金融行业专家进行标注。此外，开发了自定义的金融评估系统，在多模态评估过程中首次引入视觉信息。

使用方法

MME-Finance数据集适用于评估多模态大语言模型（MLLMs）在金融领域的感知、推理和认知能力。通过设计适当的提示和探索结合图像信息的评估方法，提出了一种新颖的评估策略，该策略与人类评估具有高度一致性。广泛实验评估了19种主流MLLMs，揭示了当前MLLMs在金融应用中的优势和不足。

背景与挑战

背景概述

近年来，多模态基准测试在通用领域的发展推动了多模态模型在各类任务中的快速进步。然而，金融领域具有其独特的图形图像（如蜡烛图、技术指标图）和丰富的专业金融知识（如期货、换手率），使得通用领域的基准测试难以准确衡量多模态模型在金融领域的表现，从而无法有效指导大型金融模型的发展。为促进大型金融多模态模型的发展，我们提出了MME-Finance，这是一个面向实际应用的双语开放式视觉问答（VQA）基准测试。该基准测试的特点是金融和专业性，包括构建反映用户实际需求的图表（如计算机截图和手机摄影），根据金融领域的查询偏好创建问题，并由具有10年以上金融行业经验的专家进行标注。此外，我们还开发了一个定制设计的金融评估系统，其中在多模态评估过程中首次引入了视觉信息。我们对19个主流多模态大语言模型（MLLMs）进行了广泛的实验评估，测试了它们的感知、推理和认知能力。结果表明，在通用基准测试中表现良好的模型在MME-Finance上的表现不佳，例如，表现最好的开源和闭源模型分别获得了65.69%（Qwen2VL-72B）和63.18%（GPT-4o）的准确率。它们在金融相关类别（如蜡烛图和技术指标图）中的表现尤为糟糕。此外，我们还提出了一个中文版本，以帮助比较MLLMs在中文环境下的性能。因此，我们希望开源我们的基准测试，以促进金融领域多模态模型的发展。

当前挑战

MME-Finance数据集面临的挑战主要集中在以下几个方面：首先，金融图表中充满了专业术语，如“看涨”、“看跌”、“支撑位”和“阻力位”，这些术语可能难以理解。其次，金融图表通常包含大量数据和信息，如蜡烛图上的开盘价、收盘价、最高价和最低价，以及各种技术指标和振荡器，这增加了模型理解和处理的复杂性。第三，金融领域存在多种类型的图表，如线图、条形图和蜡烛图，每种图表都有其特定的使用场景和解释方法。最后，金融图表可能包含大量数据点，使得识别趋势和模式变得更加困难。因此，全面而专业地评估MLLMs的金融能力是一个巨大的挑战。现有的基准测试如FINANCEBENCH和CFBenchmark主要评估大语言模型（LLMs），而非多模态大语言模型（MLLMs）。此外，构建MME-Finance过程中遇到的挑战包括如何准确捕捉金融图表中的细微差别，以及如何确保标注的准确性和专业性。

常用场景

经典使用场景

MME-Finance数据集的经典使用场景主要集中在金融领域的多模态理解和推理任务上。该数据集通过包含多种金融图表（如蜡烛图、技术指标图）和实际用户使用场景的截图，设计了一系列开放式问答任务。这些任务从基本的视觉感知（如光学字符识别）到复杂的认知任务（如提供投资建议），全面评估了多模态大语言模型（MLLMs）在金融领域的感知、推理和认知能力。

解决学术问题

MME-Finance数据集解决了当前多模态大语言模型在金融领域应用中的关键学术问题。首先，它填补了金融领域多模态基准的空白，提供了专业的金融知识和图表理解任务。其次，通过引入视觉信息和专家标注，该数据集能够更准确地评估模型在复杂金融场景中的表现，推动了多模态模型在金融领域的研究和应用。

衍生相关工作

MME-Finance数据集的发布催生了一系列相关研究工作。首先，它激发了对多模态模型在金融领域应用的深入研究，推动了新的模型架构和训练方法的发展。其次，该数据集的评估方法和标注流程为其他领域的多模态基准设计提供了参考。此外，基于MME-Finance的研究成果，还可能衍生出更多针对特定金融任务的优化模型和应用系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集