five

MME-Finance|金融分析数据集|多模态学习数据集

收藏
arXiv2024-11-06 更新2024-11-07 收录
金融分析
多模态学习
下载链接:
https://hithink-research.github.io/MME-Finance
下载链接
链接失效反馈
资源简介:
MME-Finance是由海思研究团队创建的一个双语多模态金融基准数据集,旨在评估多模态大语言模型(MLLMs)在金融领域的理解和推理能力。数据集包含2274个问题,涵盖了从简单的视觉感知任务到复杂的认知任务,如投资建议和风险预警。数据集的创建过程包括从主流金融平台收集图像,并通过专家团队进行详细验证和标注。MME-Finance的应用领域主要集中在金融分析和投资决策支持,旨在解决现有模型在处理金融图像和专业知识时的不足。
提供机构:
海思研究
创建时间:
2024-11-06
原始信息汇总

MME-Finance 数据集概述

数据集简介

MME-Finance 是一个面向金融领域的多模态基准测试数据集,旨在评估和推动大型金融多模态模型的发展。该数据集专注于金融领域的视觉问答(VQA)任务,包含多种类型的金融图表和专业问题,由金融行业专家进行标注和审核。

主要特点

  • 领域专业性:数据集包含金融领域特有的图表(如蜡烛图、技术指标图)和专业知识(如期货、换手率)。
  • 实际应用导向:图表包括电脑截图、手机拍摄等多种形式,模拟真实应用场景。
  • 专家标注:问题和答案由具有10年以上金融行业经验的专家进行审核和标注。

数据收集与生成

  • 数据收集:通过电脑截图、手机拍摄和手机应用截图等方式收集金融图表,分为蜡烛图、技术指标图、统计图、表格、文档和混合图六种类型。
  • 问题生成:使用GPT-4o生成问题和答案,并由专家进行审核,确保数据集的质量。

评估方法

  • 评估流程:设计了针对金融特性的评估流程,包括推理阶段的提示设计、模型输出的标准化评估,以及基于LLM的评分系统。
  • 评分系统:评分系统分为六个等级,从0(完全错误)到5(完全正确),总分为所有样本的平均分。

数据集统计

  • 样本数量:包含1,171个图像-问题-答案对,涵盖11个不同任务,分为3个能力等级。
  • 图表类型分布:统计图表占主要比例,混合图表最少。
  • 图像风格分布:电脑截图和手机拍摄各占约47.3%和40.5%,垂直和水平手机截图样本数量相近。

实验结果

  • 模型表现:在MME-Finance上,主流多模态语言模型(MLLMs)的表现差异显著,许多模型准确率较低,表明该基准测试的挑战性。
  • 最佳模型:开源模型Qwen2VL-72B和闭源模型GPT-4o分别获得65.69和63.18的最高分,但在与金融最相关的图表类型(如蜡烛图和技术指标图)上表现较差。

相关链接

AI搜集汇总
数据集介绍
main_image_url
构建方式
MME-Finance数据集的构建基于广泛的真实金融应用场景研究,选择了6种常见的金融图表类型,包括蜡烛图、技术指标图、统计图、表格、文档和混合图。基于这些图像和金融场景中的实际用户需求,设计了一系列开放式问答任务,涵盖从光学字符识别(OCR)任务到复杂认知任务,如提供投资建议。为确保数据集质量,设计了详细的标注流程,并邀请具有10年以上金融行业经验的专家进行答案的详细验证。
特点
MME-Finance数据集的特点在于其金融专业性和实用性,包括反映用户实际需求的设计图表(如电脑截图和手机摄影),根据金融领域查询偏好创建问题,以及由金融行业专家进行标注。此外,开发了自定义的金融评估系统,在多模态评估过程中首次引入视觉信息。
使用方法
MME-Finance数据集适用于评估多模态大语言模型(MLLMs)在金融领域的感知、推理和认知能力。通过设计适当的提示和探索结合图像信息的评估方法,提出了一种新颖的评估策略,该策略与人类评估具有高度一致性。广泛实验评估了19种主流MLLMs,揭示了当前MLLMs在金融应用中的优势和不足。
背景与挑战
背景概述
近年来,多模态基准测试在通用领域的发展推动了多模态模型在各类任务中的快速进步。然而,金融领域具有其独特的图形图像(如蜡烛图、技术指标图)和丰富的专业金融知识(如期货、换手率),使得通用领域的基准测试难以准确衡量多模态模型在金融领域的表现,从而无法有效指导大型金融模型的发展。为促进大型金融多模态模型的发展,我们提出了MME-Finance,这是一个面向实际应用的双语开放式视觉问答(VQA)基准测试。该基准测试的特点是金融和专业性,包括构建反映用户实际需求的图表(如计算机截图和手机摄影),根据金融领域的查询偏好创建问题,并由具有10年以上金融行业经验的专家进行标注。此外,我们还开发了一个定制设计的金融评估系统,其中在多模态评估过程中首次引入了视觉信息。我们对19个主流多模态大语言模型(MLLMs)进行了广泛的实验评估,测试了它们的感知、推理和认知能力。结果表明,在通用基准测试中表现良好的模型在MME-Finance上的表现不佳,例如,表现最好的开源和闭源模型分别获得了65.69%(Qwen2VL-72B)和63.18%(GPT-4o)的准确率。它们在金融相关类别(如蜡烛图和技术指标图)中的表现尤为糟糕。此外,我们还提出了一个中文版本,以帮助比较MLLMs在中文环境下的性能。因此,我们希望开源我们的基准测试,以促进金融领域多模态模型的发展。
当前挑战
MME-Finance数据集面临的挑战主要集中在以下几个方面:首先,金融图表中充满了专业术语,如“看涨”、“看跌”、“支撑位”和“阻力位”,这些术语可能难以理解。其次,金融图表通常包含大量数据和信息,如蜡烛图上的开盘价、收盘价、最高价和最低价,以及各种技术指标和振荡器,这增加了模型理解和处理的复杂性。第三,金融领域存在多种类型的图表,如线图、条形图和蜡烛图,每种图表都有其特定的使用场景和解释方法。最后,金融图表可能包含大量数据点,使得识别趋势和模式变得更加困难。因此,全面而专业地评估MLLMs的金融能力是一个巨大的挑战。现有的基准测试如FINANCEBENCH和CFBenchmark主要评估大语言模型(LLMs),而非多模态大语言模型(MLLMs)。此外,构建MME-Finance过程中遇到的挑战包括如何准确捕捉金融图表中的细微差别,以及如何确保标注的准确性和专业性。
常用场景
经典使用场景
MME-Finance数据集的经典使用场景主要集中在金融领域的多模态理解和推理任务上。该数据集通过包含多种金融图表(如蜡烛图、技术指标图)和实际用户使用场景的截图,设计了一系列开放式问答任务。这些任务从基本的视觉感知(如光学字符识别)到复杂的认知任务(如提供投资建议),全面评估了多模态大语言模型(MLLMs)在金融领域的感知、推理和认知能力。
解决学术问题
MME-Finance数据集解决了当前多模态大语言模型在金融领域应用中的关键学术问题。首先,它填补了金融领域多模态基准的空白,提供了专业的金融知识和图表理解任务。其次,通过引入视觉信息和专家标注,该数据集能够更准确地评估模型在复杂金融场景中的表现,推动了多模态模型在金融领域的研究和应用。
衍生相关工作
MME-Finance数据集的发布催生了一系列相关研究工作。首先,它激发了对多模态模型在金融领域应用的深入研究,推动了新的模型架构和训练方法的发展。其次,该数据集的评估方法和标注流程为其他领域的多模态基准设计提供了参考。此外,基于MME-Finance的研究成果,还可能衍生出更多针对特定金融任务的优化模型和应用系统。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Awesome JSON Datasets

一个精选的无需认证的JSON数据集列表。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录