five

VisFinEval

收藏
arXiv2025-08-13 更新2025-08-15 收录
下载链接:
https://github.com/SUFE-AIFLM-Lab/VisFinEval
下载链接
链接失效反馈
官方服务:
资源简介:
VisFinEval是一个大规模的中文多模态金融评估基准数据集,包含15848个精心标注的问题-答案对,涵盖八种常见的金融图像类型(如K线图、财务报表、公章),并组织成三个层次化的场景深度:财务知识与数据分析、财务分析与决策支持、财务风险控制与资产优化。该数据集旨在全面评估多模态大语言模型在处理和推理整个金融业务流程中的能力。

VisFinEval is a large-scale Chinese multimodal financial evaluation benchmark dataset, containing 15,848 meticulously annotated question-answer pairs. It covers eight common types of financial images (e.g., K-line charts, financial statements, official seals), and is structured into three hierarchical scenario depths: financial knowledge and data analysis, financial analysis and decision support, and financial risk control and asset optimization. This dataset aims to comprehensively evaluate the capabilities of multimodal large language models in processing and reasoning across the entire financial business workflow.
提供机构:
上海财经大学统计与数据科学学院
创建时间:
2025-08-13
原始信息汇总

VisFinEval: 中文金融知识视觉语言模型评估基准

数据集概述

  • 目标:评估多模态大语言模型(MLLMs)在真实金融业务场景中的表现
  • 规模:15,848个标注的问答对
  • 语言:中文
  • 特点
    • 覆盖8种典型金融图像模态(如K线图、财务报表等)
    • 包含3个渐进难度级别
    • 21个前沿MLLM模型的零样本测试结果

核心特性

  1. 多维度评估

    • 金融能力评估
    • 多级难度划分
    • 场景深度模拟
    • 真实环境模拟
  2. 场景分类

    • 前台:金融知识与数据分析(7个子场景)
    • 中台:金融分析与业务决策(4个子场景)
    • 后台:金融风控与资产优化(4个子场景)
  3. 问题类型

    • 多选题
    • 判断题
    • 开放式问题

数据统计

场景分类 子场景数量 问题数量
金融知识与数据分析 7 8,700
金融分析与业务决策 4 4,650
金融风控与资产优化 4 2,498
总计 15 15,848

模型表现

  • 最佳模型:Qwen-VL-max(准确率76.3%)
  • 表现对比
    • 超越非专业人类表现
    • 落后金融专家14个百分点以上

使用说明

  1. 数据结构

    VisFinEval/ ├── data/ # 原始数据 ├── logs/ # 运行日志 ├── output/ # 模型输出 └── scripts/ # 执行脚本

  2. 获取方式

    • 数据集下载地址:https://drive.google.com/file/d/15DdloCn2GWRvyO-kieTJMiE2sMIfW4vF/view?usp=drive_link
  3. 评估流程

    • 安装依赖:pip install -r requirements.txt
    • 运行评估:bash run_model.sh
搜集汇总
数据集介绍
main_image_url
构建方式
VisFinEval数据集的构建采用了多阶段严格流程,首先从金融研究报告、年报及专业考试材料中收集八类金融图像(如K线图、财务报表、公章等),通过Qwen-VL-Plus模型生成初始问答对。随后采用三重质量校验机制:基于多维指标的自动化筛选、金融专业学生的细粒度标注,以及十年经验金融专家的循环验证,确保问答对的准确性、领域相关性和逻辑一致性。数据最终按金融业务全生命周期划分为前中后台三层场景,涵盖15,848个标注样本。
特点
该数据集具有三大核心特征:一是全面覆盖金融业务全流程,包含前台的金融数据感知、中台的分析决策及后台的战略优化等15个子场景;二是多模态深度整合,融合图表、文本、印章等八类金融视觉模态与复杂文本推理;三是真实业务对齐,通过模拟文档扰动、多轮对话等环境扰动,还原实际金融场景中的信息噪声和决策复杂性,为模型提供贴近实战的评估环境。
使用方法
使用VisFinEval需遵循零样本评估框架,输入多模态金融问题后记录模型输出。评估时需注意:1)采用Qwen-max作为评判模型,通过规则提取与人工复核结合的方式验证答案准确性;2)区分三类场景难度层级,分别计算模型在基础数据解读、综合分析及高阶策略优化等任务的表现;3)重点关注六大错误类型(如跨模态错位、业务流程理解偏差等)的分布,分析模型在真实金融场景中的能力边界。数据集支持单图问答、多图推理及反事实推断等多种任务模式。
背景与挑战
背景概述
VisFinEval是由上海财经大学统计与数据科学学院联合加州大学欧文分校、复旦大学、约翰霍普金斯大学等机构的研究团队于2025年推出的首个面向全流程金融业务场景的中文多模态评测基准。该数据集包含15,848个标注问答对,涵盖K线图、财务报表、公章等8种金融图像模态,并按照金融知识分析、决策支持、风险控制三个业务深度层级构建。作为金融领域首个端到端多模态评测体系,VisFinEval填补了传统文本基准在视觉金融理解评估上的空白,为21个前沿多模态大模型提供了标准化测试平台,其构建理念显著推动了金融AI在跨模态推理和业务流程建模方面的发展。
当前挑战
VisFinEval面临的核心挑战体现在领域问题与构建过程两个维度。在领域层面,需解决金融图表理解中的跨模态对齐难题,包括技术指标计算、趋势预测等任务中视觉与数值特征的联合建模,以及专业术语与视觉元素的语义鸿沟问题。构建过程中,数据收集需克服金融图像版权限制与商业敏感性,标注环节要求金融专家与AI研究者协同设计涵盖反事实推理、多轮对话等复杂题型,并建立三级质量审核机制确保标注一致性。此外,基准需平衡15个子场景的专业深度与广度,模拟真实金融文档中的信息扰动(如关键数据遮挡、冗余图表干扰等)以提升评测鲁棒性。
常用场景
经典使用场景
VisFinEval数据集作为首个面向中文金融领域的多模态基准测试工具,其经典使用场景聚焦于模拟金融机构前中后台全业务流程。在金融知识数据分析(前台)场景中,模型需解读K线图趋势、识别财务印章、提取报表关键数据;金融分析决策支持(中台)环节则要求整合多图表信息进行投资组合评估或行业景气度预测;金融风控与资产优化(后台)阶段涉及基于政策文本和风险指标的战略调整推演,全面检验模型对复杂金融业务链的跨模态推理能力。
解决学术问题
该数据集系统性地解决了金融多模态研究中三大核心问题:一是填补了中文金融图文联合理解评估体系的空白,通过15,848道涵盖8类金融图像的QA对,突破了传统文本基准的局限性;二是设计了分层渐进式任务框架,从前台数据感知到后台策略优化,首次实现了对金融业务全流程的模型能力映射;三是揭示了MLLMs在专业领域的六大典型缺陷(如跨模态错位、业务流程断层等),为提升金融领域AI的鲁棒性提供了明确研究方向。
衍生相关工作
该数据集催生了多个里程碑式研究:Qwen-VL系列模型通过在该基准上的迭代优化,在金融图文理解任务中达到76.3%准确率;基于其构建的FinAgent系统实现了从数据解析到投资决策的端到端自动化;提出的环境扰动模拟方法被MME-Finance等后续基准广泛采纳。相关技术已衍生至保险精算文档分析、跨境贸易单证识别等垂直领域,推动形成了金融多模态技术的标准化评估范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作