FinChart-Bench

Name: FinChart-Bench
Creator: 西北大学, NewsBreak, 新泽西理工学院, 乔治亚理工学院
Published: 2025-07-20 13:00:42
License: 暂无描述

arXiv2025-07-20 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/Tizzzzy/FinChart-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FinChart-Bench是一个专注于现实世界金融图表的大型视觉语言模型理解基准数据集。该数据集包含从2015年到2024年收集的1200个金融图表图像，每个图像都标注了True/False、Multiple Choice和Question Answering三种类型的问题，共计7016个问题。FinChart-Bench旨在解决当前大型视觉语言模型在金融图表理解任务中的能力不足问题。数据集的创建经历了两个阶段的严格人工评估，以确保数据的质量和准确性。FinChart-Bench的数据集适用于评估和改进大型视觉语言模型在金融图表理解任务中的性能。

FinChart-Bench is a large-scale visual-language model understanding benchmark dataset focused on real-world financial charts. It contains 1,200 financial chart images collected from 2015 to 2024, with each image annotated with three types of questions: True/False, Multiple Choice, and Question Answering, totaling 7,016 questions. FinChart-Bench aims to address the insufficient capabilities of current large-scale visual-language models in financial chart understanding tasks. The dataset was created through two stages of rigorous manual evaluation to ensure its quality and accuracy. The FinChart-Bench dataset is suitable for evaluating and improving the performance of large-scale visual-language models on financial chart understanding tasks.

提供机构：

西北大学, NewsBreak, 新泽西理工学院, 乔治亚理工学院

创建时间：

2025-07-20

原始信息汇总

FinChart-Bench 数据集概述

数据集基本信息

任务类别: 图像文本到文本 (image-text-to-text)
标签: 金融 (financial)、图表 (charts)、基准测试 (benchmark)、视觉语言模型 (vision-language-models)、问答 (question-answering)

数据集内容

数据量: 1,200 张金融图表图像
时间范围: 2015 年至 2024 年
标注类型:
- 真/假问题 (True/False, TF)
- 多项选择题 (Multiple Choice, MC)
- 问答题 (Question Answering, QA)
问题总数: 7,016 个

相关资源

论文: FinChart-Bench: Benchmarking Financial Chart Comprehension in Vision-Language Models
GitHub 仓库: FinChart-Bench GitHub Repository

搜集汇总

数据集介绍

构建方式

FinChart-Bench数据集通过严谨的五阶段流程构建而成，涵盖了2015年至2024年的真实金融图表。首先，从企业演示幻灯片中收集数据源，随后利用Qwen2.5VL模型自动提取图表图像。经过严格的人工筛选，确保图表完整、清晰且相关。最终，通过GPT-4.1生成问题-答案对，并经过两轮人工验证，确保数据的高质量和准确性。

特点

FinChart-Bench数据集包含1,200张金融图表图像，每张图表标注了真/假、多项选择和问答三类问题，总计7,016个问题。其独特之处在于所有问题的答案均为单一标记，便于评估。此外，数据集专注于金融领域，涵盖了14种图表类型，为评估视觉语言模型在金融图表理解中的表现提供了全面且具有挑战性的基准。

使用方法

FinChart-Bench数据集适用于评估视觉语言模型在金融图表理解任务中的表现。使用时，用户可通过输入图表图像和相应的问题，测试模型在真/假判断、多项选择和问答任务中的表现。由于所有答案均为单一标记，评估过程简单且无歧义。此外，数据集还可用于研究模型在金融领域的空间推理能力和复杂计算能力。

背景与挑战

背景概述

FinChart-Bench是由西北大学、NewsBreak、新泽西理工学院和乔治亚理工学院的研究团队于2025年推出的首个专注于金融图表理解的基准数据集。该数据集包含2015年至2024年间收集的1,200张真实金融图表图像，每张图表均标注有真/假问题、多项选择题和问答问题，共计7,016个问题。FinChart-Bench旨在评估大型视觉语言模型（LVLMs）在金融图表理解任务中的表现，填补了金融领域专用基准数据集的空白。该数据集的推出为金融图表理解领域的研究提供了重要的评估工具，推动了多模态模型在金融领域的应用。

当前挑战

FinChart-Bench面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，金融图表具有复杂的时间结构和领域特定术语，这使得模型在理解和推理金融图表时面临巨大挑战。在构建过程中，研究人员需要克服数据质量控制的难题，包括确保图表图像的完整性、清晰度和相关性，以及验证问题-答案对的准确性和清晰度。此外，设计无歧义、单标记的答案格式也是一项重要挑战，以确保评估的可靠性和可重复性。

常用场景

经典使用场景

FinChart-Bench作为首个专注于金融图表理解的基准数据集，其经典使用场景主要围绕多模态大语言模型（LVLMs）在金融图表解析任务中的性能评估。该数据集通过1,200张真实金融图表和7,016道结构化问题（包括判断题、选择题和推理问答题），系统测试模型对复杂时间序列模式、专业术语和空间关系的理解能力。在金融科技领域，研究人员利用该数据集验证模型对股价趋势图、财务比率分布图等专业图表的跨模态推理精度，尤其关注模型在提取轴标签数值关联、识别异常波动点等核心任务的表现。

解决学术问题

FinChart-Bench有效解决了金融图表理解领域长期存在的三大问题：其一，填补了现有基准在金融垂直领域的空白，通过严格人工标注的双轮验证机制，克服了合成数据与真实场景的语义鸿沟；其二，设计了单标记无歧义答案范式，消除了传统评估中因答案格式差异（如'140M'与'140000000'）导致的度量偏差，使Exact Match指标具备可比性；其三，揭示了LVLMs在空间推理能力上的共性缺陷，如模型对无直接数值标注的柱状图/折线图理解准确率显著低于带数值标注变体，为后续研究指明了改进方向。

衍生相关工作

该数据集已催生多个标志性研究：Qwen2.5-VL团队通过领域自适应训练将金融图表理解准确率提升至72.16%；Mistral 3.1提出的空间注意力增强架构显著改善了轴对齐任务的性能；ChartGemma系列工作则探索了金融术语与视觉特征的联合嵌入方法。这些衍生研究共同推动了《IEEE Transactions on Financial Informatics》2025年专刊'Multimodal Finance'的形成，确立了金融图表理解作为独立研究方向的学术地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集