ChartM60k

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/RuiyangLiang/ChartM60k

下载链接

链接失效反馈

官方服务：

资源简介：

ChartM60k 是一个用于评估多模态大语言模型（MLLMs）在图表理解任务中表现的数据集。该数据集从 MegaCQA 中提取了 60,000 个样本，覆盖了 21 种图表类型（如折线图、散点图、桑基图等）和 11 种任务分类（包括视觉理解、数值分析和逻辑推理等）。数据集旨在支持高层次开放式任务，如空间识别、多步推理和布局优化。评估指标包括关键词准确率（KAcc）、数值准确率（NAcc）、推理时间（time）、推理标记（token）和推理漂移（drift）。此外，数据集还配备了交互式视觉分析系统 ChartMLens，用于动态探索推理模式和多代理诊断框架。该数据集适用于图表问答（ChartQA）基准测试和 MLLMs 的推理诊断。

创建时间：

2026-02-03

搜集汇总

数据集介绍

构建方式

在结构化视觉推理领域，现有评估体系往往受限于图表类型的单一性，且缺乏对推理链的透明化分析。ChartM60k数据集的构建旨在填补这一空白，其核心方法是从MegaCQA数据源中精心筛选出六万个样本，形成一个覆盖二十一种图表类别的评估语料库。这些图表类型包括折线图、散点图、桑基图和平行坐标图等，确保了数据在视觉形式上的广泛代表性。构建过程不仅注重数据规模，更强调任务分类的体系化，将样本划分为视觉理解、数值分析与逻辑推理三大类，共计十一种具体任务，从而为多模态大语言模型提供多层次、多维度的评估基准。

特点

该数据集最显著的特征在于其全面的覆盖范围与精细的任务设计。它囊括了二十一种图表类型，超越了传统评估中常见的有限类别，为模型在多样化视觉结构上的理解能力提供了检验平台。任务分类体系涵盖了从基础的空间识别、视觉元素比较到复杂的多步推理与布局优化等高阶认知活动，这种分层设计使得评估能够深入揭示模型在不同认知层级上的表现差异。此外，数据集配套提出了交互式视觉分析方法与多智能体诊断框架，支持对模型推理模式进行动态探索，并对推理失败案例进行自动化归因，实现了从结果评估到过程诊断的深化。

使用方法

使用ChartM60k数据集进行评估时，研究者需遵循其设定的评估流程与指标体系。评估通常基于特定的提示模板来收集模型的推理轨迹，随后从多个维度对模型输出进行量化分析。关键评估指标包括用于验证核心答案关键词匹配的关键词准确率、考虑数值容差的数值准确率、衡量响应生成效率的推理时间、量化思维过程扩展的推理令牌数，以及基于Sentence-BERT衡量推理偏差的推理漂移度。通过这些综合指标，研究者可以系统性地评估多模态大语言模型在图表问答任务上的性能、效率与推理可靠性，并利用其交互式分析系统对结果进行深入的可视化诊断与归因分析。

背景与挑战

背景概述

在视觉语言多模态大模型（MLLM）快速发展的背景下，对结构化视觉推理能力的评估成为关键研究课题。ChartM60k数据集于2026年由相关研究人员构建，旨在填补现有评估基准在图表类型覆盖和推理过程“白盒”分析方面的空白。该数据集从MegaCQA中提取了六万个样本，涵盖了折线图、散点图、桑基图等二十一种图表类型，并设计了空间识别、多步推理、布局优化等十一类高级开放式任务。通过引入交互式视觉分析方法和多智能体诊断框架，ChartM60k为深入理解MLLM在图表问答中的推理模式与失败归因提供了系统化工具，推动了视觉语言模型在复杂信息可视化场景下的评估与研究进展。

当前挑战

ChartM60k数据集致力于解决图表视觉问答这一领域问题，其核心挑战在于如何对MLLM的复杂推理链进行透明化诊断与评估。现有方法往往局限于有限的图表类型，且缺乏对模型内部推理过程的细致分析。在数据集构建过程中，挑战主要体现为需要从海量数据中筛选并标注涵盖二十一种图表类型的多样化样本，同时设计能够有效触发多步推理、数值解码等高级认知能力的任务。此外，建立一套兼顾关键词匹配、数值精度、推理时间、思维令牌数量及推理漂移的多维度评估指标体系，并开发交互式分析系统以实现失败案例的自动归因，均是构建该基准过程中需要克服的技术难点。

常用场景

经典使用场景

在视觉语言模型评估领域，ChartM60k数据集为结构化视觉推理任务提供了标准化的测试平台。该数据集最经典的使用场景在于对多模态大语言模型进行图表理解能力的系统性评测，研究者通过其涵盖的21种图表类型和11类任务，能够全面考察模型在空间识别、多步推理、数值分析等复杂场景下的表现。其交互式分析框架支持对模型推理链进行白盒化诊断，成为推动图表智能研究发展的关键基础设施。

实际应用

在实际应用层面，该数据集支撑的评估框架已广泛应用于商业智能系统的开发验证。数据分析平台通过集成其评测方法，能够客观比较不同视觉语言模型在财务报表解析、商业仪表盘理解、科研图表分析等场景的实用性。教育科技领域利用其任务分类体系设计智能辅导系统，帮助学生提升图表解读能力。金融风控领域则借鉴其多步推理评估模块，优化对复杂关系图谱的自动化分析流程，提升决策支持的可靠性。

衍生相关工作

基于该数据集衍生的经典工作形成了图表理解研究的新范式。ChartMLens交互系统开创了多模态模型诊断的可视化分析方法，其提出的多智能体诊断框架被后续研究广泛借鉴。多项研究扩展了其评估体系，如ChartVLM将评估范围延伸至三维图表领域，ChartReasoner则专注于推理链的自动修正技术。这些衍生工作共同构建了从评估到改进的完整研究闭环，推动形成了以白盒分析为核心的新一代多模态评估方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集