Mega60k

Hugging Face2025-09-13 更新2025-09-14 收录

下载链接：

https://huggingface.co/datasets/guodaosun/Mega60k

下载链接

链接失效反馈

官方服务：

资源简介：

Mega60k是一个多模态图表问题回答数据集，包含多种格式的图表（CSV、PNG、SVG），并对PNG图像进行退化处理，包括省略、遮挡、模糊和旋转，以增强鲁棒性评估。数据集包含多种图表类型，如面积图、条形图、盒形图等，共计4200个图表。问题类型包括图表类型识别、视觉元素计数、空间关系感知、视觉模式识别、数值提取、极值判断、统计计算、数值过滤、数值比较和多步推理等。

Mega60k is a multimodal chart question answering dataset. It includes charts in multiple formats such as CSV, PNG and SVG, and applies degradation treatments including omission, occlusion, blurring and rotation to PNG images to enhance robustness evaluation. The dataset covers various chart types like area charts, bar charts, box plots and so on, with a total of 4200 charts. The question types involve chart type recognition, visual element counting, spatial relationship perception, visual pattern recognition, numerical extraction, extremum judgment, statistical calculation, numerical filtering, numerical comparison and multi-step reasoning, etc.

创建时间：

2025-09-12

原始信息汇总

Mega60k: 图表问答数据集

数据集概述

一个多模态图表问答数据集，包含多种格式的图表（CSV、PNG、SVG）以及经过降质的PNG图像（包含组件省略、遮挡、模糊和旋转），用于增强鲁棒性评估。

语言：英语

规模

规模类别：1M<n<10M
任务类别：问答

图表类型分布

包含20种图表类型，每种类型200个样本，总计4,200个图表。

图表类型	数量	图表类型	数量	图表类型	数量
面积图	200	条形图	200	箱线图	200
气泡图	200	弦图	200	填充气泡图	200
漏斗图	200	热力图	200	折线图	200
节点链接图	200	平行坐标图	200	饼图	200
雷达图	200	山脊线图	200	桑基图	200
散点图	200	堆叠条形图	200	流图	200
旭日图	200	树状图	200	小提琴图	200

问题类型分布

包含11种问题类型，涵盖图表识别、视觉元素计数、空间关系感知、视觉模式识别、数值提取、极值判断、统计计算、数值过滤、数值比较、多步推理和视觉分析。

问题类型	示例
图表类型识别（CTR）	"What type of chart is this?"
视觉元素计数（VEC）	"How many lines are there in this line chart?"
空间关系感知（SRP）	"On plant 1, what is the spatial relationship of the data point in 2016 relative to that in 2015..."
视觉模式识别（VPR）	"What is the trend of Chinas oil storage levels?"
数值提取（VE）	"What is Chinas oil storage in 2025?"
极值判断（EVJ）	"What is the global maximum oil storage in the line chart?"
统计计算（SC）	"What is the average value of Chinas oil storage?"
数值过滤（NF）	"In the year 2000, which countries had oil storage exceed 300 million barrels?"
数值比较（NC）	"Between 2022 and 2025, which country experienced a larger change in oil storage..."
多步推理（MSR）	"Which label shows the fastest average growth rate between 2015 and 2020?"
视觉分析（VA）	"Perform the Douglas-Peucker algorithm to simplify the line representing the China..."

文件组织

数据集按图表类型组织，每种类型包含csv、png、svg格式的图表文件和对应的问答json文件。

dataset/ ├── area/ │ ├── csv/ │ ├── png/ │ ├── svg/ │ └── qa/ ├── bar/ │ ├── csv/ │ ├── png/ │ ├── svg/ │ └── qa/ └── ... (其他图表类型)

引用信息

bibtex @dataset{ChartMind2025li, title={ChartMind: Benchmark and Reasoning Insights of Multimodal Chart Question Answering}, author={Tong Li, Guodao Sun, Shunkai Wang, Zuoyu Tang, Yang Shu, Xueqian Zheng, Haixia Wang, Ronghua Liang}, year={2025}, url={https://huggingface.co/datasets/guodaosun/Mega60k} }

联系方式

作者：Tong Li (李童)
邮箱：litong@zjut.edu.cn
项目页面：https://tongli97.github.io/

搜集汇总

数据集介绍

构建方式

在图表问答研究领域，Mega60k数据集通过系统化构建方法实现了多模态数据的整合。该数据集涵盖21种图表类型，每种类型包含200个样本，总计4200张图表。原始数据以CSV格式存储统计信息，并转换为PNG和SVG两种视觉格式。为增强模型鲁棒性，专门生成了包含组件缺失、遮挡、模糊和旋转等退化效果的PNG图像。每个图表配套的问答对通过结构化模板生成，确保问题类型覆盖十大认知维度。

特点

该数据集的核心特征体现在多模态架构与认知层级的深度融合。图表数据同时提供结构化CSV、矢量SVG和位图PNG三种表征形式，支持不同模态的算法处理。问题设计遵循认知科学理论，从简单的图表类型识别到复杂的多步推理，构建了完整的认知难度谱系。特别引入的退化图像集成为评估模型鲁棒性的重要基准，而均衡的图表类型分布则保证了评估的全面性和公正性。

使用方法

研究者可通过HuggingFace平台直接加载数据集进行模型训练与评估。数据集按图表类型分层组织，每个子目录包含csv、png、svg三种数据格式及对应的qa问答文件。使用时应根据模型架构选择适配的模态组合：视觉模型可重点处理PNG/SVG图像，多模态模型可融合结构化数据与视觉信息。评估时建议分别测试正常图像与退化图像上的性能，以全面衡量模型的实际应用能力。问答对中的答案字段为标准评估提供可靠依据。

背景与挑战

背景概述

图表问答作为多模态人工智能研究的重要分支，旨在推动机器对可视化数据的深度理解与推理能力。Mega60k数据集由浙江工业大学李童等人于2025年创建，涵盖21种图表类型共计4200张图表，每类图表均配备多格式数据源（CSV、PNG、SVG）及结构化问答对。该数据集通过系统化构建涵盖图表类型识别、数值提取、空间关系感知等十类核心任务，为评估模型在复杂图表场景下的多模态推理能力提供了标准化基准，显著推动了视觉-语言联合建模领域的发展。

当前挑战

图表问答领域面临的核心挑战在于模型需同时处理视觉符号解析、数值逻辑推理与自然语言生成的异构信息融合。具体而言，模型必须克服图表元素的空间关系建模、退化图像（如模糊、遮挡）的鲁棒性理解，以及多步骤数值计算（如极值判断、增长率比较）的复合推理难题。在构建层面，需协调多格式数据的一致性对齐，设计涵盖低层视觉特征与高层语义推理的多样化问题模板，并确保数值答案在跨模态表征中的精确映射。

常用场景

经典使用场景

在图表问答研究领域，Mega60k数据集凭借其多模态特性成为评估模型性能的基准工具。该数据集涵盖21种图表类型，通过CSV、PNG、SVG三种格式呈现，并引入图像退化技术模拟真实场景中的视觉干扰。研究者通常利用其丰富的问答对训练模型进行端到端测试，特别在视觉语言理解任务中，模型需要同时解析图表视觉元素和语义问题，最终生成准确答案。

衍生相关工作

该数据集催生了ChartMind基准框架的诞生，衍生出多项关于多模态图表理解的经典研究。后续工作主要集中在三大方向：基于Transformer的跨模态融合架构、针对退化图像的对抗训练方法，以及结合符号推理的混合模型设计。这些研究显著提升了图表问答任务的准确率，其中部分成果已应用于开源数据可视化工具库，形成完整的产学研应用生态。

数据集最近研究