Effective Chart Dataset (ECD)
收藏arXiv2025-08-09 更新2025-08-12 收录
下载链接:
https://huggingface.co/datasets/ChartFoundation/ECD-10k-Images
下载链接
链接失效反馈官方服务:
资源简介:
ECD 是一个高质量的图表数据集,旨在提高 MLLM 的图表理解能力。它由超过 10,000 张图表图像和 300,000 多个 QA 对组成,涵盖 29 种图表类型和超过 250 种不同的图表类型组合。ECD 的数据合成流程包括五个关键步骤:单个图表生成、组合子图生成、图表图像多样化、低质量图表过滤以及 QA 对的合成和过滤。ECD 在各种真实世界和合成测试集上始终如一地提高了各种 MLLM 的性能。
ECD is a high-quality chart dataset designed to enhance the chart understanding capabilities of MLLMs. It consists of over 10,000 chart images and more than 300,000 QA pairs, covering 29 chart types and over 250 distinct chart type combinations. The data synthesis pipeline of ECD includes five core steps: single chart generation, composite subgraph generation, chart image diversification, low-quality chart filtering, and QA pair synthesis and filtering. ECD consistently improves the performance of various MLLMs across both real-world and synthetic test sets.
提供机构:
澳大利亚国立大学、俄亥俄州立大学、思科、约翰霍普金斯大学
创建时间:
2025-08-09
原始信息汇总
ECD-10k-Images 数据集概述
基本信息
- 许可证: MIT
- 标注创建者: GPT-4o-generated
- 语言: 英文 (en)
- 多语言性: 单语 (monolingual)
- 数据集名称: ECD-10k-Images
- 规模分类: 10K<n<100K
- 任务类别: 视觉问答 (visual-question-answering)
- 任务ID: 视觉问答 (visual-question-answering)
- 标签: Chart VQA, Chart Understanding, Chart Synthetic Data
数据集描述
ECD-10k-Images 是一个高质量的多模态数据集,旨在提升多模态大型语言模型 (MLLMs) 的图表理解能力。该数据集包含:
- 合成图表图像: 超过 10,000 张
- 问答对: 321,544 个(包括描述性和推理性)
- 覆盖范围: 29 种图表类型、25 个主题、252 种独特图表组合
数据集结构
📦ECD-10k-Images/ ├── ECD_QAs_All.json # 问答数据 ├── README.md ├── codes.tar # 渲染图表图像的对应 Python 代码 ├── images.tar # 合成图表图像 └── meta_information_all.json # ECD 的元信息
数据集统计
引用
如果使用 ECD-10k-Images,请引用以下论文:
@inproceedings{yang2025effective, title = {Effective Training Data Synthesis for Improving MLLM Chart Understanding}, author = {Yang, Yuwei and Zhang, Zeyu and Hou, Yunzhong and Li, Zhuowan and Liu, Gaowen and Payani, Ali and Ting, Yuan-Sen and Zheng, Liang}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year = {2025} }
搜集汇总
数据集介绍

构建方式
Effective Chart Dataset (ECD) 的构建采用了五步数据合成流程,包括分离数据与功能创建、条件化多子图生成、视觉多样化、质量过滤以及基于GPT-4o的问答对生成。该流程通过模块化图表生成和多样化视觉细节,显著提升了图表理解的复杂性和真实性。具体而言,首先生成单个图表的数据和功能,随后基于先前子图条件生成多子图布局,并通过添加注释、区域阴影等视觉元素增强多样性。最后,通过视觉清晰度和语义连贯性评分过滤低质量图表,并生成高质量的问答对。
使用方法
ECD数据集主要用于训练和评估多模态大语言模型(MLLMs)的图表理解能力。用户可以通过微调现有模型(如LLaVA-Next-Llama3-8B、MiniCPM-V2.6等)来提升其在描述性和推理性任务上的表现。数据集的使用包括加载图表图像和对应的问答对,通过监督微调(SFT)或参数高效微调(如LoRA)进行模型训练。此外,ECD还可用于构建测试集(如ECDBench),以评估模型在复杂图表任务上的泛化能力。
背景与挑战
背景概述
Effective Chart Dataset (ECD) 是由澳大利亚国立大学、俄亥俄州立大学、约翰霍普金斯大学等机构的研究团队于2025年提出的一个多模态图表理解数据集。该数据集旨在通过程序化合成方法生成高质量的图表图像和问答对,以提升多模态大语言模型(MLLMs)在科学图表理解任务上的性能。ECD包含超过10,000张图表图像和300,000个问答对,涵盖29种图表类型和250多种子图组合,其数据复杂度和视觉多样性显著优于现有合成数据集。该数据集的创新性体现在模块化的五阶段生成流程,包括分离式数据与函数生成、条件化子图生成、视觉多样化增强、质量过滤和问答对合成。ECD的提出为科学图表理解领域提供了更接近真实场景的训练资源,并在CharXiv、ChartQA等多个基准测试中验证了其有效性。
当前挑战
ECD面临的挑战主要体现在两个方面:领域问题挑战方面,现有MLLMs在复杂科学图表理解任务上的成功率仅为30%-50%,主要受限于合成数据与真实图表之间的差异性。具体表现为:1) 多子图关联推理能力不足,难以处理包含多个关联子图的复合图表;2) 高层次语义理解缺陷,在需要数学推导和逻辑分析的推理问题上表现不佳。构建过程挑战方面:1) 视觉-语义对齐难题,需平衡程序化生成的精确性与视觉真实性;2) 问答对复杂性控制,既要保证描述性问题的覆盖面,又要设计具有渐进推理深度的问答对;3) 多模态数据质量控制,需建立有效的过滤机制确保图像清晰度和语义连贯性。这些挑战通过模块化生成流程和GPT-4o辅助的质量评估得到了系统性解决。
常用场景
经典使用场景
Effective Chart Dataset (ECD) 在科学图表理解领域具有广泛的应用场景,尤其在多模态大语言模型(MLLMs)的微调中表现卓越。该数据集通过程序化生成的图表和多样化的问题-答案对,为模型提供了丰富的训练数据,使其能够准确识别图表中的基本元素(如标题、轴标签)并进行复杂的数据推理(如趋势分析、数值比较)。其模块化的数据合成流程确保了图表风格的多样性和真实性,使其成为提升模型在真实科学图表上表现的关键工具。
解决学术问题
ECD 解决了现有合成图表数据集在视觉复杂性和真实性方面的不足。通过分离数据和功能生成、条件化子图生成以及视觉多样化等策略,ECD 显著提高了合成图表与真实科学图表的相似性。该数据集有效缓解了开源 MLLMs 在图表理解任务上表现不佳的问题(如 CharXiv 基准测试中仅 30%-50% 的成功率),并通过覆盖 29 种图表类型和 250 多种子图组合,为模型提供了更全面的训练场景,从而提升了其在描述性问题和推理问题上的综合表现。
实际应用
ECD 的实际应用场景涵盖科学研究、数据分析和商业智能等多个领域。在学术研究中,该数据集训练的模型能够自动解析论文中的复杂图表,提取关键信息并生成描述性报告;在金融领域,模型可快速分析股价趋势图或财务数据可视化,辅助投资决策;医疗领域则可通过模型解读医学统计图表,提升诊断效率。其高质量的多模态数据尤其适合需要同时处理视觉和语言信息的场景,如自动化报告生成和交互式数据探索系统。
数据集最近研究
最新研究方向
在科学图表理解领域,Effective Chart Dataset (ECD)的最新研究方向聚焦于通过模块化和多样化的数据合成方法提升多模态大语言模型(MLLMs)的图表理解能力。该数据集通过分离数据与功能创建、条件化子图生成、视觉细节多样化等五个步骤的合成流程,显著提升了合成图表与真实科学图表的相似性。前沿研究显示,ECD在25个主题、29种图表类型和252种组合类型上展现出卓越的数据复杂性和真实性,其FID分数和平均像素熵指标均优于现有合成数据集。该数据集通过微调开源MLLMs,在CharXiv、ChartQA等真实世界测试集上实现了性能的全面提升,尤其在多子图推理和复杂数据分析任务中表现突出。当前研究热点包括探索更高效的视觉编码器以优化图表特征提取,以及扩展数据规模对模型泛化能力的影响。ECD的推出为科学图表理解领域提供了高质量的基准训练资源,推动了合成数据在复杂视觉语言任务中的应用边界。
相关研究论文
- 1Effective Training Data Synthesis for Improving MLLM Chart Understanding澳大利亚国立大学、俄亥俄州立大学、思科、约翰霍普金斯大学 · 2025年
以上内容由遇见数据集搜集并总结生成



