ECD

github2025-08-13 更新2025-08-14 收录

下载链接：

https://github.com/yuweiyang-anu/ECD

下载链接

链接失效反馈

官方服务：

资源简介：

ECD数据集包含10k+图表图像和300k+问答对，覆盖25个主题和250+图表类型组合，具有高度的视觉复杂性。该数据集旨在提高多模态大语言模型（MLLM）在图表理解方面的性能。

The ECD dataset encompasses over 10k chart images and 300k+ question-answer pairs, spanning 25 topics and over 250 combinations of chart types, characterized by high visual complexity. This dataset is designed to enhance the performance of multi-modal large language models (MLLMs) in chart comprehension.

创建时间：

2025-07-31

原始信息汇总

数据集概述

基本信息

数据集名称: Effective Chart Dataset (ECD)
发布年份: 2025
相关会议: IEEE/CVF International Conference on Computer Vision (ICCV)
数据集大小: 10k+ 图表图像，300k+ 问答对 (QA pairs)
覆盖主题: 25个主题
图表类型组合: 250+种

数据集内容

图表类型: 单图和多子图图表
视觉复杂度: 高
数据生成方法: 五步数据合成流程
1. 分离数据和功能创建
2. 多子图生成条件化
3. 视觉多样化
4. 低质量数据过滤
5. 使用GPT-4o生成问答对

数据集用途

主要用途: 提升多模态大语言模型 (MLLM) 的图表理解能力
适用模型: 包括但不限于LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision、Qwen2.5-VL-7B

数据集获取

Hugging Face地址: https://huggingface.co/datasets/ChartFoundation/ECD-10k-Images
数据生成代码: 包含在GitHub仓库的data_generation_pipeline目录中

基准测试 (ECDBench)

图表数量: 1,224张
- 单图图表: 364张
- 多子图图表: 860张
  - 2种图表类型: 457张
  - 3种图表类型: 403张
平均分辨率: 1378 × 968像素
问答对数量: 2,448对 (每图1描述性+1推理性问题)

性能提升

LLaVA-Next-Llama3-8B: 平均性能从10.95提升至31.58
MiniCPM-V2.6: 平均性能从27.53提升至35.17
Phi-3-Vision: 平均性能从31.41提升至44.40
Qwen2.5-VL-7B: 平均性能从38.19提升至50.86

引用格式

bibtex @inproceedings{yang2025effective, title={Effective Training Data Synthesis for Improving MLLM Chart Understanding}, author={Yang, Yuwei and Zhang, Zeyu and Hou, Yunzhong and Li, Zhuowan and Liu, Gaowen and Payani, Ali and Ting, Yuan-Sen and Zheng, Liang}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year={2025} }

@article{yang2025effective, title={Effective Training Data Synthesis for Improving MLLM Chart Understanding}, author={Yang, Yuwei and Zhang, Zeyu and Hou, Yunzhong and Li, Zhuowan and Liu, Gaowen and Payani, Ali and Ting, Yuan-Sen and Zheng, Liang}, journal={arXiv preprint arXiv:2508.06492}, year={2025} }

许可信息

许可证类型: MIT License

搜集汇总

数据集介绍

构建方式

在科学图表理解领域，数据集的构建质量直接影响多模态大语言模型的训练效果。ECD数据集采用五步合成流程精心构建：首先将图表的数据与功能生成模块化分离，确保单图生成的独立性；随后通过条件生成技术处理多子图间的关联性；引入视觉多样性增强机制提升图表真实感；经过严格的质量筛选剔除低质样本；最终利用GPT-4o生成30万组高质量问答对。这种分层递进的构建策略，使得数据集涵盖25个学科主题、250余种图表组合，实现了视觉复杂性与语义丰富性的统一。

特点

作为专为提升图表理解能力设计的基准数据集，ECD展现出三大核心特征：其10,000+图表图像包含1378×968高分辨率样本，单图与多子图比例经过科学配比；300,000+问答对采用描述性与推理性问题1:1配比设计，全面覆盖感知与认知层面评估；特别构建的860组多类型混合子图（含2-3种图表组合）创造了接近真实科研场景的复杂测试环境。数据集的视觉多样性处理使合成图表与真实图表的特征差异缩小至12.7%，显著优于同类数据集。

使用方法

该数据集支持端到端的多模态模型训练与评估流程。使用者需通过Hugging Face获取基础数据后，按照指定目录结构组织图像与JSON标注文件。环境配置提供Docker基础镜像及四种主流MLLM框架（LLaVA-Next、MiniCPM等）的专属YAML配置，通过conda环境隔离确保依赖兼容性。训练阶段采用LoRA微调策略，用户可修改脚本中的WANDB监控、数据路径等参数实现定制化训练。评估环节内置六大基准测试套件（CharXiv/ChartQA等），通过标准化bash脚本实现自动化指标计算与结果归档。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在科学图表理解领域的快速发展，如何提升模型对复杂图表的解析能力成为研究热点。ECD数据集由澳大利亚国立大学、俄亥俄州立大学等机构的研究团队于2025年联合推出，旨在通过模块化图表生成和多样化视觉细节设计，解决现有合成图表与真实图表相似度不足的问题。该数据集包含10,000余张图表图像和300,000余个问答对，涵盖25个主题和250多种图表类型组合，显著提升了多种MLLMs在真实世界和合成测试集上的表现。

当前挑战

科学图表理解面临两大核心挑战：其一，现有MLLMs在复杂图表上的解析成功率仅为30%-50%，难以满足实际应用需求；其二，传统合成图表方法生成的样本视觉多样性不足，导致模型泛化能力受限。ECD数据集构建过程中需攻克多子图条件生成、视觉细节多样化设计、低质量数据过滤等关键技术难题，其五步生成流程的优化对提升数据质量提出了严格要求。

常用场景

经典使用场景

在科学研究和数据分析领域，图表理解能力是评估多模态大语言模型（MLLM）性能的核心指标之一。ECD数据集通过其模块化的图表生成流程和多样化的视觉细节，为研究人员提供了一个高质量的基准测试平台。该数据集广泛应用于MLLM的微调和评估，特别是在处理复杂多子图结构和多样化图表类型时，展现了显著的性能提升。

衍生相关工作

ECD数据集的推出催生了一系列相关研究，特别是在多模态模型优化和图表理解任务上。基于ECD的微调模型在多个公开基准测试中表现优异，如CharXiv、ChartQA和ChartBench。此外，该数据集还启发了新的数据合成方法，推动了模块化生成和多样化视觉细节的研究方向。

数据集最近研究