five

ECD

收藏
github2025-08-13 更新2025-08-14 收录
下载链接:
https://github.com/yuweiyang-anu/ECD
下载链接
链接失效反馈
官方服务:
资源简介:
ECD数据集包含10k+图表图像和300k+问答对,覆盖25个主题和250+图表类型组合,具有高度的视觉复杂性。该数据集旨在提高多模态大语言模型(MLLM)在图表理解方面的性能。

The ECD dataset encompasses over 10k chart images and 300k+ question-answer pairs, spanning 25 topics and over 250 combinations of chart types, characterized by high visual complexity. This dataset is designed to enhance the performance of multi-modal large language models (MLLMs) in chart comprehension.
创建时间:
2025-07-31
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Effective Chart Dataset (ECD)
  • 发布年份: 2025
  • 相关会议: IEEE/CVF International Conference on Computer Vision (ICCV)
  • 数据集大小: 10k+ 图表图像,300k+ 问答对 (QA pairs)
  • 覆盖主题: 25个主题
  • 图表类型组合: 250+种

数据集内容

  • 图表类型: 单图和多子图图表
  • 视觉复杂度: 高
  • 数据生成方法: 五步数据合成流程
    1. 分离数据和功能创建
    2. 多子图生成条件化
    3. 视觉多样化
    4. 低质量数据过滤
    5. 使用GPT-4o生成问答对

数据集用途

  • 主要用途: 提升多模态大语言模型 (MLLM) 的图表理解能力
  • 适用模型: 包括但不限于LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision、Qwen2.5-VL-7B

数据集获取

  • Hugging Face地址: https://huggingface.co/datasets/ChartFoundation/ECD-10k-Images
  • 数据生成代码: 包含在GitHub仓库的data_generation_pipeline目录中

基准测试 (ECDBench)

  • 图表数量: 1,224张
    • 单图图表: 364张
    • 多子图图表: 860张
      • 2种图表类型: 457张
      • 3种图表类型: 403张
  • 平均分辨率: 1378 × 968像素
  • 问答对数量: 2,448对 (每图1描述性+1推理性问题)

性能提升

  • LLaVA-Next-Llama3-8B: 平均性能从10.95提升至31.58
  • MiniCPM-V2.6: 平均性能从27.53提升至35.17
  • Phi-3-Vision: 平均性能从31.41提升至44.40
  • Qwen2.5-VL-7B: 平均性能从38.19提升至50.86

引用格式

bibtex @inproceedings{yang2025effective, title={Effective Training Data Synthesis for Improving MLLM Chart Understanding}, author={Yang, Yuwei and Zhang, Zeyu and Hou, Yunzhong and Li, Zhuowan and Liu, Gaowen and Payani, Ali and Ting, Yuan-Sen and Zheng, Liang}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year={2025} }

@article{yang2025effective, title={Effective Training Data Synthesis for Improving MLLM Chart Understanding}, author={Yang, Yuwei and Zhang, Zeyu and Hou, Yunzhong and Li, Zhuowan and Liu, Gaowen and Payani, Ali and Ting, Yuan-Sen and Zheng, Liang}, journal={arXiv preprint arXiv:2508.06492}, year={2025} }

许可信息

  • 许可证类型: MIT License
搜集汇总
数据集介绍
main_image_url
构建方式
在科学图表理解领域,数据集的构建质量直接影响多模态大语言模型的训练效果。ECD数据集采用五步合成流程精心构建:首先将图表的数据与功能生成模块化分离,确保单图生成的独立性;随后通过条件生成技术处理多子图间的关联性;引入视觉多样性增强机制提升图表真实感;经过严格的质量筛选剔除低质样本;最终利用GPT-4o生成30万组高质量问答对。这种分层递进的构建策略,使得数据集涵盖25个学科主题、250余种图表组合,实现了视觉复杂性与语义丰富性的统一。
特点
作为专为提升图表理解能力设计的基准数据集,ECD展现出三大核心特征:其10,000+图表图像包含1378×968高分辨率样本,单图与多子图比例经过科学配比;300,000+问答对采用描述性与推理性问题1:1配比设计,全面覆盖感知与认知层面评估;特别构建的860组多类型混合子图(含2-3种图表组合)创造了接近真实科研场景的复杂测试环境。数据集的视觉多样性处理使合成图表与真实图表的特征差异缩小至12.7%,显著优于同类数据集。
使用方法
该数据集支持端到端的多模态模型训练与评估流程。使用者需通过Hugging Face获取基础数据后,按照指定目录结构组织图像与JSON标注文件。环境配置提供Docker基础镜像及四种主流MLLM框架(LLaVA-Next、MiniCPM等)的专属YAML配置,通过conda环境隔离确保依赖兼容性。训练阶段采用LoRA微调策略,用户可修改脚本中的WANDB监控、数据路径等参数实现定制化训练。评估环节内置六大基准测试套件(CharXiv/ChartQA等),通过标准化bash脚本实现自动化指标计算与结果归档。
背景与挑战
背景概述
随着多模态大语言模型(MLLMs)在科学图表理解领域的快速发展,如何提升模型对复杂图表的解析能力成为研究热点。ECD数据集由澳大利亚国立大学、俄亥俄州立大学等机构的研究团队于2025年联合推出,旨在通过模块化图表生成和多样化视觉细节设计,解决现有合成图表与真实图表相似度不足的问题。该数据集包含10,000余张图表图像和300,000余个问答对,涵盖25个主题和250多种图表类型组合,显著提升了多种MLLMs在真实世界和合成测试集上的表现。
当前挑战
科学图表理解面临两大核心挑战:其一,现有MLLMs在复杂图表上的解析成功率仅为30%-50%,难以满足实际应用需求;其二,传统合成图表方法生成的样本视觉多样性不足,导致模型泛化能力受限。ECD数据集构建过程中需攻克多子图条件生成、视觉细节多样化设计、低质量数据过滤等关键技术难题,其五步生成流程的优化对提升数据质量提出了严格要求。
常用场景
经典使用场景
在科学研究和数据分析领域,图表理解能力是评估多模态大语言模型(MLLM)性能的核心指标之一。ECD数据集通过其模块化的图表生成流程和多样化的视觉细节,为研究人员提供了一个高质量的基准测试平台。该数据集广泛应用于MLLM的微调和评估,特别是在处理复杂多子图结构和多样化图表类型时,展现了显著的性能提升。
衍生相关工作
ECD数据集的推出催生了一系列相关研究,特别是在多模态模型优化和图表理解任务上。基于ECD的微调模型在多个公开基准测试中表现优异,如CharXiv、ChartQA和ChartBench。此外,该数据集还启发了新的数据合成方法,推动了模块化生成和多样化视觉细节的研究方向。
数据集最近研究
最新研究方向
在科学图表理解领域,ECD数据集的推出标志着多模态大语言模型(MLLMs)训练方法的重大突破。该数据集通过模块化图表生成流程和视觉细节多样化策略,显著提升了模型对复杂真实图表的解析能力。当前研究聚焦于如何利用其包含的10k+图表图像和300k+问答对,优化MLLMs在描述性回答和推理任务中的表现。前沿探索方向包括跨模态表征对齐、细粒度视觉特征提取,以及基于合成数据的域适应技术。该工作被ICCV 2025收录,其构建的ECDBench基准已推动Gemini、Claude等主流模型在科学图表问答任务中实现最高67.24%的平均准确率,为科学知识自动化处理提供了新的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作