five

ChartGalaxy

收藏
github2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/ChartGalaxy/ChartGalaxy
下载链接
链接失效反馈
官方服务:
资源简介:
ChartGalaxy是一个百万级别的合成和真实信息图表数据集,包含数据表格,支持信息图表理解、代码生成和图表生成等应用。该数据集解决了现有数据集大多局限于普通图表的问题,捕捉了信息图表设计风格和布局的多样性。

ChartGalaxy is a dataset of millions of synthetic and real-world information charts, including data tables, and supports applications such as information chart understanding, code generation, and chart generation. This dataset addresses the issue of existing datasets being mostly limited to conventional charts, capturing the diversity of design styles and layouts of information charts.
创建时间:
2025-05-13
原始信息汇总

ChartGalaxy 数据集概述

数据集简介

ChartGalaxy是一个百万级的信息图表数据集,包含合成和真实信息图表及其对应的数据表格,支持信息图表理解、代码生成和图表生成等应用。该数据集解决了现有数据集大多局限于普通图表,未能捕捉信息图表多样设计风格和布局的关键特征的问题。

数据集详情

  • 规模: 1,255,606张信息图表(1,151,087张合成图表 + 104,519张真实图表)
  • 内容: 每张信息图表都配有用于创建它的表格数据
  • 图表类型: 75种图表类型,包含330种图表变体
  • 布局模板: 68种布局模板

数据收集与创建

  1. 真实信息图表收集: 从19个知名图表丰富网站(如Pinterest、Visual Capitalist、Statista和Information is Beautiful)收集图表。
  2. 合成信息图表创建: 通过归纳结构化过程:
    • 识别75种图表类型(如条形图)和330种反映不同视觉元素风格的图表变体
    • 提取68种定义元素间空间关系的布局模板
    • 基于这些模式以编程方式生成合成图表

应用场景

  1. 信息图表理解: 在ChartGalaxy上微调可提高基础模型在信息图表理解上的性能。
  2. 信息图表代码生成: 评估LVLMs生成信息图表代码的能力,包括:
    • 低级别: 生成与参考SVG之间元素级别的相似性
    • 高级别: 整体视觉保真度和功能评估
  3. 基于示例的信息图表生成: 将用户提供的表格数据转换为信息图表,与给定示例图表的布局和视觉风格对齐。

引用

bibtex @misc{li2025chartgalaxydatasetinfographicchart, title={ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation}, author={Zhen Li and Yukai Guo and Duan Li and Xinyuan Guo and Bowen Li and Lanxi Xiao and Shenyu Qiao and Jiashu Chen and Zijian Wu and Hui Zhang and Xinhuan Shu and Shixia Liu}, year={2025}, eprint={2505.18668}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.18668}, }

联系方式

  • chartgalaxy@163.com
搜集汇总
数据集介绍
main_image_url
构建方式
在信息可视化领域,ChartGalaxy数据集通过双轨制构建策略实现了规模与质量的平衡。真实信息图表来源于19个权威可视化平台的手工采集,确保了数据源的多样性和专业性;同步开展的合成图表生成则采用归纳式结构化方法,系统性地定义了75种基础图表类型和330种视觉变体,并提取68种布局模板作为生成规则,通过程序化方式批量产出符合信息图表设计规范的数据样本。这种虚实结合的方法既保留了真实场景的复杂性,又保证了数据规模的扩展性。
特点
作为当前规模最大的信息图表数据集,ChartGalaxy的突出特点体现在三个维度:其百万量级的样本覆盖了1,151,087张合成图表与104,519张真实图表,每张图表均配套原始数据表格;类型体系囊括从基础柱状图到复杂组合图在内的330种视觉变体,并标注了68种专业布局模板;数据质量通过严格的来源筛选和生成规则得到保障,特别注重保留信息图表特有的装饰元素和版式特征,与普通科研图表形成显著区分。这种多层次的标注体系为模型理解图表语义提供了丰富线索。
使用方法
该数据集支持三种典型应用场景:在图表理解任务中,用户可通过微调预训练模型利用其丰富的标注信息;代码生成评估则需配置基准测试环境,通过修改YAML文件指定评估模型参数,运行主程序后系统将自动生成可视化对比报告;基于示例的图表生成功能允许用户输入自定义数据,参照数据集中的模板进行风格迁移。使用前需通过GitHub仓库获取基准测试代码,按照文档配置数据路径和模型参数,输出结果包含可视化对比图和结构化评估指标。
背景与挑战
背景概述
ChartGalaxy数据集由Zhen Li等研究人员于2025年提出,旨在解决信息图表理解与生成领域的关键问题。该数据集由清华大学等机构联合构建,包含125万张合成与真实信息图表,覆盖75种图表类型和330种视觉变体。信息图表作为数据可视化的重要形式,其复杂的布局结构和多样化的设计风格对现有算法提出了严峻挑战。ChartGalaxy通过系统化收集真实图表与程序化生成合成数据相结合的方式,为多模态模型训练提供了前所未有的丰富素材,显著推动了图表理解、代码生成和风格迁移等研究方向的发展。
当前挑战
信息图表理解领域长期面临标注数据稀缺和视觉多样性不足的双重挑战。ChartGalaxy针对性地解决了三个核心问题:复杂布局解析的语义鸿沟、视觉元素与数据表格的精确对齐、以及跨风格生成的质量控制。在构建过程中,研究团队需要克服真实图表版权清理、合成参数空间爆炸、以及多模态标注一致性维护等技术难点。特别是对于程序化生成环节,需平衡模板多样性与视觉合理性,确保合成图表既保留真实设计特征又避免模式化 artifacts。
常用场景
经典使用场景
在信息可视化领域,ChartGalaxy数据集为研究者提供了一个百万规模的合成与真实信息图表集合,其最经典的使用场景在于支持信息图表的理解与生成研究。通过该数据集,研究者能够深入探索图表设计风格的多样性以及布局的复杂性,为图表生成模型提供丰富的训练样本。特别是在多模态学习场景下,ChartGalaxy能够帮助模型学习从数据表格到视觉图表的映射关系,从而提升图表生成的准确性和多样性。
解决学术问题
ChartGalaxy数据集解决了信息图表研究中数据稀缺和多样性不足的问题。传统数据集多局限于基础图表类型,而ChartGalaxy通过涵盖75种图表类型和330种变体,为学术研究提供了更全面的数据支持。该数据集尤其适用于研究图表生成模型的泛化能力,以及多模态模型在图表理解任务中的表现。其大规模和多样性显著提升了模型在复杂图表场景下的鲁棒性,推动了信息可视化领域的技术进步。
衍生相关工作
ChartGalaxy数据集已经衍生出多项重要研究工作,特别是在图表生成和理解的交叉领域。基于该数据集,研究者开发了先进的图表代码生成方法,能够将数据表格转换为高质量的D3.js代码。此外,该数据集还支持了多模态大模型在图表理解任务中的性能评估,推动了视觉语言模型的发展。相关工作不仅扩展了数据集的应用范围,也为信息可视化领域设立了新的研究标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作