ChartGalaxy

Name: ChartGalaxy
Creator: 清华大学, 纽卡斯尔大学
Published: 2025-05-24 20:06:22
License: 暂无描述

arXiv2025-05-24 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/ChartGalaxy/ChartGalaxy

下载链接

链接失效反馈

官方服务：

资源简介：

ChartGalaxy是一个包含高质量真实和合成信息图表的大规模数据集，旨在促进自动理解和生成。数据集通过归纳过程构建，从真实信息图表中识别75种图表类型、330种图表变化和68种布局模板，并使用这些模式程序化地创建合成图表。该数据集包括1,151,087个程序化创建的信息图表和104,519个真实信息图表，每个图表都与用于创建它的表格数据配对。数据集的应用领域包括信息图表理解、代码生成和信息图表生成，旨在解决大型视觉语言模型在理解和生成信息图表方面的挑战。

ChartGalaxy is a large-scale dataset consisting of high-quality real and synthetic infographics, intended to advance automatic infographic understanding and generation. The dataset is built via an inductive workflow: 75 chart types, 330 chart variants and 68 layout templates are first identified from real infographics, then these patterns are employed to programmatically generate synthetic infographics. This dataset contains 1,151,087 programmatically created infographics and 104,519 real infographics, where each infographic is paired with the tabular data used for its creation. Its application domains include infographic understanding, code generation and infographic generation, aiming to tackle the challenges encountered by large vision-language models in understanding and generating infographics.

提供机构：

清华大学, 纽卡斯尔大学

创建时间：

2025-05-24

搜集汇总

数据集介绍

构建方式

ChartGalaxy数据集的构建采用了双阶段方法，首先从19个权威图表网站（如Pinterest、Statista等）爬取真实信息图表，经过去重和表格数据提取后获得104,519个真实样本。其次通过归纳式结构化流程，从真实图表中提取75种图表类型、330种图表变体和68种布局模板，采用程序化方式生成1,151,087个合成图表。关键创新在于人机协同的模板扩展管道，通过预训练的检测模型迭代识别新布局模式，确保合成图表的多样性和真实性。

特点

该数据集具有三大核心特征：1) 规模与多样性兼备，涵盖信息图表设计中的主要类型和变体；2) 每个图表均附带原始表格数据，建立数据-视觉的精确映射关系；3) 包含真实设计模式提取的布局模板，支持结构化生成。特别值得注意的是其视觉-文本对齐特性，所有合成图表均保持与真实图表相同的视觉元素组合逻辑（如图标位置、颜色编码等），为多模态推理提供理想训练素材。

使用方法

数据集支持三种典型应用场景：1) 通过微调提升大模型对信息图表的理解能力，包含443,455个视觉问答对；2) 作为代码生成基准，评估模型将视觉图表转化为D3.js代码的能力；3) 基于示例的图表生成，通过迁移参考图表的布局模板和风格要素生成新图表。使用时需注意区分真实与合成子集，合成数据更适合训练，真实数据更适用于评估。配套的模板库和标注工具链可支持定制化任务开发。

背景与挑战

背景概述

ChartGalaxy是由清华大学与纽卡斯尔大学的研究团队于2025年提出的百万级信息图表数据集，旨在解决大型视觉语言模型(LVLMs)在理解和生成信息图表方面的关键挑战。该数据集包含1,151,087张程序生成的合成图表和104,519张真实图表，涵盖75种图表类型、330种图表变体和68种布局模板。通过从Pinterest、Visual Capitalist等19个权威网站提取真实设计模式，ChartGalaxy首次系统性地捕获了信息图表特有的视觉-文本多模态交互特性和复杂布局结构，为提升LVLMs的多模态推理与生成能力提供了重要资源。

当前挑战

ChartGalaxy面临双重挑战：在领域问题层面，需解决传统纯图表数据集无法捕捉信息图表特有的多模态关联、复杂布局和设计风格多样性的问题；在构建过程中，需克服真实图表数据稀缺、设计模式归纳困难以及程序化生成保持视觉保真度等技术难点。具体包括：(1)从真实图表中归纳可扩展的设计模式需要平衡自动化与人工验证；(2)合成图表需保持数据可视化准确性的同时实现视觉丰富性；(3)布局模板的提取与优化涉及复杂的空间关系建模；(4)跨模态元素(如图标与数据)的语义对齐问题。

常用场景

经典使用场景

ChartGalaxy数据集在信息图表理解和生成领域具有广泛的应用场景。该数据集通过结合视觉元素（如图表、图像）与文本信息，为大规模视觉语言模型（LVLMs）的训练和评估提供了丰富资源。其最经典的使用场景包括信息图表的视觉问答（VQA）、代码生成以及基于示例的图表生成。这些场景不仅涵盖了图表的多模态理解，还涉及从图像到代码的转换，为自动化图表设计和数据可视化提供了强有力的支持。

衍生相关工作

ChartGalaxy数据集衍生了一系列经典的相关工作。基于该数据集，研究人员开发了多种视觉语言模型（如InternVL3-8B和Qwen2.5-VL-7B），显著提升了模型在信息图表理解和生成任务上的性能。此外，数据集的布局模板和图表变体为后续研究提供了设计灵感，推动了自动化图表生成技术的发展。相关工作还包括基于数据集的基准测试（如ChartQAPro和InfographicVQA），为评估模型在多模态任务中的表现提供了标准化平台。

数据集最近研究