five

ChartGalaxy

收藏
Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/ChartGalaxy/ChartGalaxy
下载链接
链接失效反馈
官方服务:
资源简介:
ChartGalaxy是一个包含合成和真实信息图表的大型数据集,旨在支持图表理解、代码生成和图表生成等应用。数据集拥有75种图表类型和330种图表变体,采用68种布局模板,共有1,255,606个图表,包括1,151,087个合成图表和104,519个真实图表。
创建时间:
2025-05-07
搜集汇总
数据集介绍
main_image_url
构建方式
在信息可视化研究领域,ChartGalaxy数据集通过双轨制构建策略实现了规模与多样性的突破。该数据集整合了来自18个权威图表网站的真实信息图表,同时基于归纳式结构化方法系统识别了75种基础图表类型与440种视觉变体,结合68种布局模板的程序化生成机制,最终形成了包含176万张合成图表与6万余张真实图表的混合资源库。
特点
作为当前规模最大的信息图表数据集,ChartGalaxy展现出多维度的技术特征。其囊括了从基础柱状图到复杂混合图表的440种视觉变体,每张图表均配有原始数据表格,形成了完整的图表-数据对。特别值得注意的是,数据集突破了传统纯图表数据的局限,通过68种专业布局模板展现了信息图表特有的视觉层次与版式设计,为研究视觉元素的空间关系提供了丰富样本。
使用方法
该数据集在信息图表理解与生成领域具有三重应用路径。研究者可基于其海量样本微调基础模型以提升图表理解能力,或通过配套的D3.js代码评估框架检验视觉语言模型的代码生成质量。对于图表生成任务,用户可参照示例图表的视觉风格与布局模板,将自有表格数据转化为具有专业设计水准的信息图表,实现从数据到视觉呈现的端到端转换。
背景与挑战
背景概述
信息可视化领域长期面临专业图表数据稀缺的困境,传统数据集多局限于基础图表形态。ChartGalaxy作为百万级信息图表数据集,由研究团队于2023年构建,通过系统化采集真实图表与程序化生成相结合的策略,填补了复杂布局与多样化设计风格图表的空白。该数据集涵盖75种核心图表类型与68种布局模板,为信息图表理解与生成任务提供了关键基础设施,显著推动了可视化智能研究的发展进程。
当前挑战
信息图表理解需应对视觉元素异构组合与语义关联的复杂性,传统模型在解析混合文本、图形与布局的复合结构时存在显著局限。数据集构建过程中面临双重挑战:真实图表采集需克服网络源数据的格式异构与版权限制,而程序化生成则要求建立严谨的视觉元素关系映射体系,确保合成图表在保持风格多样性的同时符合专业设计规范。
常用场景
经典使用场景
在信息图表理解领域,ChartGalaxy数据集为视觉问答任务提供了丰富的训练资源。该数据集通过融合合成与真实信息图表,构建了涵盖75种图表类型和440种视觉变体的多样化样本库。研究人员利用其百万级规模的图表数据,能够有效训练深度学习模型识别图表中的复杂视觉元素,理解数据与视觉呈现之间的映射关系,从而提升模型对信息图表的综合理解能力。
实际应用
在实际应用层面,ChartGalaxy支撑了智能图表生成系统的开发。基于该数据集训练的模型能够将用户提供的表格数据自动转换为具有专业设计风格的信息图表,大幅提升了数据可视化的效率。这种技术已广泛应用于商业报告、新闻媒体和教育材料制作等领域,使非专业用户也能快速创建高质量的信息图表,促进了数据驱动决策的普及。
衍生相关工作
围绕ChartGalaxy数据集已衍生出多项重要研究工作。在图表代码生成方向,研究者建立了基于D3.js代码生成的评估基准,系统衡量模型输出与真实图表的视觉相似度。在示例驱动生成领域,开发了能够根据参考图表风格自动生成新图表的方法,其生成质量在用户研究中被证实优于现有主流模型,推动了图表生成技术向更高保真度和创造性方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作