ChartGen-200K

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/SD122025/ChartGen-200K

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含图像和文本信息的数据集，适用于图像到文本的任务。数据集分为训练集和测试集，总数据大小超过10GB，包含数十万个样本。数据集字段包括唯一标识符、代码、图像、图像路径、摘要、CSV文件、文档标签和问题答案。

This is a dataset containing both image and text information, which is applicable to image-to-text tasks. The dataset is split into training and test sets, with a total size exceeding 10GB and containing hundreds of thousands of samples. The fields of this dataset include unique identifier, code, image, image path, abstract, CSV file, document tags, and question-answer pairs.

创建时间：

2025-05-16

原始信息汇总

数据集概述

基本信息

数据集名称: ChartGen-200K
许可证: CC-BY-4.0
语言: 英语 (en)
数据规模: 100K < n < 1M

数据集结构

特征:
- id: 字符串类型
- code: 字符串类型
- image: 图像类型
- image_path: 字符串类型
- summary: 字符串类型
- csv: 字符串类型
- doctags: 字符串类型
- question_answers: 字符串类型
数据划分:
- 训练集 (train):
  - 样本数量: 218,531
  - 数据大小: 10,434,185,595.981 字节
- 测试集 (test):
  - 样本数量: 4,287
  - 数据大小: 154,374,798 字节

下载信息

下载大小: 8,648,375,483 字节
数据集总大小: 10,588,560,393.981 字节

任务类别

任务类型: 图像到文本 (image-to-text)

配置文件

默认配置:
- 测试集路径: data/test-*
- 训练集路径: data/train-*

搜集汇总

数据集介绍

构建方式

ChartGen-200K数据集通过系统化采集和标注流程构建，涵盖21.8万训练样本和4287测试样本。其核心数据单元包含代码、图像、CSV表格及问答对，采用分布式处理技术将原始图表数据转化为标准化图像-文本对，并通过多轮质量校验确保数据一致性。数据标注过程融合自动化解析与人工审核，特别注重保留图表的结构化特征与语义关联。

特点

该数据集以多模态架构为显著特征，同步提供图表图像、生成代码、数据表格及自然语言描述四维表征。每个样本包含可执行的Python可视化代码及其渲染结果，辅以结构化CSV数据和问答标注，支持跨模态检索与生成任务。数据规模达20万级别，覆盖主流图表类型，其细粒度的元数据标注为视觉语言模型训练提供了丰富监督信号。

使用方法

研究者可通过HuggingFace数据集接口直接加载ChartGen-200K，利用预定义split划分训练测试集。典型应用场景包括：使用image-text对训练图表描述生成模型，基于code-image对研究程序化图表合成，或借助csv-image数据开发数据可视化推荐系统。数据字段的丰富关联性支持端到端训练或分阶段微调，建议配合视觉-语言预训练框架实现跨模态表征学习。

背景与挑战

背景概述

ChartGen-200K数据集作为大规模图表生成与理解领域的重要资源，由前沿研究团队构建，旨在推动数据可视化与自然语言处理的交叉研究。该数据集包含超过20万条图表数据样本，每项样本均涵盖代码、图像、文本摘要及结构化数据等多模态信息，为自动化图表生成、视觉问答等任务提供了丰富的研究素材。其构建反映了数据可视化领域对高质量、多样化训练数据的迫切需求，显著提升了模型对复杂图表语义的理解能力。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题上，图表生成需解决多模态对齐的复杂性，包括数据到视觉元素的精确映射以及自然语言描述的语义一致性；构建过程中，大规模图表数据的采集与标注涉及异构数据源的整合，确保图像质量与代码可执行性的同时，还需维持文本摘要的准确性与多样性。此外，跨模态关联标注的粒度与一致性控制，进一步增加了数据集构建的技术难度。

常用场景

经典使用场景

在数据可视化研究领域，ChartGen-200K数据集以其20余万条图表代码对成为生成式图表任务的基准测试平台。该数据集支持从结构化数据（CSV）到可视化图表（Image）的端到端生成任务，研究人员通过分析代码与图像的映射关系，探索神经网络如何理解并复现人类设计师的视觉编码决策过程。

衍生相关工作

基于ChartGen-200K衍生的ViZCode框架开创了程序代码与视觉元素的双向检索范式，而ChartQA研究则利用其question_answers字段建立了可视化图表问答的新基准。后续工作如Data2Vis跨模态预训练模型，通过联合学习代码、图像和文本特征，在IEEE VIS等顶级会议产生了系列突破性成果。

数据集最近研究