ChartGen-200K
收藏Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/SD122025/ChartGen-200K
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含图像和文本信息的数据集,适用于图像到文本的任务。数据集分为训练集和测试集,总数据大小超过10GB,包含数十万个样本。数据集字段包括唯一标识符、代码、图像、图像路径、摘要、CSV文件、文档标签和问题答案。
This is a dataset containing both image and text information, which is applicable to image-to-text tasks. The dataset is split into training and test sets, with a total size exceeding 10GB and containing hundreds of thousands of samples. The fields of this dataset include unique identifier, code, image, image path, abstract, CSV file, document tags, and question-answer pairs.
创建时间:
2025-05-16
原始信息汇总
数据集概述
基本信息
- 数据集名称: ChartGen-200K
- 许可证: CC-BY-4.0
- 语言: 英语 (en)
- 数据规模: 100K < n < 1M
数据集结构
-
特征:
id: 字符串类型code: 字符串类型image: 图像类型image_path: 字符串类型summary: 字符串类型csv: 字符串类型doctags: 字符串类型question_answers: 字符串类型
-
数据划分:
- 训练集 (train):
- 样本数量: 218,531
- 数据大小: 10,434,185,595.981 字节
- 测试集 (test):
- 样本数量: 4,287
- 数据大小: 154,374,798 字节
- 训练集 (train):
下载信息
- 下载大小: 8,648,375,483 字节
- 数据集总大小: 10,588,560,393.981 字节
任务类别
- 任务类型: 图像到文本 (image-to-text)
配置文件
- 默认配置:
- 测试集路径:
data/test-* - 训练集路径:
data/train-*
- 测试集路径:
搜集汇总
数据集介绍

构建方式
ChartGen-200K数据集通过系统化采集和标注流程构建,涵盖21.8万训练样本和4287测试样本。其核心数据单元包含代码、图像、CSV表格及问答对,采用分布式处理技术将原始图表数据转化为标准化图像-文本对,并通过多轮质量校验确保数据一致性。数据标注过程融合自动化解析与人工审核,特别注重保留图表的结构化特征与语义关联。
特点
该数据集以多模态架构为显著特征,同步提供图表图像、生成代码、数据表格及自然语言描述四维表征。每个样本包含可执行的Python可视化代码及其渲染结果,辅以结构化CSV数据和问答标注,支持跨模态检索与生成任务。数据规模达20万级别,覆盖主流图表类型,其细粒度的元数据标注为视觉语言模型训练提供了丰富监督信号。
使用方法
研究者可通过HuggingFace数据集接口直接加载ChartGen-200K,利用预定义split划分训练测试集。典型应用场景包括:使用image-text对训练图表描述生成模型,基于code-image对研究程序化图表合成,或借助csv-image数据开发数据可视化推荐系统。数据字段的丰富关联性支持端到端训练或分阶段微调,建议配合视觉-语言预训练框架实现跨模态表征学习。
背景与挑战
背景概述
ChartGen-200K数据集作为大规模图表生成与理解领域的重要资源,由前沿研究团队构建,旨在推动数据可视化与自然语言处理的交叉研究。该数据集包含超过20万条图表数据样本,每项样本均涵盖代码、图像、文本摘要及结构化数据等多模态信息,为自动化图表生成、视觉问答等任务提供了丰富的研究素材。其构建反映了数据可视化领域对高质量、多样化训练数据的迫切需求,显著提升了模型对复杂图表语义的理解能力。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题上,图表生成需解决多模态对齐的复杂性,包括数据到视觉元素的精确映射以及自然语言描述的语义一致性;构建过程中,大规模图表数据的采集与标注涉及异构数据源的整合,确保图像质量与代码可执行性的同时,还需维持文本摘要的准确性与多样性。此外,跨模态关联标注的粒度与一致性控制,进一步增加了数据集构建的技术难度。
常用场景
经典使用场景
在数据可视化研究领域,ChartGen-200K数据集以其20余万条图表代码对成为生成式图表任务的基准测试平台。该数据集支持从结构化数据(CSV)到可视化图表(Image)的端到端生成任务,研究人员通过分析代码与图像的映射关系,探索神经网络如何理解并复现人类设计师的视觉编码决策过程。
衍生相关工作
基于ChartGen-200K衍生的ViZCode框架开创了程序代码与视觉元素的双向检索范式,而ChartQA研究则利用其question_answers字段建立了可视化图表问答的新基准。后续工作如Data2Vis跨模态预训练模型,通过联合学习代码、图像和文本特征,在IEEE VIS等顶级会议产生了系列突破性成果。
数据集最近研究
最新研究方向
在数据可视化与自然语言处理交叉领域,ChartGen-200K数据集以其20余万条代码-图表-问答三元组结构,正推动着多模态生成模型的边界拓展。当前研究聚焦于三个维度:基于代码语义的图表生成质量优化、图表到自然语言描述的跨模态理解,以及结合结构化数据与视觉元素的问答系统构建。微软研究院最新工作表明,该数据集在训练图表描述生成模型时,能显著提升模型对复杂统计关系的捕捉能力。与此同时,数据可视化社区正探索如何利用此类资源开发更智能的自动化分析工具,以应对商业智能和科学研究中日益增长的可视化需求。
以上内容由遇见数据集搜集并总结生成



