five

ChartNet

收藏
Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/ibm-granite/ChartNet
下载链接
链接失效反馈
官方服务:
资源简介:
ChartNet是一个大规模、高质量的多模态数据集,专为图表理解和推理任务设计。该数据集包含170万份经过严格质量筛选的合成图表样本,每份样本都包含紧密对齐的视觉、数值和文本组件。数据集分为核心集、推理集和人工验证集三个子集,分别包含不同的字段和用途。核心集包含图表图像、代码、CSV数据和摘要;推理集增加了复杂问题和完整推理链;人工验证集则经过人工验证,确保高质量。数据集支持多种图表理解任务,如图表重建、数据提取、图表摘要和推理问答。此外,ChartNet还提供多个专用子集,包括人工标注子集、真实世界图表子集等,适用于广泛的图表智能应用。
创建时间:
2026-03-18
原始信息汇总

ChartNet数据集概述

数据集基本信息

  • 数据集名称: ChartNet
  • 发布机构: IBM Granite
  • 主要用途: 为图表理解提供大规模、高质量的多模态数据集,旨在实现稳健的图表解释与推理
  • 核心规模: 包含170万个合成图表样本。
  • 任务类别: 图像到文本、视觉问答、表格问答、文本生成。

数据集结构与配置

数据集包含三个配置(子集),每个配置具有不同的数据文件和特征。

1. 核心数据集 (core)

  • 数据文件路径: core/*
  • 数据划分: 训练集
  • 特征:
    • id (字符串): 样本标识符
    • image (图像): 图表图像
    • code (字符串): 绘图代码
    • csv (字符串): 底层数据表格
    • summary (字符串): 自然语言摘要

2. 推理数据集 (reasoning)

  • 数据文件路径: reasoning/*
  • 数据划分: 训练集
  • 特征:
    • id (字符串): 样本标识符
    • image (图像): 图表图像
    • complex_question (字符串): 复杂问题
    • full_reasoning (字符串): 完整推理过程

3. 人工验证数据集 (human_verified)

  • 数据文件路径:
    • 训练集: human_verified/train/*
    • 测试集: human_verified/test/*
  • 数据划分: 训练集、测试集
  • 特征:
    • id (字符串): 样本标识符
    • image (图像): 图表图像
    • code (字符串): 绘图代码
    • csv (字符串): 底层数据表格
    • summary (字符串): 自然语言摘要

关键统计数据

  • 合成图表样本: 170万
  • 人工验证图表示例: 94,643
  • 人工验证测试样本: 2,000
  • 真实世界图表 (即将发布): 30K
  • 图表类型: 24种
  • 绘图库: 6个

数据集构建方法

数据集通过代码引导的图表合成流程构建,涵盖6个绘图库24种图表类型。 每个ChartNet样本提供四个紧密对齐的组件

  1. 绘图代码
  2. 渲染的图表图像
  3. 底层数据表格
  4. 自然语言摘要

专项子集

已发布子集

  • 人工标注子集: 包含94,643个合成图表,其图像、摘要和表格均经过人工验证。包含一个2,000个图表的人工验证测试集。
  • 核心数据集: 当前版本已包含。

即将发布的子集

  • 真实世界图表子集: 来自可信媒体和可视化来源的30K图表。
  • 安全聚焦内容: 为安全对齐和抗越狱推理设计的图表和问答对。
  • 基础/定位子集: 专注于基础、区域感知的图表理解和推理。

支持的任务

数据集支持广泛的图表理解任务:

  • 图表重建 (chart2code): 恢复绘图代码或结构化图表规范。
  • 数据提取 (chart2csv): 直接从图表视觉元素中检索底层数值和表格。
  • 图表摘要 (chart2text): 生成描述模式和趋势的简洁自然语言摘要。
  • 推理和问答: 使用思维链推理回答语义、关系和定量问题。

数据加载指南

支持使用HuggingFace datasets库加载子集。 由于每个子集可能高达数百GB,建议按需下载单个文件。

使用许可与声明

  • 用途限制: 数据集仅用于支持验证和评估相关研究论文的结果。不得用于商业开发或商业部署
  • 许可状态: 未授予任何许可、契约或其他权利。作者未声明对数据集的知识产权。
  • 上游来源: 部分数据可能源自或受限于其他公开数据集和上游来源的许可条款。
  • 免责声明: 数据集按“原样”提供,不附带任何明示或暗示的担保。作者及其关联方不对因访问或使用数据集而产生的任何损害承担责任。
搜集汇总
数据集介绍
main_image_url
构建方式
在数据可视化领域,图表理解要求模型协同处理几何视觉模式、结构化数值数据与自然语言描述。ChartNet数据集通过代码引导的图表合成流程构建,涵盖24种图表类型和六种绘图库。该流程从少量种子图表图像出发,利用视觉语言模型生成近似重建代码,进而再生具有多样化风格与语义变体的图表,并衍生出对齐的结构化属性,包括表格数据、自然语言摘要以及带有详细思维链推理的问答对。每个样本均经过严格的质量过滤,确保视觉保真度与语义正确性,最终形成包含170万样本的大规模多模态数据集。
特点
ChartNet数据集的核心特征在于其多模态对齐的丰富注释,每个样本紧密整合了绘图代码、渲染图表图像、底层数据表格和自然语言摘要四大组件。数据集规模庞大,包含170万合成图表样本,其中94643个经过人工验证,并提供了2000个测试样本。它支持广泛的图表理解任务,如图表重建、数据提取、摘要生成与推理问答。此外,数据集还规划了真实世界图表、安全对齐内容及定位感知子集,展现了其在覆盖图表类型多样性与任务全面性方面的独特优势。
使用方法
为促进图表智能的端到端研究,ChartNet支持通过HuggingFace数据集库灵活加载。用户可分别加载核心、推理及人工验证子集,其中核心与推理子集可通过ID列连接,而人工验证子集则提供独立的训练与测试分割。鉴于数据集体积较大,建议按需下载单个文件,例如加载核心数据集的前10000条记录以进行初步探索。该数据集专为验证与评估图表理解研究成果设计,使用者需遵循相关许可限制,确保非商业用途,并自行承担合规风险。
背景与挑战
背景概述
在数据可视化领域,图表理解要求模型能够协同推理几何视觉模式、结构化数值数据与自然语言描述,这一多模态任务对现有视觉语言模型构成了显著挑战。ChartNet数据集由IBM研究团队于2025年构建,旨在填补大规模、高质量图表理解数据资源的空白。该数据集的核心研究问题聚焦于如何实现从图表图像到代码、数据及文本描述的端到端鲁棒性解析,从而推动图表智能的实质性进展。通过提供170万组经过严格质量过滤的合成样本,ChartNet不仅涵盖了24种图表类型与6种绘图库,还引入了人类验证子集与真实世界图表扩展,为相关领域的研究奠定了关键的数据基础,其影响力已延伸至多模态预训练模型如Granite-4.0-3B-Vision的开发与应用。
当前挑战
ChartNet致力于解决的领域挑战在于图表理解本身的多模态复杂性,即模型需同时处理视觉元素的几何关系、底层表格数据的数值逻辑以及自然语言语义的生成与推理。具体而言,该任务要求克服视觉模式与结构化数据之间的对齐难题,并实现从图像到代码或文本的精确转换。在数据集构建过程中,挑战主要体现在生成高质量、多样化的合成图表并确保多模态组件间的严格对齐。开发团队通过代码引导的合成管道,从少量种子图像出发,利用视觉语言模型生成重建代码,进而衍生出具有多样风格与语义变体的图表及其对齐属性。然而,确保视觉保真度、语义正确性以及大规模数据的一致性与多样性,仍需依赖精细的质量过滤流程与人类验证机制,这构成了数据集构建的核心技术挑战。
常用场景
经典使用场景
在数据可视化与多模态人工智能领域,ChartNet数据集为图表理解任务提供了经典的应用场景。该数据集通过其大规模、高质量的合成图表样本,支持模型进行端到端的图表解析与推理。研究人员通常利用其紧密对齐的图像、代码、表格和文本摘要组件,训练视觉语言模型执行图表重建、数据提取和自然语言摘要生成等任务,从而推动图表智能系统的开发与评估。
实际应用
在实际应用层面,ChartNet支撑了从学术研究到产业实践的广泛场景。基于该数据集训练的模型可应用于自动化报告生成、商业智能分析、无障碍信息获取等领域,例如从图表图像中直接提取数据表格、生成解释性摘要,或回答复杂的定量问题。这些能力有助于提升数据解读效率,辅助决策支持,并推动可视化工具向更智能、更易用的方向发展。
衍生相关工作
围绕ChartNet数据集,已衍生出一系列重要的研究工作与模型成果。其中最突出的便是基于该数据训练的Granite-4.0-3B-Vision模型,该模型展示了在图表理解任务上的先进性能。此外,数据集的构建方法论——代码引导的图表合成流程,也为后续大规模多模态数据生成提供了技术借鉴,激励了更多针对图表重建、推理问答及安全对齐等方向的创新探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作