ChartCap

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/junyoung-00/ChartCap

下载链接

链接失效反馈

官方服务：

资源简介：

ChartCap是一个大规模的数据集，包含565K个现实世界图表图像及其对应的类型特定、密集型描述。这些描述去除了无关信息，详细突出了图表的结构元素和关键洞察。数据集分为训练集和测试集，适用于图像到文本的任务。

ChartCap is a large-scale dataset containing 565K real-world chart images and their corresponding type-specific and dense descriptions. These descriptions eliminate irrelevant information, and highlight the structural elements and key insights of the charts in detail. The dataset is split into training and test sets, and is suitable for image-to-text tasks.

创建时间：

2025-08-06

原始信息汇总

ChartCap数据集概述

基本信息

语言: 英文 (en)
许可证: CC BY 4.0 (cc-by-4.0)
规模: 100K<n<1M
任务类型: 图像到文本 (image-to-text)
标签: 图表理解 (chart-understanding), 图表字幕生成 (chart-captioning), 密集字幕生成 (dense-captioning)
arXiv论文: 2508.03164
库名称: datasets

数据集描述

ChartCap是一个大规模数据集，包含565K真实世界图表图像，配有针对特定类型的密集字幕，这些字幕排除了无关信息，详细突出了结构元素和关键见解。

数据集统计

训练集: 508,783个示例
测试集: 56,486个示例（人工验证）
总计: 565,269个示例

数据结构

每个示例包含以下字段：

image: 图表图像
image_filename: 图像文件名
chart_info: 使用GPT-4o提取的半结构化信息（用于粗粒度任务，如整体趋势）和Claude 3.5 Sonnet（用于细粒度任务，如精确数值）。此字段包含遵循特定类型模式的结构组件和关键见解。
caption: chart_info的自然语言版本，提供描述图表结构元素和关键见解的连贯密集字幕。

使用方法

python from datasets import load_dataset

dataset = load_dataset("junyoung-00/ChartCap")

访问训练和测试集

train_data = dataset[train] test_data = dataset[test]

访问数据示例

example = train_data[0] image = example[image] caption = example[caption] chart_info = example[chart_info]

论文与引用

论文: ChartCap: Mitigating Hallucination of Dense Chart Captioning
项目页面: https://junyoung-00.github.io/ChartCap/

引用: bibtex @inproceedings{lim2025chartcap, title={ChartCap: Mitigating Hallucination of Dense Chart Captioning}, author={Junyoung Lim and Jaewoo Ahn and Gunhee Kim}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision}, year={2025} }

许可证

本数据集根据知识共享署名4.0国际许可协议（CC BY 4.0）发布。您可以自由共享和改编此数据集用于任何目的，包括商业用途，只要您通过引用我们的论文提供适当的署名。

搜集汇总

数据集介绍

构建方式

在图表理解领域，ChartCap数据集通过精心构建的流程整合了56.5万张真实世界图表图像。采用GPT-4o进行粗粒度结构信息提取，Claude 3.5 Sonnet负责细粒度数值解析，形成半结构化chart_info字段，最终生成融合结构元素与关键洞察的自然语言描述。

特点

该数据集突出表现为类型特定的密集标注体系，有效排除无关信息干扰，专注于图表结构要素与核心洞察的深度描述。其测试集经过人工验证确保质量，覆盖多种图表类型，为密集图表描述任务提供了前所未有的规模与精度基准。

使用方法

研究人员可通过HuggingFace数据集库直接加载ChartCap，分别访问训练集与测试集分割。每个样本包含图像文件、结构化图表信息和自然语言描述，支持图像到文本转换任务的模型训练与评估，具体实现参见提供的代码示例。

背景与挑战

背景概述

图表理解作为多模态人工智能的重要分支，近年来受到计算机视觉与自然语言处理领域的广泛关注。ChartCap数据集由Junyoung Lim等研究者于2025年创建，旨在解决真实场景下图表图像的结构化理解与语义描述问题。该数据集包含56.5万组高质量图表图像与对应描述文本，通过融合GPT-4o和Claude 3.5 Sonnet等先进大语言模型的技术优势，实现了对图表结构元素和关键洞察的精细化标注。这项研究工作显著推进了图表字幕生成任务的标准化进程，为后续相关研究提供了重要的基准数据支撑。

当前挑战

在图表字幕生成领域，模型常产生与视觉内容不符的幻觉描述，这是ChartCap致力解决的核心难题。构建过程中面临多重挑战：首先需要精准提取图表中的结构化信息，包括坐标轴标签、数据趋势和数值关系等细粒度要素；其次需保持描述文本与视觉内容的高度一致性，避免引入外部知识导致的语义偏差；此外还需处理多样化图表类型（如柱状图、折线图、饼图等）的特异性描述规范。数据集通过双模型协作标注策略——GPT-4o处理粗粒度特征，Claude 3.5 Sonnet解析精细数值——有效缓解了上述问题，但如何实现端到端的幻觉抑制仍是待突破的关键技术瓶颈。

常用场景

经典使用场景

在数据可视化理解领域，ChartCap数据集为密集图表描述任务提供了标准化基准。研究者利用其56万张真实图表图像与类型化密集标注的配对数据，训练和评估视觉-语言模型对复杂图表结构的解析能力。该数据集特别适用于多模态Transformer架构的端到端训练，模型需要同时识别图表中的视觉元素并生成精确的文本描述，避免了传统方法中常见的外部信息干扰。

解决学术问题

该数据集有效解决了图表描述中的幻觉生成问题，通过GPT-4o和Claude 3.5 Sonnet构建的半结构化标注体系，确保了描述内容与图表数据的严格一致性。学术研究借助该数据集突破了传统图表理解模型在细粒度数值描述和结构元素识别方面的局限，为建立可解释的视觉语言推理机制提供了重要数据支撑，推动了多模态人工智能在科学数据分析领域的发展。

衍生相关工作

该数据集的发布催生了多个重要研究方向，包括基于注意力机制的图表结构解析网络、多任务学习的图表问答系统以及抗幻觉生成的约束解码算法。相关经典工作如ChartTransformer架构通过引入类型感知的编码机制提升了描述准确性；InsightNet模型则专注于关键洞察的提取与生成，这些衍生研究共同推动了稠密图表描述技术向更精准、更可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集