ChartBank

Name: ChartBank
Creator: 香港科技大学（广州）和香港科技大学
Published: 2024-12-26 17:59:43
License: 暂无描述

arXiv2024-12-26 更新2024-12-31 收录

下载链接：

https://github.com/Sootung/AskChart

下载链接

链接失效反馈

官方服务：

资源简介：

ChartBank是由香港科技大学（广州）和香港科技大学团队创建的大规模数据集，旨在通过整合视觉和文本信息来提升图表理解任务的性能。该数据集包含约750万条样本，涵盖了多种图表相关任务，如OCR感知数据提示、视觉提示和图表到表格的指令跟随任务。数据集的创建过程包括从图表中提取文本信息，并将其与视觉元素对齐，以生成有效的联合表示。ChartBank的应用领域主要集中在图表问答、图表到文本转换等任务，旨在解决现有模型在处理图表时未能充分利用文本信息的问题。

提供机构：

香港科技大学（广州）和香港科技大学

创建时间：

2024-12-26

搜集汇总

数据集介绍

构建方式

ChartBank数据集的构建过程主要分为三个子数据集：视觉提示数据集、OCR感知数据提示数据集和图表到表格指令跟随数据集。视觉提示数据集通过设计问题模板并生成相应的视觉提示（如箭头、椭圆、边界框等）来增强模型对图表特定区域的理解。OCR感知数据提示数据集则通过OCR工具从图表中提取文本信息，并结合单轮和多轮指令跟随任务，确保模型能够有效利用图表中的文本信息。图表到表格指令跟随数据集则通过将表格转换为图表，并生成带有链式思维（CoT）注释的表格对，帮助模型更好地理解图表数据。

特点

ChartBank数据集的特点在于其大规模和多模态的特性，包含约750万个样本，涵盖了多种图表类型（如饼图、柱状图、折线图等）和任务（如图表问答、图表到文本、图表到表格等）。该数据集通过视觉和文本信息的对齐，帮助模型学习更有效的联合表示。此外，数据集中的视觉提示和OCR提取的文本信息增强了模型对图表中细节的理解，使其在处理复杂图表任务时表现更为出色。

使用方法

ChartBank数据集的使用方法主要包括三个阶段的训练策略。第一阶段通过图表到表格的翻译任务，对齐视觉和文本信息，帮助模型学习图表的结构化表示。第二阶段通过多任务指令微调，使模型能够泛化到不同的图表理解任务，如图表摘要、数值推理等。第三阶段则通过混合专家（MoE）架构的微调，进一步优化模型在处理复杂任务时的表现。该数据集的使用不仅提升了模型在图表问答、图表到文本等任务中的性能，还增强了其在零样本任务中的泛化能力。

背景与挑战

背景概述

ChartBank数据集由香港科技大学（广州）和香港科技大学的研究团队于2024年创建，旨在解决图表理解任务中的视觉与文本信息融合问题。该数据集包含约750万个样本，涵盖了多种图表类型，如饼图、柱状图和折线图等。ChartBank的创建背景源于现有模型在处理图表理解任务时，主要依赖视觉信息，而忽略了图表中嵌入的丰富文本信息（如数据标签和轴标签），这限制了模型在复杂任务中的表现。通过引入AskChart模型，研究团队提出了一种结合视觉与文本信息的通用模型架构，显著提升了图表理解任务的性能。

当前挑战

ChartBank数据集在构建和应用过程中面临多重挑战。首先，图表理解任务本身具有复杂性，尤其是在需要精确解释文本信息的任务中，现有模型往往表现不佳。其次，构建过程中，如何准确对齐从图表中提取的文本信息与视觉元素是一个关键挑战，尤其是在使用OCR工具提取文本时，常出现识别错误或信息不完整的情况。此外，设计一个能够灵活适应不同图表类型和任务的高效架构，同时有效整合视觉与文本信息，也是数据集构建中的一大难题。最后，现有数据集缺乏同时包含结构化视觉元素和文本信息的训练数据，这进一步增加了构建高质量数据集的难度。

常用场景

经典使用场景

ChartBank数据集在图表理解任务中具有广泛的应用，特别是在ChartQA、Chart-to-Text和Chart-to-Table等任务中。通过结合视觉和文本信息，ChartBank能够帮助模型更准确地提取和解释图表中的关键信息，从而支持用户对图表进行查询或将其转换为结构化格式。该数据集的使用场景涵盖了从简单的数据检索到复杂的推理任务，极大地提升了图表理解模型的性能。

衍生相关工作

ChartBank数据集的推出催生了一系列相关研究工作，特别是在多模态大语言模型（MLLMs）领域。基于ChartBank，研究人员开发了AskChart模型，该模型通过混合专家（MoE）架构显式结合了图表的视觉和文本信息，显著提升了图表理解任务的性能。此外，ChartBank还为其他图表理解模型如ChartAst、ChartLLaMA等提供了高质量的训练数据，推动了图表理解领域的进一步发展。

数据集最近研究