ChartBank
收藏arXiv2024-12-26 更新2024-12-31 收录
下载链接:
https://github.com/Sootung/AskChart
下载链接
链接失效反馈官方服务:
资源简介:
ChartBank是由香港科技大学(广州)和香港科技大学团队创建的大规模数据集,旨在通过整合视觉和文本信息来提升图表理解任务的性能。该数据集包含约750万条样本,涵盖了多种图表相关任务,如OCR感知数据提示、视觉提示和图表到表格的指令跟随任务。数据集的创建过程包括从图表中提取文本信息,并将其与视觉元素对齐,以生成有效的联合表示。ChartBank的应用领域主要集中在图表问答、图表到文本转换等任务,旨在解决现有模型在处理图表时未能充分利用文本信息的问题。
ChartBank is a large-scale dataset developed by teams from The Hong Kong University of Science and Technology (Guangzhou) and The Hong Kong University of Science and Technology. It aims to improve the performance of chart understanding tasks by integrating visual and textual information. The dataset contains approximately 7.5 million samples, covering a wide range of chart-related tasks including OCR-aware data prompting, visual prompting, and chart-to-table instruction following tasks. The dataset construction process involves extracting textual information from charts and aligning it with visual elements to generate effective joint representations. The primary application areas of ChartBank focus on tasks such as chart question answering and chart-to-text conversion, aiming to address the issue that existing models fail to fully leverage textual information when processing charts.
提供机构:
香港科技大学(广州)和香港科技大学
创建时间:
2024-12-26
搜集汇总
数据集介绍

构建方式
ChartBank数据集的构建过程主要分为三个子数据集:视觉提示数据集、OCR感知数据提示数据集和图表到表格指令跟随数据集。视觉提示数据集通过设计问题模板并生成相应的视觉提示(如箭头、椭圆、边界框等)来增强模型对图表特定区域的理解。OCR感知数据提示数据集则通过OCR工具从图表中提取文本信息,并结合单轮和多轮指令跟随任务,确保模型能够有效利用图表中的文本信息。图表到表格指令跟随数据集则通过将表格转换为图表,并生成带有链式思维(CoT)注释的表格对,帮助模型更好地理解图表数据。
特点
ChartBank数据集的特点在于其大规模和多模态的特性,包含约750万个样本,涵盖了多种图表类型(如饼图、柱状图、折线图等)和任务(如图表问答、图表到文本、图表到表格等)。该数据集通过视觉和文本信息的对齐,帮助模型学习更有效的联合表示。此外,数据集中的视觉提示和OCR提取的文本信息增强了模型对图表中细节的理解,使其在处理复杂图表任务时表现更为出色。
使用方法
ChartBank数据集的使用方法主要包括三个阶段的训练策略。第一阶段通过图表到表格的翻译任务,对齐视觉和文本信息,帮助模型学习图表的结构化表示。第二阶段通过多任务指令微调,使模型能够泛化到不同的图表理解任务,如图表摘要、数值推理等。第三阶段则通过混合专家(MoE)架构的微调,进一步优化模型在处理复杂任务时的表现。该数据集的使用不仅提升了模型在图表问答、图表到文本等任务中的性能,还增强了其在零样本任务中的泛化能力。
背景与挑战
背景概述
ChartBank数据集由香港科技大学(广州)和香港科技大学的研究团队于2024年创建,旨在解决图表理解任务中的视觉与文本信息融合问题。该数据集包含约750万个样本,涵盖了多种图表类型,如饼图、柱状图和折线图等。ChartBank的创建背景源于现有模型在处理图表理解任务时,主要依赖视觉信息,而忽略了图表中嵌入的丰富文本信息(如数据标签和轴标签),这限制了模型在复杂任务中的表现。通过引入AskChart模型,研究团队提出了一种结合视觉与文本信息的通用模型架构,显著提升了图表理解任务的性能。
当前挑战
ChartBank数据集在构建和应用过程中面临多重挑战。首先,图表理解任务本身具有复杂性,尤其是在需要精确解释文本信息的任务中,现有模型往往表现不佳。其次,构建过程中,如何准确对齐从图表中提取的文本信息与视觉元素是一个关键挑战,尤其是在使用OCR工具提取文本时,常出现识别错误或信息不完整的情况。此外,设计一个能够灵活适应不同图表类型和任务的高效架构,同时有效整合视觉与文本信息,也是数据集构建中的一大难题。最后,现有数据集缺乏同时包含结构化视觉元素和文本信息的训练数据,这进一步增加了构建高质量数据集的难度。
常用场景
经典使用场景
ChartBank数据集在图表理解任务中具有广泛的应用,特别是在ChartQA、Chart-to-Text和Chart-to-Table等任务中。通过结合视觉和文本信息,ChartBank能够帮助模型更准确地提取和解释图表中的关键信息,从而支持用户对图表进行查询或将其转换为结构化格式。该数据集的使用场景涵盖了从简单的数据检索到复杂的推理任务,极大地提升了图表理解模型的性能。
衍生相关工作
ChartBank数据集的推出催生了一系列相关研究工作,特别是在多模态大语言模型(MLLMs)领域。基于ChartBank,研究人员开发了AskChart模型,该模型通过混合专家(MoE)架构显式结合了图表的视觉和文本信息,显著提升了图表理解任务的性能。此外,ChartBank还为其他图表理解模型如ChartAst、ChartLLaMA等提供了高质量的训练数据,推动了图表理解领域的进一步发展。
数据集最近研究
最新研究方向
在图表理解领域,ChartBank数据集的引入标志着多模态模型在处理视觉与文本信息融合方面的重大进展。近年来,随着多模态大语言模型(MLLMs)的快速发展,图表理解任务如ChartQA和Chart-to-Text逐渐成为研究热点。然而,现有模型主要依赖于图表图像的视觉特征,未能充分利用图表中嵌入的丰富文本信息(如数据标签和轴标签),这限制了其在复杂任务中的表现。为此,AskChart模型通过引入专家混合(MoE)架构,显式地整合了图表的视觉与文本信息,显著提升了模型在多个图表理解任务中的性能。ChartBank作为大规模数据集,包含约750万样本,涵盖了视觉提示、OCR感知数据提示和图表到表格指令等多种任务,为模型训练提供了丰富的多模态数据支持。实验表明,AskChart在开放式ChartQA和Chart-to-Text任务中分别以68.3%和49.2%的优势超越了现有最先进模型,展示了其在图表理解任务中的强大潜力。这一研究方向不仅推动了图表理解技术的发展,也为多模态模型在数据可视化领域的应用提供了新的思路。
相关研究论文
- 1AskChart: Universal Chart Understanding through Textual Enhancement香港科技大学(广州)和香港科技大学 · 2024年
以上内容由遇见数据集搜集并总结生成



