ChartX

Name: ChartX
Creator: 上海人工智能实验室
Published: 2024-02-19 22:48:23
License: 暂无描述

arXiv2024-02-19 更新2024-06-21 收录

下载链接：

https://github.com/UniModal4Reasoning/ChartVLM

下载链接

链接失效反馈

官方服务：

资源简介：

ChartX是由上海人工智能实验室构建的多模态评估集，涵盖18种图表类型、7种图表任务、22个学科主题，以及高质量的图表数据。该数据集旨在全面严格地评估现有MLLMs在图表领域的性能。ChartX数据集包含48,000个多模态图表数据，每个图表数据包括图像、逗号分隔值(CSV)、Python代码和文本描述四种模态。数据集的应用领域包括图表理解和生成，旨在解决图表数据的多模态理解和推理问题。

ChartX is a multimodal evaluation dataset constructed by the Shanghai AI Laboratory, covering 18 chart types, 7 chart-related tasks, 22 disciplinary topics, and high-quality chart data. This dataset is designed to comprehensively and rigorously evaluate the performance of existing multimodal large language models (MLLMs) in the chart domain. The ChartX dataset contains 48,000 multimodal chart samples, with each sample including four modalities: image, comma-separated values (CSV), Python code, and text description. Its application scenarios include chart understanding and generation, aiming to address the multimodal understanding and reasoning issues related to chart data.

提供机构：

上海人工智能实验室

创建时间：

2024-02-19

搜集汇总

数据集介绍

构建方式

ChartX数据集的构建方式体现了多模态评估的全面性和复杂性。该数据集涵盖了18种图表类型、7种图表任务、22个学科主题以及高质量的图表数据。构建过程中，研究团队收集了48K的多模态图表数据，每份数据包含图像、逗号分隔值（CSV）、Python代码和文本描述四种模态。根据任务复杂度，图表任务被分为感知任务（如结构提取、图表类型分类和标题提取）和认知任务（如问答、图表描述、图表总结和图表重绘）。这种分类确保了数据集在评估多模态大语言模型（MLLMs）在图表领域的理解能力时，能够提供全面的测试场景。

使用方法

使用ChartX数据集时，研究者和开发者可以通过提供的多模态数据进行模型训练和评估。数据集中的每份图表数据都包含了图像、CSV数据、Python代码和文本描述，这为模型的多模态理解和生成能力提供了丰富的训练材料。通过针对感知任务和认知任务的训练，模型可以提升其在图表理解、信息提取和复杂推理方面的性能。此外，数据集还提供了详细的评估指标，如SCRM、GPT-acc和GPT-score，帮助用户全面评估模型在不同任务上的表现。

背景与挑战

背景概述

近年来，多模态大语言模型（MLLMs）在通用视觉语言应用中取得了显著进展，如多模态问答、具身AI和数学推理等。尽管MLLMs在广泛的多模态任务中展示了强大的泛化能力，但在基于图表数据的复杂推理任务中，其表现仍未达到人类水平。为了全面严格地评估现有MLLMs在图表领域的理解能力，上海人工智能实验室和上海交通大学的研究团队构建了ChartX数据集。该数据集涵盖18种图表类型、7种图表任务、22个学科主题和高质量的图表数据，旨在为图表理解提供一个全面的基准。ChartX的构建不仅推动了图表理解技术的发展，还为开发更具解释性的多模态模型铺平了道路。

当前挑战

ChartX数据集在构建过程中面临多重挑战。首先，图表数据的多样性和复杂性使得数据收集和标注工作异常繁重。其次，图表类型的多样性要求模型具备强大的泛化能力，以应对不同类型的图表数据。此外，图表任务的多样性，包括感知任务和认知任务，增加了模型训练和评估的难度。最后，图表数据的解释性要求模型在处理复杂推理任务时，能够提供清晰且可解释的推理结果。这些挑战不仅考验了模型的性能，也推动了多模态大语言模型在图表理解领域的技术进步。

常用场景

经典使用场景

ChartX数据集的经典使用场景在于评估多模态大语言模型（MLLMs）在复杂图表推理任务中的能力。通过涵盖18种图表类型、7种图表任务和22个学科主题，ChartX为现有的MLLMs提供了一个全面且严格的基准测试平台。研究者可以利用ChartX数据集来测试和提升模型在图表理解、信息提取和复杂逻辑推理方面的性能。

解决学术问题

ChartX数据集解决了多模态大语言模型在图表领域中的推理能力不足的问题。传统的MLLMs虽然在通用视觉-语言任务中表现出色，但在处理图表数据时，其复杂逻辑推理能力尚未得到充分探索。ChartX通过提供多样化的图表数据和任务，推动了这一领域的研究进展，有助于开发更具解释性的多模态模型，从而提升模型在科学图表数据处理中的准确性和可靠性。

实际应用

ChartX数据集在实际应用中具有广泛的前景，特别是在需要处理和分析大量图表数据的领域，如金融分析、市场研究、科学研究和教育等。通过使用ChartX训练的模型，可以自动化地从图表中提取关键信息，进行数据分析和预测，从而提高工作效率和决策的准确性。此外，ChartX还可以用于开发智能辅助工具，帮助用户更好地理解和利用图表数据。

数据集最近研究