Chart-MRAG Bench

Name: Chart-MRAG Bench
Creator: 重庆大学计算机学院，中国科学院空天信息研究院，快手科技
Published: 2025-02-21 02:59:42
License: 暂无描述

arXiv2025-02-21 更新2025-02-22 收录

下载链接：

https://github.com/Nomothings/CHARGE.git

下载链接

链接失效反馈

官方服务：

资源简介：

Chart-MRAG Bench是一个针对图表多模态检索增强生成任务的高质量、人工审核的数据集。该数据集基于CHARGE框架，从现实世界的文档中自动生成多跳问答对，涵盖了8个不同领域，包括10种图表类型和8种问题类型。数据集中的每个样本都经过专家评估，确保了真实性和多样性，适用于评估模型处理复杂密集数据表示的能力。

Chart-MRAG Bench is a high-quality, human-reviewed dataset tailored for the chart-based multimodal retrieval-augmented generation task. Built on the CHARGE framework, it automatically generates multi-hop question-answer pairs from real-world documents, covering 8 distinct domains and encompassing 10 chart types and 8 question categories. Each sample in the dataset has undergone expert evaluation to ensure its authenticity and diversity, making it suitable for assessing a model's capability to handle complex and dense data representations.

提供机构：

重庆大学计算机学院，中国科学院空天信息研究院，快手科技

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

Chart-MRAG Bench数据集的构建方式是通过CHARGE框架实现的，该框架通过结构化的关键点提取、跨模态验证和基于关键点的生成来生成高质量的评估样本。首先，CHARGE框架从文本和图表数据中提取自我包含的关键点，然后通过跨模态验证来确保提取的关键点的模态真实性。最后，通过将相关关键点跨文档和模态组合，生成多样化的问答对。在此基础上，经过专家验证，构建了Chart-MRAG Bench数据集，包含来自真实世界文档的8个领域中的4,738个问答对。

使用方法

Chart-MRAG Bench数据集的使用方法包括：1) 作为基准数据集，用于评估和比较多模态检索增强生成(MRAG)系统的性能；2) 用于训练和测试MRAG系统，以提高其在处理复杂视觉格式（如图表）时的推理能力；3) 用于研究多模态检索和生成方法，以发现和解决现有方法的局限性。

背景与挑战

背景概述

在多模态检索增强生成（MRAG）领域，现有的基准主要关注简单的图像-文本交互，忽略了现实生活中广泛使用的复杂视觉格式，如图表。为了解决这一局限性，Chart-MRAG Bench数据集被提出。该数据集由重庆大学计算机科学与技术学院、中国科学院航空航天信息研究院和快手科技的研究人员共同创建。Chart-MRAG Bench旨在通过一个基于图表的文档问答生成框架来评估MRAG系统，特别关注图表的复杂交互和推理能力。该数据集包含来自现实世界文档的8个领域的4,738个问答对，通过CHARGE框架生成并经过专家验证。Chart-MRAG Bench的引入填补了MRAG评估在图表格式方面的空白，为MRAG系统提供了一个全面的评估基准。

当前挑战

Chart-MRAG Bench数据集面临的挑战包括：1) 统一的多模态嵌入检索方法在图表场景中表现不佳；2) 即使有真实的检索结果，最先进的MLLMs在Chart-based MRAG任务中的准确性和覆盖率仍然有限；3) MLLMs在Chart-based MRAG推理过程中表现出对文本模态的偏好。此外，构建过程中遇到的挑战包括如何半自动生成高质量的评估样本，以及如何确保关键点提取和跨模态验证的准确性。

常用场景

经典使用场景

Chart-MRAG Bench 数据集主要用于评估多模态检索增强生成 (MRAG) 系统在图表文档问答生成任务中的性能。该数据集包含 4,738 个问答对，跨越 8 个领域，涉及多种图表类型和问题类型。在图表文档问答生成任务中，模型需要从文本和图表中检索相关信息，并生成准确的答案。该数据集可以用于评估模型在多模态信息检索和生成方面的能力，以及处理复杂视觉格式的能力。

解决学术问题

Chart-MRAG Bench 数据集解决了当前 MRAG 基准主要集中在简单图像-文本交互的问题，忽视了现实应用中普遍存在的复杂视觉格式，如图表。该数据集通过引入基于图表的多模态 RAG 任务，填补了这一空白，为评估 MRAG 系统在图表场景下的性能提供了重要的基准。此外，该数据集还揭示了当前 MRAG 方法在图表场景下的三个关键局限性，包括统一的多模态嵌入检索方法在图表场景下的性能不佳，即使使用地面真实检索，最先进的 MLLMs 也只能达到 58.19% 的准确率和 73.87% 的覆盖率，以及 MLLMs 在基于图表的 MRAG 推理中表现出一致的文本-视觉模态偏差。这些发现为 MRAG 领域的研究提供了有价值的见解，并指出了未来改进的方向。

实际应用

Chart-MRAG Bench 数据集在现实世界中有广泛的应用场景。例如，它可以用于评估和改进智能问答系统、智能助手、教育软件等在处理图表文档时的性能。此外，该数据集还可以用于开发新的 MRAG 算法和模型，以提高它们在处理复杂视觉格式方面的能力。例如，通过使用该数据集进行训练和评估，可以开发出更准确的图表问答生成模型，从而帮助用户更好地理解数据和信息。

数据集最近研究