five

Chart-MRAG Bench

收藏
arXiv2025-02-21 更新2025-02-22 收录
下载链接:
https://github.com/Nomothings/CHARGE.git
下载链接
链接失效反馈
官方服务:
资源简介:
Chart-MRAG Bench是一个针对图表多模态检索增强生成任务的高质量、人工审核的数据集。该数据集基于CHARGE框架,从现实世界的文档中自动生成多跳问答对,涵盖了8个不同领域,包括10种图表类型和8种问题类型。数据集中的每个样本都经过专家评估,确保了真实性和多样性,适用于评估模型处理复杂密集数据表示的能力。

Chart-MRAG Bench is a high-quality, human-reviewed dataset tailored for the chart-based multimodal retrieval-augmented generation task. Built on the CHARGE framework, it automatically generates multi-hop question-answer pairs from real-world documents, covering 8 distinct domains and encompassing 10 chart types and 8 question categories. Each sample in the dataset has undergone expert evaluation to ensure its authenticity and diversity, making it suitable for assessing a model's capability to handle complex and dense data representations.
提供机构:
重庆大学计算机学院,中国科学院空天信息研究院,快手科技
创建时间:
2025-02-21
搜集汇总
数据集介绍
main_image_url
构建方式
Chart-MRAG Bench数据集的构建方式是通过CHARGE框架实现的,该框架通过结构化的关键点提取、跨模态验证和基于关键点的生成来生成高质量的评估样本。首先,CHARGE框架从文本和图表数据中提取自我包含的关键点,然后通过跨模态验证来确保提取的关键点的模态真实性。最后,通过将相关关键点跨文档和模态组合,生成多样化的问答对。在此基础上,经过专家验证,构建了Chart-MRAG Bench数据集,包含来自真实世界文档的8个领域中的4,738个问答对。
使用方法
Chart-MRAG Bench数据集的使用方法包括:1) 作为基准数据集,用于评估和比较多模态检索增强生成(MRAG)系统的性能;2) 用于训练和测试MRAG系统,以提高其在处理复杂视觉格式(如图表)时的推理能力;3) 用于研究多模态检索和生成方法,以发现和解决现有方法的局限性。
背景与挑战
背景概述
在多模态检索增强生成(MRAG)领域,现有的基准主要关注简单的图像-文本交互,忽略了现实生活中广泛使用的复杂视觉格式,如图表。为了解决这一局限性,Chart-MRAG Bench数据集被提出。该数据集由重庆大学计算机科学与技术学院、中国科学院航空航天信息研究院和快手科技的研究人员共同创建。Chart-MRAG Bench旨在通过一个基于图表的文档问答生成框架来评估MRAG系统,特别关注图表的复杂交互和推理能力。该数据集包含来自现实世界文档的8个领域的4,738个问答对,通过CHARGE框架生成并经过专家验证。Chart-MRAG Bench的引入填补了MRAG评估在图表格式方面的空白,为MRAG系统提供了一个全面的评估基准。
当前挑战
Chart-MRAG Bench数据集面临的挑战包括:1) 统一的多模态嵌入检索方法在图表场景中表现不佳;2) 即使有真实的检索结果,最先进的MLLMs在Chart-based MRAG任务中的准确性和覆盖率仍然有限;3) MLLMs在Chart-based MRAG推理过程中表现出对文本模态的偏好。此外,构建过程中遇到的挑战包括如何半自动生成高质量的评估样本,以及如何确保关键点提取和跨模态验证的准确性。
常用场景
经典使用场景
Chart-MRAG Bench 数据集主要用于评估多模态检索增强生成 (MRAG) 系统在图表文档问答生成任务中的性能。该数据集包含 4,738 个问答对,跨越 8 个领域,涉及多种图表类型和问题类型。在图表文档问答生成任务中,模型需要从文本和图表中检索相关信息,并生成准确的答案。该数据集可以用于评估模型在多模态信息检索和生成方面的能力,以及处理复杂视觉格式的能力。
解决学术问题
Chart-MRAG Bench 数据集解决了当前 MRAG 基准主要集中在简单图像-文本交互的问题,忽视了现实应用中普遍存在的复杂视觉格式,如图表。该数据集通过引入基于图表的多模态 RAG 任务,填补了这一空白,为评估 MRAG 系统在图表场景下的性能提供了重要的基准。此外,该数据集还揭示了当前 MRAG 方法在图表场景下的三个关键局限性,包括统一的多模态嵌入检索方法在图表场景下的性能不佳,即使使用地面真实检索,最先进的 MLLMs 也只能达到 58.19% 的准确率和 73.87% 的覆盖率,以及 MLLMs 在基于图表的 MRAG 推理中表现出一致的文本-视觉模态偏差。这些发现为 MRAG 领域的研究提供了有价值的见解,并指出了未来改进的方向。
实际应用
Chart-MRAG Bench 数据集在现实世界中有广泛的应用场景。例如,它可以用于评估和改进智能问答系统、智能助手、教育软件等在处理图表文档时的性能。此外,该数据集还可以用于开发新的 MRAG 算法和模型,以提高它们在处理复杂视觉格式方面的能力。例如,通过使用该数据集进行训练和评估,可以开发出更准确的图表问答生成模型,从而帮助用户更好地理解数据和信息。
数据集最近研究
最新研究方向
针对现有基准主要关注简单图像-文本交互而忽略实际应用中普遍存在的复杂视觉格式(如图表)的问题,Chart-MRAG Bench 数据集应运而生。该数据集通过一个名为 CHARGE 的框架,实现了从结构化关键点提取、跨模态验证和基于关键点生成的方式来生成高质量的评估样本。Chart-MRAG Bench 涵盖了来自现实世界文档的 8 个领域的 4,738 个问答对,为图表为基础的 MRAG 评估提供了一个全面的基准。通过对现有方法的评估,揭示了当前方法在图表场景下的三个关键局限性:统一的多模态嵌入检索方法在图表场景中表现不佳;即使使用真实检索,最先进的 MLLMs 也只能达到 58.19% 的正确性和 73.87% 的覆盖率;MLLMs 在图表为基础的 MRAG 推理中表现出持续的文本-视觉模态偏差。Chart-MRAG Bench 的发布为图表为基础的多模态 RAG 研究提供了新的方向和挑战。
相关研究论文
  • 1
    Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework重庆大学计算机学院,中国科学院空天信息研究院,快手科技 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作