Misleading ChartQA Benchmark

Name: Misleading ChartQA Benchmark
Creator: 香港科技大学
Published: 2025-03-24 02:56:33
License: 暂无描述

arXiv2025-03-24 更新2025-03-26 收录

下载链接：

https://anonymous.4open.science/r/MisleadingChartQA/

下载链接

链接失效反馈

官方服务：

资源简介：

Misleading ChartQA Benchmark是一个大规模的多模态数据集，由香港科技大学的研究团队构建，旨在评估大型多模态语言模型在识别和推理误导性图表方面的能力。该数据集包含超过3000个经过精心挑选的示例，涵盖21种误导类型和10种图表类型。每个示例包括标准化的图表代码、CSV数据和带有标签解释的多项选择题。该数据集通过多轮机器学习模型检查和专家人工审核来验证，为研究误导性图表理解提供了一个基础。

提供机构：

香港科技大学

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

在数据可视化领域，误导性图表已成为影响数据解读准确性的重要挑战。为系统评估多模态大语言模型识别误导性图表的能力，研究团队通过四阶段流程构建了Misleading ChartQA Benchmark：首先基于文献和专家知识建立了包含21种误导类型和10种图表类型的分类体系；随后由数据可视化专家精心设计种子多选题，包含误导性图表、问题、选项及详细解释；继而采用自动化扩展与迭代优化方法，利用GPT-4o模型生成3000余个图表变体，并通过多轮专家评审确保质量；最终由20名专业研究者进行外部验证，形成覆盖60种（误导类型×图表类型）组合的高质量基准数据集。

使用方法

该数据集主要服务于多模态大语言模型的评测与优化研究。使用时需加载标准化JSON格式的样本数据，其中包含图表代码、数据文件及多选问题。评估流程建议采用三步法：首先解析图表视觉元素，其次识别潜在误导区域，最后结合问题上下文进行推理判断。研究者可通过对比模型在原始图表与标注图表上的表现差异，量化分析模型对误导元素的敏感度。对于模型优化，建议采用区域感知推理管道（Region-Aware Misleader Reasoning），先定位误导区域再进行针对性解释，该方法在实验中使最佳模型准确率提升8%。数据集支持零样本评估和微调训练两种典型应用场景。

背景与挑战

背景概述

Misleading ChartQA Benchmark是由香港科技大学的陈子欣、宋思成等研究人员于2025年提出的一个大规模多模态数据集，旨在系统评估多模态大语言模型（MLLMs）在识别和解释误导性图表方面的能力。该数据集包含超过3,000个精心设计的样本，涵盖21种误导类型和10种图表类型。每个样本均包含标准化的图表代码、CSV数据和带标注解释的多选题，并通过多轮MLLM检查和专家人工审核确保质量。该数据集的建立填补了现有研究在评估MLLMs处理误导性图表方面的空白，为数据可视化、人机交互和人工智能领域提供了重要的研究基础。

当前挑战

Misleading ChartQA Benchmark面临的核心挑战包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决误导性图表识别与解释这一复杂任务，其难点在于模型需要同时具备视觉感知和逻辑推理能力，以识别图表中潜在的视觉欺骗手段（如数据操纵、标注误导等）。在构建过程中，研究人员需克服样本多样性不足的挑战，通过自动化扩展和迭代人工验证确保覆盖60种（误导类型，图表类型）组合；同时需解决标注一致性问题，采用多专家协作和外部评估机制保证数据质量。此外，模型评估结果显示当前MLLMs在此任务上的最高准确率仅为47.95%，凸显了该领域的技术瓶颈。

常用场景

经典使用场景

在数据可视化领域，Misleading ChartQA Benchmark为评估多模态大语言模型（MLLMs）识别和解释误导性图表的能力提供了标准化的测试环境。该数据集通过精心设计的误导性图表和多选题，模拟了真实世界中图表可能被操纵的场景，成为研究模型抗误导性能的重要工具。

解决学术问题

该数据集解决了MLLMs在识别图表视觉欺骗方面的关键问题，填补了现有研究在误导性图表理解评估上的空白。通过系统化的误导类型分类和多样化图表覆盖，为学术界提供了衡量模型鲁棒性的基准，推动了模型在数据可信度验证方向的发展。

实际应用

在实际应用中，该数据集可训练AI系统检测新闻媒体、商业报告中的误导性数据呈现，辅助数据审查流程。其标注的误导区域和解释机制，也为开发自动化图表审核工具提供了技术基础，有助于提升公众数据素养和决策质量。

数据集最近研究