five

Misleading ChartQA Benchmark

收藏
arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://anonymous.4open.science/r/MisleadingChartQA/
下载链接
链接失效反馈
官方服务:
资源简介:
Misleading ChartQA Benchmark是一个大规模的多模态数据集,由香港科技大学的研究团队构建,旨在评估大型多模态语言模型在识别和推理误导性图表方面的能力。该数据集包含超过3000个经过精心挑选的示例,涵盖21种误导类型和10种图表类型。每个示例包括标准化的图表代码、CSV数据和带有标签解释的多项选择题。该数据集通过多轮机器学习模型检查和专家人工审核来验证,为研究误导性图表理解提供了一个基础。

Misleading ChartQA Benchmark is a large-scale multimodal dataset constructed by the research team from the Hong Kong University of Science and Technology, designed to evaluate the ability of large multimodal language models to identify and reason about misleading charts. This dataset contains over 3,000 carefully curated examples, covering 21 types of misleading scenarios and 10 categories of charts. Each example includes standardized chart code, CSV data, and multiple-choice questions with annotated explanations. The dataset is validated through multi-round machine learning model checks and expert manual reviews, providing a foundational resource for research on misleading chart comprehension.
提供机构:
香港科技大学
创建时间:
2025-03-24
搜集汇总
数据集介绍
main_image_url
构建方式
在数据可视化领域,误导性图表已成为影响数据解读准确性的重要挑战。为系统评估多模态大语言模型识别误导性图表的能力,研究团队通过四阶段流程构建了Misleading ChartQA Benchmark:首先基于文献和专家知识建立了包含21种误导类型和10种图表类型的分类体系;随后由数据可视化专家精心设计种子多选题,包含误导性图表、问题、选项及详细解释;继而采用自动化扩展与迭代优化方法,利用GPT-4o模型生成3000余个图表变体,并通过多轮专家评审确保质量;最终由20名专业研究者进行外部验证,形成覆盖60种(误导类型×图表类型)组合的高质量基准数据集。
使用方法
该数据集主要服务于多模态大语言模型的评测与优化研究。使用时需加载标准化JSON格式的样本数据,其中包含图表代码、数据文件及多选问题。评估流程建议采用三步法:首先解析图表视觉元素,其次识别潜在误导区域,最后结合问题上下文进行推理判断。研究者可通过对比模型在原始图表与标注图表上的表现差异,量化分析模型对误导元素的敏感度。对于模型优化,建议采用区域感知推理管道(Region-Aware Misleader Reasoning),先定位误导区域再进行针对性解释,该方法在实验中使最佳模型准确率提升8%。数据集支持零样本评估和微调训练两种典型应用场景。
背景与挑战
背景概述
Misleading ChartQA Benchmark是由香港科技大学的陈子欣、宋思成等研究人员于2025年提出的一个大规模多模态数据集,旨在系统评估多模态大语言模型(MLLMs)在识别和解释误导性图表方面的能力。该数据集包含超过3,000个精心设计的样本,涵盖21种误导类型和10种图表类型。每个样本均包含标准化的图表代码、CSV数据和带标注解释的多选题,并通过多轮MLLM检查和专家人工审核确保质量。该数据集的建立填补了现有研究在评估MLLMs处理误导性图表方面的空白,为数据可视化、人机交互和人工智能领域提供了重要的研究基础。
当前挑战
Misleading ChartQA Benchmark面临的核心挑战包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集旨在解决误导性图表识别与解释这一复杂任务,其难点在于模型需要同时具备视觉感知和逻辑推理能力,以识别图表中潜在的视觉欺骗手段(如数据操纵、标注误导等)。在构建过程中,研究人员需克服样本多样性不足的挑战,通过自动化扩展和迭代人工验证确保覆盖60种(误导类型,图表类型)组合;同时需解决标注一致性问题,采用多专家协作和外部评估机制保证数据质量。此外,模型评估结果显示当前MLLMs在此任务上的最高准确率仅为47.95%,凸显了该领域的技术瓶颈。
常用场景
经典使用场景
在数据可视化领域,Misleading ChartQA Benchmark为评估多模态大语言模型(MLLMs)识别和解释误导性图表的能力提供了标准化的测试环境。该数据集通过精心设计的误导性图表和多选题,模拟了真实世界中图表可能被操纵的场景,成为研究模型抗误导性能的重要工具。
解决学术问题
该数据集解决了MLLMs在识别图表视觉欺骗方面的关键问题,填补了现有研究在误导性图表理解评估上的空白。通过系统化的误导类型分类和多样化图表覆盖,为学术界提供了衡量模型鲁棒性的基准,推动了模型在数据可信度验证方向的发展。
实际应用
在实际应用中,该数据集可训练AI系统检测新闻媒体、商业报告中的误导性数据呈现,辅助数据审查流程。其标注的误导区域和解释机制,也为开发自动化图表审核工具提供了技术基础,有助于提升公众数据素养和决策质量。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)在图表理解任务中的广泛应用,Misleading ChartQA Benchmark数据集的推出为评估模型在识别和解释误导性图表方面的能力提供了重要工具。该数据集包含超过3,000个精心策划的样本,涵盖21种误导类型和10种图表类型,为研究者提供了一个全面评估MLLMs在复杂图表推理任务中表现的基准。前沿研究方向包括提升MLLMs在识别视觉编码和数据分布误导方面的能力,以及探索如何通过区域感知的误导推理方法增强模型对误导性图表的理解。这一研究不仅推动了MLLMs在数据可视化领域的应用,也为防范误导性图表在公共传播中的滥用提供了技术支撑。
相关研究论文
  • 1
    Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering香港科技大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作