five

MisVisBench

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/HarvardVCG/MisVisBench
下载链接
链接失效反馈
官方服务:
资源简介:
MisVisBench 是一个用于评估视觉语言模型(VLMs)在检测数据可视化与标题对中误导性信息能力的数据集。该数据集基于 2×2 误导性分解框架,包含四种类型的数据样本:标题层面的推理错误(△)、可视化设计错误(○)、标题和可视化同时存在误导性(■)以及两者均无误导性(∅)。数据集共包含 3,015 个样本,分别来自 X/Twitter 和 Reddit 的 DataIsUgly 和 DataIsBeautiful 子论坛。每个样本包含样本 ID、推理错误名称列表和可视化错误名称列表,部分样本还包含作者编写的标题文本。数据集旨在帮助研究者分析 VLMs 在处理基于推理的误导信息与可视化设计扭曲方面的表现。数据集以单个 JSON 文件形式提供,采用 CC-BY-NC-SA 4.0 许可。
创建时间:
2026-03-24
原始信息汇总

MisVisBench 数据集概述

数据集基本信息

  • 数据集名称: Evaluating Vision-Language Models on Misleading Data Visualizations (MisVisBench)
  • 语言: 英语
  • 数据规模: 1K<n<10K
  • 许可证: CC-BY-NC-SA 4.0
  • 关联论文: https://arxiv.org/abs/2603.22368
  • 代码仓库: https://github.com/Harsh-Lalai/Evaluating-Vision-Language-Models-on-Misleading-Data-Visualizations
  • 联系人: lalaiharsh26@gmail.com

数据集目的

该数据集旨在评估视觉语言模型在检测数据可视化-标题对中误导性信息的能力,并判断其能否正确将误导性来源归因于适当的错误类型:标题层面的推理错误和可视化设计错误。

数据集结构

数据集遵循 2 × 2 误导性分解框架,包含以下四个子集:

  • : 标题存在推理错误,可视化无误
  • : 可视化存在设计错误,标题无误
  • : 标题和可视化均存在误导性
  • : 标题和可视化均无误(对照组)

对应的顶层数据键为:

  • Misleading_Caption_Non_Misleading_Vis
  • Non_Misleading_Caption_Misleading_Vis
  • Misleading_Caption_Misleading_Vis
  • Non_Misleading_Caption_Non_Misleading_Vis

数据统计

子集 样本数量
793
1110
501
611
总计 3015

数据来源

子集 来源
X/Twitter
X/Twitter 和 subreddit DataIsUgly
X
subreddit DataIsBeautiful

数据文件与格式

数据集以单个JSON文件 data.json 提供。 数据结构示例如下: json { "data_type_name": { "sample_id": { "reasoning_error_names": [...], "visualization_error_names": [...], "text": "... (仅存在于 Misleading_Caption_Misleading_Vis 样本中)" } } }

数据字段说明

字段 描述
sample_id 对应原始帖子(推文或Reddit帖子)的标识符
reasoning_error_names 样本中存在的标题层面推理错误列表
visualization_error_names 图表中存在的可视化设计错误列表
text 标题文本(仅提供给 ■ 样本

关于 text 字段的重要说明:该字段仅存在于 样本中。对于这些样本,标题由作者编写,旨在引入特定的推理错误,同时复用原有的可视化图表。其他三个子集()不包含标题文本,因此这些条目中不存在 text 字段。

错误分类法

标题层面推理错误

  • Cherry-picking
  • Causal inference
  • Setting an arbitrary threshold
  • Failure to account for statistical nuance
  • Incorrect reading of chart
  • Issues with data validity
  • Misrepresentation of scientific studies

可视化设计错误

  • Truncated axis
  • Dual axis
  • Value encoded as area or volume
  • Inverted axis
  • Uneven binning
  • Unclear encoding
  • Inappropriate encoding

使用方式

可通过Hugging Face datasets 库加载数据集。具体代码示例详见数据集README。

引用格式

@article{lalai2026visuals, title={When Visuals Arent the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations}, author={Lalai, Harsh Nishant and Shah, Raj Sanjay and Pfister, Hanspeter and Varma, Sashank and Guo, Grace}, journal={arXiv preprint arXiv:2603.22368}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在数据可视化与自然语言处理交叉领域,MisVisBench数据集的构建采用了系统化的方法。研究者从社交媒体平台X(原Twitter)和Reddit的DataIsUgly、DataIsBeautiful等子论坛中收集了真实世界的数据可视化图像及其对应标题,并依据“2×2误导性分解”框架进行精细标注。该框架将样本划分为四类:仅标题存在推理错误、仅可视化存在设计错误、两者皆存在误导性以及两者皆无误导性的对照样本。对于“两者皆误导”的类别,研究者还人工撰写了包含特定推理错误的标题,以增强数据集的多样性和可控性。整个构建过程确保了样本来源的真实性和错误标注的准确性,为评估模型提供了可靠的基础。
使用方法
该数据集主要用于评估视觉语言模型在识别数据可视化误导信息方面的性能。研究者可通过Hugging Face平台下载单一的JSON格式数据文件,利用其清晰的层级结构访问不同误导类别的样本。每个样本均包含唯一的标识符、对应的推理错误列表和可视化错误列表。在使用时,可针对模型设计三项核心评估任务:检测图表-标题对是否具有误导性;判断误导性源于标题、可视化或两者共同作用;将误导性归因到具体的错误类别。这种使用方法支持对模型推理能力和视觉理解能力进行系统化、可量化的评测,推动相关领域的研究进展。
背景与挑战
背景概述
随着数据可视化在信息传播中扮演日益重要的角色,其潜在的误导性风险也引起了学术界的广泛关注。MisVisBench数据集由Harsh Nishant Lalai等人于2026年创建,旨在系统评估视觉语言模型在识别数据可视化与文本描述配对中的误导性信息的能力。该数据集基于一篇题为《当视觉不是问题:评估视觉语言模型在误导性数据可视化上的表现》的学术论文构建,其核心研究问题聚焦于模型能否精准区分误导性来源——即源于文本层面的推理错误,还是可视化设计缺陷,抑或是两者兼有。通过引入细粒度的错误分类体系,该数据集推动了视觉语言理解领域向更深层次的推理与归因分析迈进,为检测和防范可视化误导提供了重要的基准工具。
当前挑战
MisVisBench所针对的领域挑战在于,现有视觉语言模型往往侧重于图表的结构理解或视觉失真检测,而难以处理由文本推理与视觉设计交织产生的复杂误导性。具体而言,模型需要同时解析视觉元素的编码方式与文本描述的语义逻辑,并准确归因误导根源,这对多模态推理能力提出了更高要求。在数据集构建过程中,挑战主要体现在样本的收集与标注上:需要从社交媒体平台(如X/Twitter和Reddit)真实场景中筛选具有代表性的误导案例,并依据严谨的错误分类学进行人工标注,确保每个样本都能清晰对应到特定的推理错误或设计错误类别,同时保持数据平衡与质量控制。
常用场景
经典使用场景
在数据可视化与自然语言处理交叉领域,MisVisBench数据集为评估视觉语言模型对误导性信息的识别能力提供了标准化基准。该数据集通过精心构建的2×2误导性分解框架,将图表-标题对划分为四种类型,使研究者能够系统性地测试模型在区分文本推理错误与可视化设计错误方面的表现。其经典应用场景在于作为模型诊断工具,帮助揭示现有多模态系统在处理复杂信息误导时的内在局限与认知偏差。
解决学术问题
该数据集有效解决了多模态人工智能领域长期存在的关键问题:如何量化评估模型对复合型误导信息的理解深度。传统研究往往孤立地考察图表理解或文本推理,而MisVisBench通过整合七类文本推理错误与七类可视化设计错误,实现了对误导性来源的细粒度归因分析。这为建立更严谨的模型评估范式提供了数据基础,推动了从表面特征识别到深层逻辑推理的研究范式转变。
实际应用
在实际应用层面,该数据集为开发自动化信息验证系统提供了重要训练资源。在新闻媒体、学术出版与公共健康传播等领域,存在大量通过统计图表传播误导性观点的现象。基于MisVisBench训练的模型可部署于内容审核平台,辅助识别社交媒体中具有误导性的数据可视化内容。特别是在公共卫生危机期间,此类技术能有效遏制通过扭曲图表传播的错误信息,提升公众对统计数据的理性认知。
数据集最近研究
最新研究方向
在数据可视化与多模态人工智能交叉领域,MisVisBench数据集的推出标志着对视觉语言模型(VLMs)评估范式的深化。该数据集聚焦于误导性数据可视化与文本配对的细粒度分析,将误导性根源分解为文本推理错误与可视化设计错误,突破了传统基准仅关注图表理解或视觉扭曲的局限。当前前沿研究正利用此数据集探索VLMs在复杂信息场景下的鲁棒性,特别是在公共卫生、社会科学等高风险领域,模型能否精准识别并归因误导性来源成为热点。这一方向不仅关联到虚假信息治理、科学传播等社会议题,也推动了多模态推理模型向更高层次的语义对齐与可信评估发展,为构建可靠的人工智能系统提供了关键基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作