MisVisBench

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/HarvardVCG/MisVisBench

下载链接

链接失效反馈

官方服务：

资源简介：

MisVisBench 是一个用于评估视觉语言模型（VLMs）在检测数据可视化与标题对中误导性信息能力的数据集。该数据集基于 2×2 误导性分解框架，包含四种类型的数据样本：标题层面的推理错误（△）、可视化设计错误（○）、标题和可视化同时存在误导性（■）以及两者均无误导性（∅）。数据集共包含 3,015 个样本，分别来自 X/Twitter 和 Reddit 的 DataIsUgly 和 DataIsBeautiful 子论坛。每个样本包含样本 ID、推理错误名称列表和可视化错误名称列表，部分样本还包含作者编写的标题文本。数据集旨在帮助研究者分析 VLMs 在处理基于推理的误导信息与可视化设计扭曲方面的表现。数据集以单个 JSON 文件形式提供，采用 CC-BY-NC-SA 4.0 许可。

创建时间：

2026-03-24

原始信息汇总

MisVisBench 数据集概述

数据集基本信息

数据集名称: Evaluating Vision-Language Models on Misleading Data Visualizations (MisVisBench)
语言: 英语
数据规模: 1K<n<10K
许可证: CC-BY-NC-SA 4.0
关联论文: https://arxiv.org/abs/2603.22368
代码仓库: https://github.com/Harsh-Lalai/Evaluating-Vision-Language-Models-on-Misleading-Data-Visualizations
联系人: lalaiharsh26@gmail.com

数据集目的

该数据集旨在评估视觉语言模型在检测数据可视化-标题对中误导性信息的能力，并判断其能否正确将误导性来源归因于适当的错误类型：标题层面的推理错误和可视化设计错误。

数据集结构

数据集遵循 2 × 2 误导性分解框架，包含以下四个子集：

△: 标题存在推理错误，可视化无误
○: 可视化存在设计错误，标题无误
■: 标题和可视化均存在误导性
∅: 标题和可视化均无误（对照组）

对应的顶层数据键为：

Misleading_Caption_Non_Misleading_Vis
Non_Misleading_Caption_Misleading_Vis
Misleading_Caption_Misleading_Vis
Non_Misleading_Caption_Non_Misleading_Vis

数据统计

子集	样本数量
△	793
○	1110
■	501
∅	611
总计	3015

数据来源

子集	来源
△	X/Twitter
○	X/Twitter 和 subreddit DataIsUgly
■	X
∅	subreddit DataIsBeautiful

数据文件与格式

数据集以单个JSON文件 data.json 提供。数据结构示例如下： json { "data_type_name": { "sample_id": { "reasoning_error_names": [...], "visualization_error_names": [...], "text": "... (仅存在于 Misleading_Caption_Misleading_Vis 样本中)" } } }

数据字段说明

字段	描述
sample_id	对应原始帖子（推文或Reddit帖子）的标识符
reasoning_error_names	样本中存在的标题层面推理错误列表
visualization_error_names	图表中存在的可视化设计错误列表
text	标题文本（仅提供给 ■ 样本）

关于 text 字段的重要说明：该字段仅存在于 ■ 样本中。对于这些样本，标题由作者编写，旨在引入特定的推理错误，同时复用原有的可视化图表。其他三个子集（△、○ 和 ∅）不包含标题文本，因此这些条目中不存在 text 字段。

错误分类法

标题层面推理错误

Cherry-picking
Causal inference
Setting an arbitrary threshold
Failure to account for statistical nuance
Incorrect reading of chart
Issues with data validity
Misrepresentation of scientific studies

可视化设计错误

Truncated axis
Dual axis
Value encoded as area or volume
Inverted axis
Uneven binning
Unclear encoding
Inappropriate encoding

使用方式

可通过Hugging Face datasets 库加载数据集。具体代码示例详见数据集README。

引用格式

@article{lalai2026visuals, title={When Visuals Arent the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations}, author={Lalai, Harsh Nishant and Shah, Raj Sanjay and Pfister, Hanspeter and Varma, Sashank and Guo, Grace}, journal={arXiv preprint arXiv:2603.22368}, year={2026} }

搜集汇总

数据集介绍

构建方式

在数据可视化与自然语言处理交叉领域，MisVisBench数据集的构建采用了系统化的方法。研究者从社交媒体平台X（原Twitter）和Reddit的DataIsUgly、DataIsBeautiful等子论坛中收集了真实世界的数据可视化图像及其对应标题，并依据“2×2误导性分解”框架进行精细标注。该框架将样本划分为四类：仅标题存在推理错误、仅可视化存在设计错误、两者皆存在误导性以及两者皆无误导性的对照样本。对于“两者皆误导”的类别，研究者还人工撰写了包含特定推理错误的标题，以增强数据集的多样性和可控性。整个构建过程确保了样本来源的真实性和错误标注的准确性，为评估模型提供了可靠的基础。

使用方法

该数据集主要用于评估视觉语言模型在识别数据可视化误导信息方面的性能。研究者可通过Hugging Face平台下载单一的JSON格式数据文件，利用其清晰的层级结构访问不同误导类别的样本。每个样本均包含唯一的标识符、对应的推理错误列表和可视化错误列表。在使用时，可针对模型设计三项核心评估任务：检测图表-标题对是否具有误导性；判断误导性源于标题、可视化或两者共同作用；将误导性归因到具体的错误类别。这种使用方法支持对模型推理能力和视觉理解能力进行系统化、可量化的评测，推动相关领域的研究进展。

背景与挑战

背景概述

随着数据可视化在信息传播中扮演日益重要的角色，其潜在的误导性风险也引起了学术界的广泛关注。MisVisBench数据集由Harsh Nishant Lalai等人于2026年创建，旨在系统评估视觉语言模型在识别数据可视化与文本描述配对中的误导性信息的能力。该数据集基于一篇题为《当视觉不是问题：评估视觉语言模型在误导性数据可视化上的表现》的学术论文构建，其核心研究问题聚焦于模型能否精准区分误导性来源——即源于文本层面的推理错误，还是可视化设计缺陷，抑或是两者兼有。通过引入细粒度的错误分类体系，该数据集推动了视觉语言理解领域向更深层次的推理与归因分析迈进，为检测和防范可视化误导提供了重要的基准工具。

当前挑战

MisVisBench所针对的领域挑战在于，现有视觉语言模型往往侧重于图表的结构理解或视觉失真检测，而难以处理由文本推理与视觉设计交织产生的复杂误导性。具体而言，模型需要同时解析视觉元素的编码方式与文本描述的语义逻辑，并准确归因误导根源，这对多模态推理能力提出了更高要求。在数据集构建过程中，挑战主要体现在样本的收集与标注上：需要从社交媒体平台（如X/Twitter和Reddit）真实场景中筛选具有代表性的误导案例，并依据严谨的错误分类学进行人工标注，确保每个样本都能清晰对应到特定的推理错误或设计错误类别，同时保持数据平衡与质量控制。

常用场景

经典使用场景

在数据可视化与自然语言处理交叉领域，MisVisBench数据集为评估视觉语言模型对误导性信息的识别能力提供了标准化基准。该数据集通过精心构建的2×2误导性分解框架，将图表-标题对划分为四种类型，使研究者能够系统性地测试模型在区分文本推理错误与可视化设计错误方面的表现。其经典应用场景在于作为模型诊断工具，帮助揭示现有多模态系统在处理复杂信息误导时的内在局限与认知偏差。

解决学术问题

该数据集有效解决了多模态人工智能领域长期存在的关键问题：如何量化评估模型对复合型误导信息的理解深度。传统研究往往孤立地考察图表理解或文本推理，而MisVisBench通过整合七类文本推理错误与七类可视化设计错误，实现了对误导性来源的细粒度归因分析。这为建立更严谨的模型评估范式提供了数据基础，推动了从表面特征识别到深层逻辑推理的研究范式转变。

实际应用

在实际应用层面，该数据集为开发自动化信息验证系统提供了重要训练资源。在新闻媒体、学术出版与公共健康传播等领域，存在大量通过统计图表传播误导性观点的现象。基于MisVisBench训练的模型可部署于内容审核平台，辅助识别社交媒体中具有误导性的数据可视化内容。特别是在公共卫生危机期间，此类技术能有效遏制通过扭曲图表传播的错误信息，提升公众对统计数据的理性认知。

数据集最近研究