Misviz, Misviz-synth
收藏arXiv2025-08-29 更新2025-11-25 收录
下载链接:
https://github.com/UKPLab/arxiv2025-misviz
下载链接
链接失效反馈官方服务:
资源简介:
Misviz数据集包含2604个真实世界的可视化,涵盖了12种误导类型。Misviz-synth数据集是一个合成数据集,包含81814个可视化,基于真实世界的数据表生成。这两个数据集为检测和识别误导性可视化提供了大规模和多样化的数据资源,有助于研究和开发相关的AI模型。
The Misviz dataset contains 2,604 real-world visualizations covering 12 types of misleading visualizations. The Misviz-synth dataset is a synthetic dataset consisting of 81,814 visualizations generated from real-world data tables. These two datasets provide large-scale and diverse data resources for the detection and recognition of misleading visualizations, facilitating the research and development of relevant AI models.
提供机构:
Ubiquitous Knowledge Processing Lab (UKP Lab), Department of Computer Science, TU Darmstadt and National Research Center for Applied Cybersecurity ATHENE; Department of Electrical Engineering, KU Leuven; Department of Computer Science, KU Leuven
创建时间:
2025-08-29
搜集汇总
数据集介绍

构建方式
在数据可视化可信性研究领域,Misviz数据集的构建采用了多源采集与专家标注相结合的方法。研究团队从三个主要渠道收集可视化样本:Lo等人(2022)的现有语料库、WTF Visualizations网站以及Reddit的r/dataisugly和r/dataisbeautiful社区。通过感知哈希技术去除重复样本后,聘请具有博士学位的标注人员对可视化图表进行多轮精细标注,包括图表类型识别、误导特征标注和非误导性验证,确保了标注质量的高可靠性。
特点
该数据集的核心特征体现在其规模与多样性的完美平衡。Misviz包含2,604个真实世界可视化样本,覆盖12种精心选择的误导类型,从常见的截断坐标轴到复杂的三维效果失真。数据集中的可视化样本呈现多语言、多图像类型的特性,既有标准截图也包含纸质文档和电子屏幕的拍摄图像。特别值得注意的是,85%的误导性可视化仅包含单一误导特征,而14%和1%的样本分别包含两个和三个误导特征,这种分布真实反映了实际场景中误导可视化的出现模式。
使用方法
数据集的设计支持多层次的研究应用。在模型评估方面,Misviz被划分为少样本开发集(5%)、验证集(15%)和保留测试集(80%),支持从超参数调优到最终性能评估的全流程。研究实践表明,多模态大语言模型在该数据集上表现最佳,特别适合在线环境中的误导可视化检测。对于需要轴元数据的规则检测器,建议结合Misviz-synth合成数据集进行轴提取模型的预训练,但需注意其向真实场景的泛化能力限制。
背景与挑战
背景概述
Misviz与Misviz-synth数据集由德国达姆施塔特工业大学UKP实验室与比利时鲁汶大学研究团队于2025年联合发布,聚焦于误导性数据可视化的自动检测这一前沿课题。该研究旨在应对社交媒体时代错误图表加速虚假信息传播的严峻挑战,通过构建包含2,604个真实图表与81,814个合成图标的双模态数据集,系统标注了12类违反图表设计原则的误导特征。作为首个大规模开放基准,其创新性地融合真实场景复杂性与合成数据可扩展性,为多模态大语言模型与规则检测系统的性能评估提供了重要基础设施。
当前挑战
该领域面临双重挑战:在问题层面,误导性图表检测需克服视觉特征多样性、多标签分类复杂性及语义理解深度等障碍,例如三维效果扭曲比例与截断坐标轴放大差异等细微误导特征的精准识别;在构建层面,数据集创建需解决真实图表标注一致性保障、跨平台图表结构统一性处理、以及合成数据向真实场景迁移的泛化能力等难题,尤其体现在众包标注者间中等一致性(Fleiss κ=0.53)与Matplotlib生成图表多样性不足等技术瓶颈。
常用场景
经典使用场景
在数据可视化可信度评估领域,Misviz数据集为检测误导性图表提供了关键基准。该数据集通过标注12类常见误导特征,支持多模态大语言模型和专用分类器在真实场景下的性能验证。研究人员利用其2604个真实世界可视化样本,系统评估模型对截断坐标轴、三维效果、不恰当饼图使用等误导模式的识别能力,为自动化检测系统开发奠定基础。
衍生相关工作
基于该数据集衍生的经典研究包括多模态大语言模型的系统性评测框架,以及结合规则检测器与深度学习分类器的混合方法。相关工作探索了合成数据训练模型向真实场景的迁移能力,推动了可视化理解领域的新范式。后续研究进一步扩展了误导特征 taxonomy,开发了支持实时检测的浏览器插件,并在图表去渲染、元数据提取等关联任务上取得了显著进展。
数据集最近研究
最新研究方向
在数据可视化可信性研究领域,Misviz与Misviz-synth数据集的发布标志着误导性图表检测研究进入规模化评估新阶段。当前研究聚焦于多模态大语言模型在真实场景下的泛化能力与基于规则的系统在可控环境中的精确检测之间的性能平衡。前沿探索揭示,尽管GPT系列模型凭借强大的OCR能力在真实图表检测中表现卓越,但在合成数据集上,基于轴元数据提取的规则检测器与微调分类器展现出更高精度。这一发现推动了面向图表设计辅助工具与在线内容审核系统的差异化技术路线发展。随着社交媒体中误导性可视化内容的广泛传播,特别是在公共卫生与政治议题中的滥用现象日益严重,该数据集为构建自动化内容审核系统提供了关键基准,对遏制网络错误信息传播具有重要实践意义。
相关研究论文
- 1通过Ubiquitous Knowledge Processing Lab (UKP Lab), Department of Computer Science, TU Darmstadt and National Research Center for Applied Cybersecurity ATHENE; Department of Electrical Engineering, KU Leuven; Department of Computer Science, KU Leuven · 2025年
以上内容由遇见数据集搜集并总结生成



