CHARTOM
收藏arXiv2024-08-27 更新2024-08-28 收录
下载链接:
http://arxiv.org/abs/2408.14419v1
下载链接
链接失效反馈官方服务:
资源简介:
CHARTOM数据集由威斯康星大学麦迪逊分校和苏黎世联邦理工学院创建,包含112个精心设计的图表,涵盖线图、条形图、饼图、散点图和地图等多种类型。这些图表旨在测试多模态大型语言模型对图表的理解能力,特别是判断图表是否可能误导人类读者。数据集的创建过程中,通过人类实验获取了每个图表的误导性指数(HMI),以评估模型对图表误导性的判断能力。该数据集主要应用于人工智能领域,特别是帮助开发能够自动检测并警示误导性图表的AI系统,从而提高信息决策的准确性和可靠性。
The CHARTOM dataset was developed by the University of Wisconsin-Madison and ETH Zurich, consisting of 112 meticulously designed charts spanning multiple categories including line charts, bar charts, pie charts, scatter plots, and maps. These charts are specifically constructed to evaluate multimodal large language models' chart understanding capabilities, with a focus on their ability to determine whether a chart could potentially mislead human readers. During the dataset construction process, human experiments were conducted to obtain the Human Misleading Index (HMI) for each chart, which is used to assess models' proficiency in judging the misleading nature of charts. This dataset is primarily applied in the field of artificial intelligence, particularly to assist in developing AI systems that can automatically detect and alert about misleading charts, thereby improving the accuracy and reliability of information decision-making.
提供机构:
威斯康星大学麦迪逊分校和苏黎世联邦理工学院
创建时间:
2024-08-27
搜集汇总
数据集介绍

构建方式
CHARTOM数据集的构建采用了精心设计的图表,旨在测试多模态大型语言模型在视觉感知方面的理论心智能力。数据集包含了112个图表,涵盖了五种常见的图表类型:折线图、条形图、饼图、散点图和地图。每个图表都有原始版本和经过视觉操作的版本,后者包含了心理学文献中建议的多种可视化谬误。每个图表配有一道事实问题(FACT)和一道人类行为问题(MIND),以及对应的问题答案。事实问题的答案是固定的,而人类行为问题的答案是通过人类实验获得的,即“人类误导指数”(HMI),表示图表对人类读者的误导程度。
特点
CHARTOM数据集的特点在于它不仅要求语言模型正确理解图表,还要求其判断图表是否会对人类读者产生误导。这一特点使得数据集在评估语言模型的理论心智能力方面具有独特价值。数据集中的图表经过精心设计,以确保即使经过视觉操作,原始数据仍然可以被准确恢复。此外,数据集提供了基于人类实验的HMI,为评估模型在人类行为问题上的表现提供了客观标准。
使用方法
使用CHARTOM数据集时,研究人员可以将其作为多模态大型语言模型的基准测试。首先,模型需要对每个图表进行理解,并回答事实问题。然后,模型需要预测人类读者在看到图表后回答事实问题的错误率,即人类行为问题。评估模型在事实问题上的表现时,可以使用准确率,而对于人类行为问题,可以使用均方误差来评估模型预测的HMI与实际HMI之间的差异。此外,研究人员还可以对模型的答案与数据集中的“图表操作”文件进行比较,以了解模型是否能够识别出导致误导的关键因素。
背景与挑战
背景概述
CHARTOM数据集的创建旨在探索和评估多模态大型语言模型在视觉图表理解方面的能力。该数据集由来自威斯康星大学麦迪逊分校和苏黎世联邦理工学院的研究人员合作开发,于2024年8月27日发布。CHARTOM的核心研究问题在于,大型语言模型是否能够不仅理解图表中的客观事实(FACT问题),还能够判断图表是否可能误导人类读者(MIND问题)。这一研究对于提升人工智能在理解人类感知方面的能力具有重要意义,有助于构建更加可靠和有效的人工智能系统,从而服务于人类社会。
当前挑战
CHARTOM数据集面临的挑战主要在于如何准确评估图表对人类读者的误导程度,以及如何使大型语言模型能够像人类一样理解和判断图表的误导性。首先,构建过程中需要设计具有代表性的图表,并植入各种视觉误导因素,以模拟现实世界中可能出现的误导性图表。其次,为了获得MIND问题的真实答案,研究人员进行了人类实验,但这一过程耗时且成本高昂。此外,如何定义和量化图表的误导程度,以及如何训练和评估大型语言模型在解决MIND问题方面的能力,也是当前面临的挑战。
常用场景
经典使用场景
CHARTOM数据集专为多模态大型语言模型设计,旨在测试其在视觉图表理解方面的理论心智能力。该数据集包含112个图表,分为56对,每对包含一个原始版本和一个经过视觉操纵的版本。对于每个图表,数据集提供了两个问题:事实问题(FACT)和心智问题(MIND)。事实问题要求模型正确理解图表中的数据,而心智问题则要求模型判断图表是否会对人类读者产生误导。这一设计使得CHARTOM数据集成为评估模型在图表理解、数据提取和推理能力方面的重要工具。
实际应用
CHARTOM数据集在实际应用中具有广泛的前景。它可以帮助开发能够自动检测和警告读者关于误导性图表的AI系统。这些系统可以应用于新闻媒体、医学广告、社交媒体等领域,帮助人们识别和避免被误导。此外,CHARTOM还可以用于教育和培训,帮助人们提高对数据可视化的理解和批判性思维能力。
衍生相关工作
CHARTOM数据集的发布激发了一系列相关研究。研究者们利用CHARTOM数据集来评估和改进多模态大型语言模型在图表理解方面的能力。例如,一些研究使用CHARTOM来训练模型,使其能够更好地识别和解释图表中的数据。其他研究则利用CHARTOM来开发新的评估指标和模型评价方法。这些研究为CHARTOM数据集在理论心智和视觉理解方面的应用提供了新的视角和方向。
以上内容由遇见数据集搜集并总结生成



