AIChartClaim
收藏arXiv2026-02-11 更新2026-02-12 收录
下载链接:
https://github.com/cezhang01/mever
下载链接
链接失效反馈官方服务:
资源简介:
AIChartClaim是一个多模态科学数据集,由宾夕法尼亚州立大学等机构创建,专注于人工智能领域的声明验证。该数据集包含科学发现作为声明、带有文本标题的图表图像作为证据以及解释文本,旨在通过结合文本和视觉证据进行联合推理。数据集通过构建两层多模态图(文本层和视觉层)实现跨模态检索,并采用对比学习目标优化检索过程。其创新性在于填补了科学领域多模态可解释声明验证数据集的空白,可应用于科学事实核查、学术图表理解等场景,提升语言模型对科学图表中量化关系的推理能力。
AIChartClaim is a multimodal scientific dataset developed by institutions including Pennsylvania State University, focusing on artificial intelligence-driven claim verification. This dataset comprises scientific claims as statements, chart images with textual titles as supporting evidence, and explanatory texts, aiming to conduct joint reasoning by combining textual and visual evidence. It implements cross-modal retrieval by constructing a two-layer multimodal graph (text layer and visual layer), and optimizes the retrieval process with contrastive learning objectives. Its innovation lies in filling the gap of multimodal interpretable claim verification datasets in the scientific domain. It can be applied in scenarios such as scientific fact-checking and academic chart understanding, enhancing the reasoning ability of large language models for quantitative relationships in scientific charts.
提供机构:
谢菲尔德大学; 北京科技大学; 加州大学圣地亚哥分校; 宾夕法尼亚州立大学
创建时间:
2026-02-11
原始信息汇总
MEVER数据集概述
数据集来源
- 数据集来源于EACL-26论文《MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval》。
数据集内容
- 该数据集用于多模态且可解释的声明验证任务。
- 数据集支持基于图的证据检索方法。
相关资源
- 数据集与源代码一同提供,地址为:https://github.com/cezhang01/mever
搜集汇总
数据集介绍

构建方式
在人工智能领域的科学文献中,图表与文本的结合常被用于呈现复杂的研究发现。AIChartClaim数据集的构建正是基于这一背景,从15个顶级人工智能会议(如AAAI、NeurIPS、ACL等)的300篇论文中,精心筛选出包含清晰图表及其文本说明的样本作为多模态证据。为确保数据质量,领域专家对原始声明和图表进行了人工审核与过滤,并通过人工撰写和GPT-4o生成相结合的方式,创建了支持与反驳两类声明,最终形成了包含1,200条声明、300个图表及对应解释的数据集。整个构建过程强调科学严谨性,所有生成内容均经过专家双重校验,以保证数据的准确性与一致性。
特点
AIChartClaim数据集在科学声明验证领域展现出独特的多模态与可解释性特征。其核心在于融合了图表图像与文本标题作为证据,要求模型进行跨模态推理,以验证人工智能领域的科学声明。与现有通用领域图表数据集不同,该数据集专注于科学语境,涵盖了折线图、柱状图、散点图等多种图表类型,并提供了详细的文本解释,以透明化验证过程。此外,数据集通过人工与生成相结合的方式,确保了声明与证据的多样性与平衡性,为研究社区提供了首个专注于人工智能领域的科学多模态验证基准。
使用方法
该数据集适用于多模态声明验证、证据检索与可解释生成等研究任务。在使用时,研究者可将图表图像与文本标题作为多模态证据输入,对声明的真实性进行分类(支持或反驳),并生成相应的文本解释以说明推理过程。数据集已划分为训练集、验证集与测试集,支持端到端模型的训练与评估。具体应用中,模型需首先从证据库中检索相关图表与文本,进而进行跨模态融合与推理,最终输出验证结果及其解释。数据集的科学特性使其特别适用于评估模型在复杂科学图表理解与推理方面的能力。
背景与挑战
背景概述
AIChartClaim数据集由张德文·策等人于2026年提出,旨在填补多模态科学领域事实核查研究的空白。该数据集聚焦人工智能领域,包含基于学术论文图表与文本标题的声明验证任务,其核心研究问题在于如何通过联合多模态推理实现科学声明的自动化验证与解释生成。数据集的构建依托于多个顶级人工智能会议论文,由来自谢菲尔德大学、宾夕法尼亚州立大学等机构的研究团队共同完成,为多模态事实核查领域提供了首个专注于科学图表理解的数据资源,推动了跨模态推理与可解释人工智能的发展。
当前挑战
AIChartClaim数据集面临的挑战主要体现在两个方面:在领域问题层面,其致力于解决科学声明验证中多模态证据融合与可解释性生成的难题,要求模型同时处理文本标题与图表图像,并生成透明化的推理解释,这对跨模态对齐与联合推理提出了较高要求;在构建过程中,数据收集受限于高质量科学图表的可获得性与领域专家的标注成本,需从有限的人工智能论文中筛选可核查声明与清晰图表,并通过人工与生成式模型结合的方式扩充数据规模,同时确保声明、证据与解释之间的一致性,这增加了数据集构建的复杂性与严谨性要求。
常用场景
经典使用场景
在人工智能领域的科学文献验证中,AIChartClaim数据集为多模态声明验证提供了关键支撑。该数据集以学术论文中的图表及其文本标注作为多模态证据,要求模型对基于这些图表得出的科学声明进行真实性判定。其经典使用场景在于训练和评估模型对图表数据的理解能力,特别是针对线图、柱状图等常见科学图表中数值趋势的解析。通过结合视觉图表与文本标注,模型需要执行跨模态推理,判断声明是否得到证据支持,并生成解释性文本以阐明推理过程。这一场景深刻反映了科学发现验证中多源信息融合的核心需求。
实际应用
在实际应用层面,AIChartClaim数据集能够服务于学术出版、科研辅助与科学教育等多个领域。在学术出版过程中,自动化系统可利用该数据集训练模型,辅助审稿人快速核查论文中基于图表数据的声明是否准确,提升审稿效率与严谨性。对于科研工作者,此类工具能帮助其在文献调研时识别潜在的错误结论或矛盾发现。在科学教育场景中,基于该数据集构建的应用可指导学生如何正确解读图表并形成基于证据的科学论断,培养其数据素养与批判性思维。此外,该技术也可扩展至需要处理科学图表与声明的知识管理平台或智能问答系统,增强其对复杂科学内容的理解与验证能力。
衍生相关工作
围绕AIChartClaim数据集,已衍生出一系列专注于多模态、可解释声明验证的经典研究工作。其关联论文提出的MEVER模型本身便是一个代表性工作,它集成了基于图的多模态证据检索、声明验证与解释生成。该工作启发了后续研究对科学图表专用数据集的构建,例如在生物医学等其他科学领域创建类似基准。同时,MEVER模型中提出的双层多模态图结构、令牌级与证据级融合机制,以及多模态融合解码器设计,为后续的多模态推理模型提供了重要参考。这些衍生工作共同推动了跨模态检索、图表理解、可解释人工智能等子方向的交叉融合,丰富了多模态事实核查领域的技术图谱。
以上内容由遇见数据集搜集并总结生成



