five

Mocheg

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/vt-nlp/mocheg
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模的多模态事实核查与解释数据集,包含了15,601项主张和33,880段文本段落。其任务是对这些内容进行多模态的事实核查。

This dataset is a large-scale multimodal fact-checking and explanation dataset, encompassing 15,601 claims and 33,880 text passages. The associated task is to perform multimodal fact-checking on these contents.
搜集汇总
数据集介绍
main_image_url
构建方式
Mocheg数据集以PolitiFact和Snopes两大事实核查网站为数据源,通过定制化脚本系统性地采集了包含文本或图像的声明、真实性标签、由记者标注的多模态证据及其来源链接,以及解释裁决过程的说明性文章。基于证据来源链接,进一步利用Boilerpipe和Newspaper工具从关联网页中提取文本与图像证据,并通过Twitter API获取推文中的多模态内容。为统一标注体系,将原始超过75种标签映射为支持、反驳和信息不足三类。经过去除广告图像、无法获取证据或裁决文章的声明等清洗步骤,最终构建了包含15,601条声明、33,880段文本证据和12,112张图像证据的大规模基准数据集。
特点
Mocheg数据集的核心特色在于其开创性地支持端到端多模态事实核查与解释生成任务,要求系统自动完成证据检索、声明验证和解释生成三个子任务。所有声明均附带由专业事实核查记者人工标注的真实性标签、多模态证据和裁决说明,确保了标注与证据的可靠性。数据集包含超过9万篇文档和12万张图像构成的庞大网络资源库,其中仅约30%的文档和10%的图像包含相关证据,模拟了真实场景中证据稀疏的检索挑战。此外,数据集的标签分布均衡,避免了分布偏差问题,为评估模型性能提供了公平基础。
使用方法
Mocheg数据集的使用遵循端到端多模态事实核查与解释生成的完整流程。研究者首先利用SBERT和CLIP模型分别从文本和图像语料库中检索与声明相关的候选证据,并通过重排序模型精化检索结果。随后,基于检索到的多模态证据,采用融合跨模态注意力机制的神经网络对声明真实性进行三分类预测。最后,以声明、预测标签和文本证据为输入,通过BART序列到序列模型生成连贯的裁决解释语句。数据集已公开提供训练、验证和测试划分,并附带基准模型代码,便于复现与改进。
背景与挑战
背景概述
在信息时代,虚假信息的泛滥已成为社会面临的严峻挑战,尤其随着社交媒体和大型语言模型的兴起,误导性内容以文本、图像、视频等多模态形式迅速传播,给事实核查工作带来了前所未有的复杂性。现有研究多聚焦于单一文本模态,或依赖自动生成的标签与证据,缺乏人工验证的可靠性,且鲜有系统能够同时完成证据检索、真伪判定与解释生成这一完整流程。为此,弗吉尼亚理工大学和理海大学的研究人员于2023年提出了Mocheg数据集,由Barry Menglong Yao等人构建,旨在推动端到端多模态事实核查与解释生成的研究。该数据集包含15,601条人工标注的声明、33,880段文本证据和12,112张图像证据,并附有由专业事实核查记者撰写的裁决说明,填补了该领域缺乏高质量基准数据的空白,对提升自动化事实核查的可信度与可解释性具有重要影响力。
当前挑战
Mocheg数据集所面临的挑战主要体现在两个方面。在领域问题层面,多模态事实核查需要系统具备跨模态推理能力,例如结合文本与图像证据判断声明真伪,但现有模型在融合互补信息时表现不佳,尤其是对图表、地图等复杂图像的深层语义理解不足。此外,跨文档推理、数学计算、常识推理及部分支持或驳斥的声明处理也构成显著障碍。在数据集构建过程中,挑战源于证据来源的多样性,包括从数千个不同HTML模板的网页中提取文本与图像,以及通过Twitter API收集推文数据,同时需去除广告图片等噪声。最终构建的语料库中仅30%的文档和10%的图像包含相关证据,使得证据检索任务极具挑战性,现有模型在检索精度和召回率上仍有巨大提升空间。
常用场景
经典使用场景
在虚假信息泛滥的数字化时代,Mocheg数据集为端到端多模态事实核查与解释生成提供了开创性的基准。其经典使用场景聚焦于三项级联子任务:首先,系统需从海量网络资源(涵盖新闻文章、图像、推文等)中自动检索与待核查声明相关的多模态证据;其次,基于检索到的文本与图像证据,模型需判断声明的真实性(支持、反驳或信息不足);最后,生成一段连贯的文本解释,阐明推理与裁决过程。这一完整流程模拟了专业事实核查员的工作范式,尤其适用于处理包含视觉信息的复杂声明,如政治演讲截图或社交媒体上的误导性图像。
解决学术问题
Mocheg解决了现有事实核查研究中的三大核心学术困境:其一,多数数据集仅依赖文本模态,忽略了图像在验证声明中的关键作用,而Mocheg提供了经人工标注的多模态证据,填补了跨模态推理的空白;其二,以往工作仅输出真实性标签,缺乏可解释性,Mocheg要求模型生成解释性陈述,推动了可解释事实核查的发展;其三,传统研究假设证据已预先给定,不符合实际场景,Mocheg强制系统从大规模语料库中自主检索证据,使任务更具挑战性与现实意义。该数据集为多模态检索、声明验证及自然语言生成的交叉研究树立了重要标杆。
衍生相关工作
Mocheg的发布催生了一系列衍生研究工作,尤其在多模态检索与生成式事实核查的交叉领域。研究者基于其基准框架,探索了更先进的跨模态注意力机制(如CLIP与BERT的联合微调)以提升证据检索的精准度;同时,针对解释生成任务,衍生出结合强化学习与对比学习的优化方法,旨在增强生成文本与真实性标签的一致性。此外,该数据集还启发了开放域事实核查的研究方向,即从不可控的网络资源中甄别证据的可信度,并推动了针对大型语言模型幻觉现象的检测工作。这些后续研究共同拓展了多模态事实核查的理论边界与应用潜能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作