five

M4FC

收藏
arXiv2025-10-28 更新2025-11-04 收录
下载链接:
https://github.com/UKPLab/M4FC
下载链接
链接失效反馈
官方服务:
资源简介:
M4FC 是一个大规模的多模态、多语言、多文化和多任务的真实世界事实核查数据集,包含 4,982 张图片和 6,980 条声明。数据集涵盖了六种多模态事实核查任务,包括视觉声明提取、声明者意图预测、假图像检测、图像上下文化、位置验证和判决预测。数据集从 22 个组织收集数据,覆盖 10 种语言,并具有广泛的地理和文化多样性。M4FC 的创建旨在帮助人类事实核查员,通过自动化部分工作流程,减少对特定语言和文化背景的专业知识的需求。

M4FC is a large-scale real-world multimodal, multilingual, multicultural, and multi-task fact-checking dataset consisting of 4,982 images and 6,980 claims. It covers six multimodal fact-checking tasks, namely visual claim extraction, claimant intent prediction, fake image detection, image contextualization, location verification, and verdict prediction. The dataset was compiled from 22 organizations, spans 10 languages, and features broad geographic and cultural diversity. The creation of M4FC aims to support human fact-checkers by automating parts of their work processes and reducing the requirement for specialized expertise in specific linguistic and cultural contexts.
提供机构:
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI),UAE; Ubiquitous Knowledge Processing Lab (UKP Lab),Department of Computer Science,TU Darmstadt and National Research Center for Applied Cybersecurity ATHENE,Germany; Department of Electrical Engineering,KU Leuven,Belgium; Department of Computer Science,KU Leuven,Belgium
创建时间:
2025-10-28
搜集汇总
数据集介绍
main_image_url
构建方式
M4FC数据集的构建采用了专业事实核查机构提供的真实世界素材,从22个国际事实核查网络成员机构中系统收集了4,982张图像与6,980条声明。通过GPT-4o模型自动提取多语言声明文本、任务标签及元数据,并采用时间分割策略划分训练集、验证集和测试集以避免时序泄漏。为确保数据质量,研究团队通过Prolific平台招募母语标注者对自动标注结果进行双重验证,平均标注正确率达到75.8%至96.6%,同时引入逆向图像搜索技术收集网页证据,并针对位置验证任务专门采集了开放街景地图和ESRI卫星影像数据。
特点
该数据集具有四大核心特征:多模态性融合图像与文本声明,涵盖4,982张经专业核查的图像;多语言性支持阿拉伯语、英语等10种语言的声明分析;多文化性覆盖17个国家的地理文化背景,呈现全球多样性;多任务性整合视觉声明提取、位置验证等六个相互关联的核查任务。特别值得注意的是,数据集中72%的虚假信息属于语境错用类型,24%涉及图像篡改,仅3.6%为AI生成内容,真实反映了当前虚假信息的分布态势。
使用方法
研究者可通过该数据集开展端到端的多模态事实核查流程实验,支持从声明提取到最终判定的完整任务链。使用时应遵循时间分割原则,采用2022年9月前数据训练、2023年1月前数据验证、2024年9月前数据测试的划分方案。对于 verdict prediction 任务,建议在非平衡训练集上训练模型,而在平衡测试集上评估性能,以避免生成数据带来的偏差。位置验证任务需结合地图与卫星视图进行多模态推理,而声明提取任务则要求模型具备跨语言理解和外部知识融合能力。
背景与挑战
背景概述
M4FC数据集由Mohamed bin Zayed人工智能大学与达姆施塔特工业大学知识处理实验室于2025年联合发布,旨在应对日益严重的多模态虚假信息传播问题。该数据集包含来自22个国际事实核查机构的4,982张图像与6,980条声明,覆盖阿拉伯语、英语等十种语言,聚焦于图像篡改与上下文误导两类典型虚假信息模式。其创新性在于构建了包含视觉声明提取、位置验证等六项任务的完整事实核查流程,显著提升了多模态自动事实核查研究的生态效度与实用价值。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多语言文化背景下图像-文本声明一致性验证的复杂性,特别是针对语义隐含的讽刺性内容与跨文化语境的理解;在构建过程中,需克服真实世界数据收集的异构性,包括处理JavaScript动态网页的技术障碍、手动校正图像链接的工程负担,以及通过GPT-4o自动标注时面临的语义理解偏差与多语言翻译准确性问题。
常用场景
经典使用场景
在虚假信息检测研究领域,M4FC数据集最经典的使用场景是构建端到端的多模态事实核查系统。该数据集通过整合图像、文本声明和地理空间证据,支持从视觉声明提取到最终裁决预测的完整工作流程。研究人员可利用其丰富的任务标签训练模型识别图像篡改、分析声明者意图,并验证地理定位信息,从而模拟专业事实核查员的全套分析过程。
衍生相关工作
该数据集已催生多项创新性研究工作。在模型架构方面,研究者开发了专门处理多任务流水线的Transformer变体;在算法层面,涌现出结合地理空间推理的跨模态对齐方法;评估框架上,衍生出针对多语言场景的鲁棒性测试基准。这些工作显著推进了多模态事实核查技术从实验室研究向实际应用的转化进程。
数据集最近研究
最新研究方向
在数字信息验证领域,M4FC数据集推动了多模态自动事实核查的前沿研究,聚焦于跨语言、跨文化背景下的复杂任务整合。当前研究热点集中于视觉声明提取与位置验证等新型任务的算法优化,利用卫星图像和地图数据增强地理定位的准确性。该数据集通过涵盖十大语言和多元文化实例,显著提升了模型在真实场景中的泛化能力,并为应对全球性错误信息传播提供了关键技术支持。
相关研究论文
  • 1
    通过Mohamed bin Zayed University of Artificial Intelligence (MBZUAI),UAE; Ubiquitous Knowledge Processing Lab (UKP Lab),Department of Computer Science,TU Darmstadt and National Research Center for Applied Cybersecurity ATHENE,Germany; Department of Electrical Engineering,KU Leuven,Belgium; Department of Computer Science,KU Leuven,Belgium · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作