five

M4FC

收藏
github2025-11-03 更新2025-11-04 收录
下载链接:
https://github.com/UKPLab/M4FC
下载链接
链接失效反馈
官方服务:
资源简介:
M4FC是一个真实世界的多模态事实核查数据集,包含4,982张图像和6,980个声明。这些图像由来自22个组织的专业事实核查员验证,代表了多样化的文化和地理背景。每个声明提供十种语言中的一种或两种。数据集涵盖六个多模态事实核查任务:视觉声明提取、声明人意图预测、虚假检测、图像情境化、位置验证和结论预测。

M4FC is a real-world multimodal fact-checking dataset comprising 4,982 images and 6,980 claims. These images have been verified by professional fact-checkers from 22 organizations, representing diverse cultural and geographical backgrounds. Each claim is available in one or two of ten languages. The dataset encompasses six multimodal fact-checking tasks: visual claim extraction, claimant intent prediction, false detection, image contextualization, location verification, and conclusion prediction.
创建时间:
2025-10-16
原始信息汇总

M4FC数据集概述

数据集基本信息

  • 数据集名称: M4FC (Multimodal, Multilingual, Multicultural, Multitask real-world Fact-Checking Dataset)
  • 数据规模: 4,982张图像,6,980条声明
  • 数据来源: 来自22个组织的专业事实核查人员验证
  • 许可证: 数据集使用CC-BY-SA-4.0许可证,代码使用Apache 2.0许可证

核心特征

  • 多模态: 包含图像和文本声明
  • 多语言: 支持10种语言
  • 多文化: 涵盖多样文化和地理背景
  • 多任务: 支持6个多模态事实核查任务

任务类型

  1. 视觉声明提取
  2. 声明者意图预测
  3. 虚假检测
  4. 图像情境化
  5. 位置验证
  6. 结论预测

数据获取

  • 主数据文件: data/M4FC.json
  • 图像下载脚本: src/download_m4fc_images.py
  • 证据收集脚本: src/collect_RIS_evidence.py
  • 卫星图像下载: src/download_osm_satellite.py

使用要求

  • Python版本: 3.9
  • 环境配置: 通过requirements.txt安装依赖
  • 卫星图像下载需要ESRI API密钥

内容警告

数据集包含真实世界错误信息实例,部分图像涉及战争冲突等暴力内容。出于安全考虑,仅公开事实核查文章和图像的URL。

相关论文

  • 标题: M4FC: a Multimodal, Multilingual, Multicultura, Multitask real-world Fact-Checking Dataset
  • 作者: Geng, Jiahui; Tonglet, Jonathan; Gurevych, Iryna
  • 年份: 2025
  • arXiv: https://arxiv.org/abs/2510.23508
  • DOI: 10.48550/arXiv.2510.23508
搜集汇总
数据集介绍
main_image_url
构建方式
在信息验证领域,M4FC数据集的构建采用了严谨的多源采集策略。该数据集汇集了来自22家专业事实核查机构验证的4,982张图像,并配以6,980条多语言声明。为确保数据真实性,所有图像均源自实际经过核查的新闻内容,并通过反向图像搜索技术获取辅助证据。数据标注过程严格遵循多任务框架,涵盖视觉声明提取、图像情境化等六个维度的标注体系,有效避免了证据泄露问题。
特点
作为多模态事实核查领域的前沿资源,M4FC展现出显著的多元特性。其核心优势体现在跨语言维度,支持包括中文在内的十种语言声明;在文化层面覆盖了多样化的地理背景与社会语境。数据集特别注重现实场景的复杂性,保留了包含冲突事件在内的真实图像分布,同时通过URL间接访问机制平衡了伦理考量与数据完整性。这种设计使其成为首个同时具备多模态、多语言、多文化特征的事实核查基准。
使用方法
针对研究者的实践需求,M4FC提供了灵活的技术接入方案。用户可通过标准化脚本下载图像数据,并利用专用模块收集反向图像搜索证据。对于空间验证任务,数据集支持通过API密钥获取卫星地图等地理空间证据。核心工具utils.py中的数据集加载器允许按需提取六类任务的特定数据子集,这种模块化设计使得研究者能够快速构建多任务学习管道,深入探索中间任务对最终验证性能的影响机制。
背景与挑战
背景概述
随着数字媒体生态的快速发展,虚假信息在多模态内容中的传播已成为全球性挑战。M4FC数据集由德国达姆施塔特工业大学UKP实验室于2025年发布,其核心研究聚焦于构建覆盖多语言、多文化背景的真实世界事实核查系统。该数据集汇集来自22个专业事实核查机构的验证图像与声明,涵盖十种语言环境下的六项多模态任务,为跨文化信息可信度评估建立了新的基准。
当前挑战
多模态事实核查领域长期面临证据泄露、语言单一性及任务局限性的技术瓶颈。M4FC在构建过程中需克服真实场景图像的文化敏感性处理,确保十种语言声明与视觉内容的语义对齐,同时平衡六项子任务间的数据分布。专业核查人员还需对涉及战争冲突的敏感图像进行伦理标注,这些挑战共同推动了多模态可信计算范式的革新。
常用场景
经典使用场景
在信息验证领域,M4FC数据集凭借其多模态、多语言特性,成为自动化事实核查系统的核心训练资源。该数据集通过整合图像与文本声明,模拟了真实世界中虚假信息的传播模式,研究者可基于此构建端到端的验证流程,从视觉内容提取到最终真伪判定,全面覆盖事实核查的关键环节。
实际应用
在实际应用中,M4FC为新闻机构与社交平台提供了关键的技术支撑。专业事实核查人员可借助该数据集训练的模型,快速识别涉及战争冲突、公共卫生等敏感领域的图文虚假信息,其多语言覆盖特性尤其适用于全球化语境下的跨境信息治理与舆论安全维护。
衍生相关工作
基于M4FC的基准实验已催生多模态事实核查的新范式研究。后续工作聚焦于探索任务间关联机制,如视觉声明提取如何影响最终 verdict 预测,这些研究不仅深化了对多模态推理链的理解,更为构建端到端可解释核查系统提供了方法论指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作