five

MMM-Fact

收藏
arXiv2025-10-29 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/Wenyan0110/MMMFact
下载链接
链接失效反馈
官方服务:
资源简介:
MMM-Fact是一个包含125,449个经过事实核查的声明的大型基准数据集,时间跨度为1995年至2025年,涉及多个领域,每个声明都与完整的核查文章和多模态证据(文本、图像、视频、表格)配对。数据集采用三级真实性方案(真实/虚假/信息不足),支持真实性预测、可解释的事实核查、复杂证据聚合和纵向分析。

MMM-Fact is a large-scale benchmark dataset consisting of 125,449 fact-checked claims, spanning from 1995 to 2025 and covering multiple domains. Each claim is paired with complete verification articles and multimodal evidence including text, images, videos, and tables. The dataset adopts a three-tier authenticity schema (true/false/insufficient information), and supports authenticity prediction, explainable fact-checking, complex evidence aggregation, and longitudinal analysis.
提供机构:
中央财经大学
创建时间:
2025-10-29
搜集汇总
数据集介绍
main_image_url
构建方式
在信息验证领域,MMM-Fact数据集通过系统化流程构建,涵盖1995年至2025年间的125,449条多模态事实核查记录。数据采集阶段采用可复现的爬虫技术,从四个专业事实核查平台和一个新闻媒体中提取完整文章及证据链,并通过多轮人工与大语言模型协同标注,实现证据单元划分、难度分级和标签标准化。该流程确保了数据来源的多样性与时间跨度,为纵向研究提供坚实基础。
特点
作为多模态事实核查领域的创新资源,MMM-Fact融合文本、图像、视频和表格等跨模态证据,并依据证据数量划分基础、中级与高级三个难度层级。其三十年时间跨度和多领域覆盖支持概念漂移与政策演变分析,而完整的可追溯证据链与三分类真实性标签体系,则显著提升了复杂推理任务的可解释性与评估公平性。
使用方法
该数据集适用于真实性预测、可解释事实核查及跨模态推理等多类任务。研究者可通过检索难度分级开展课程式评估,利用完整文章与段落级证据定位进行端到端工作流验证。基准实验表明,结合思维链提示策略与多模态输入能有效提升模型在复杂证据聚合中的性能,为纵向分析与鲁棒性研究提供标准化框架。
背景与挑战
背景概述
在信息时代背景下,虚假与误导性信息的泛滥对社会构成严重威胁,世界经论坛《2025年全球风险报告》将'信息失序'列为未来两年最严峻的全球风险。为应对这一挑战,由中央财经大学、贝勒大学等机构研究人员于2025年联合构建了MMM-Fact数据集,该数据集涵盖1995至2025年间125,449条经过事实核查的声明,整合了文本、图像、视频和表格等多模态证据,旨在解决传统单模态数据在跨模态对齐与证据链完整性方面的不足。通过引入基于证据数量的三级检索难度标注体系,该数据集为多步骤推理与跨源证据聚合研究提供了标准化评估框架,显著推动了可解释性事实核查技术的发展。
当前挑战
在领域问题层面,MMM-Fact致力于解决多模态事实核查中证据异构性带来的核心挑战:模型需同时处理文本描述、图像内容、视频片段与表格数据间的语义对齐,并在多源证据冲突时进行可信度加权。构建过程中面临三大技术难点:其一是跨模态证据的标准化提取,需克服网页结构差异与媒体格式不兼容性问题;其二是难度分级体系的建立,要求精确量化证据复杂度与推理步骤的关联性;其三是时序一致性维护,在长达三十年的时间跨度中需保证标注标准与领域术语的稳定性。这些挑战共同凸显了现实场景中多跳推理与证据溯源的复杂性。
常用场景
经典使用场景
在虚假信息检测研究领域,MMM-Fact数据集为多模态事实核查提供了标准化评估平台。该数据集通过整合文本、图像、视频和表格等多元证据,支持端到端的验证流程设计。研究者可基于其分层难度标注体系,系统评估模型在基础、中级和高级检索任务中的表现差异,尤其适用于验证多跳推理和跨模态对齐能力的基准测试。
实际应用
在社交媒体内容审核系统中,MMM-Fact支持开发具备多源验证能力的自动化核查工具。其跨模态证据检索机制可应用于新闻机构的事实核查流水线,通过解析图表、截图等视觉证据提升虚假声明识别率。金融监管领域则利用其表格解析功能验证企业声明,公共卫生机构也能基于其健康类声明库构建疫情 misinformation 预警系统。
衍生相关工作
该数据集催生了多模态推理模型的创新架构,如基于思维链的视觉语言模型优化方案。在CHEF、FACTors等工作的基础上,研究者开发了面向跨模态对齐的MEDIAN网络和实体关系绑定的Encoder模型。其难度分层机制更启发了课程学习策略在事实核查中的运用,推动了符号推理与自省提示等前沿技术在该领域的实践验证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作