FMNV
收藏arXiv2025-04-10 更新2025-04-15 收录
下载链接:
http://arxiv.org/abs/2504.07687v1
下载链接
链接失效反馈官方服务:
资源简介:
FMNV数据集是一个由新闻媒体发布的新闻视频组成的创新数据集,旨在用于假新闻检测。该数据集包含了由27家新闻媒体在Twitter和YouTube上发布的2,393个新闻视频,涵盖了事故、疫情、政治等12个主题,时间跨度五年。数据集通过大规模语言模型进行数据增强,以解决真实与虚假新闻视频的数据不平衡问题,并包含了标题、视频片段和音频三种模态的信息。该数据集的构建旨在推动媒体生态系统中高影响力假新闻检测的研究,并促进了跨模态不一致性分析方法的进展。
The FMNV Dataset is an innovative corpus of news videos released by news media, specifically designed for fake news detection. This dataset contains 2,393 news videos published on Twitter and YouTube by 27 news outlets, covering 12 topics including accidents, pandemics, politics and other categories, with a five-year time span. Data augmentation via large language models (LLMs) has been applied to the dataset to address the data imbalance issue between real and fake news videos, and it includes three modalities: headlines, video clips and audio. The construction of this dataset aims to advance research on high-impact fake news detection in media ecosystems, and promote the development of cross-modal inconsistency analysis methods.
提供机构:
无
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
FMNV数据集的构建过程体现了严谨的学术方法论与创新技术应用的结合。研究团队从YouTube和Twitter平台系统采集了27家新闻媒体发布的2,393条专业新闻视频,涵盖事故、疫情、政治等12个主题领域。针对媒体发布视频真实性高度不平衡的特性,创新性地采用ERNIE 4.0等大语言模型进行数据增强,通过标题语义篡改、关键帧剪辑、合成旁白和荒诞内容生成四种技术路径,构建了1,500条具有模态不一致特征的伪造视频样本。该构建策略既解决了人工标注成本高昂的难题,又确保了数据分布的合理性。
特点
FMNV数据集在多媒体虚假新闻检测领域具有显著的特征优势。作为首个专注于媒体机构发布新闻视频的数据集,其样本平均时长达到73.8秒,近半数视频超过80秒,相比用户生成内容数据集具有更丰富的信息密度和专业制作水准。数据集精心设计的四类伪造样本(语境失真、选择性剪辑、合成旁白和刻意荒诞)覆盖了现实场景中最具社会危害性的虚假新闻形态。特别值得注意的是,通过大语言模型实现的文本篡改保持了原始词汇长度分布,有效避免了传统数据增强可能引入的长度偏差问题。
使用方法
该数据集支持端到端的跨模态虚假新闻检测研究,研究者可通过多模态特征融合框架挖掘视频标题、视觉内容和音频信息之间的不一致性。典型应用流程包括:利用CLIP和Faster R-CNN双流架构提取视频帧的全局与局部特征,通过Whisper模型转换音频文本,再结合BERT编码的标题语义特征,最后采用共注意力机制实现跨模态特征交互。实验表明,该数据集可有效验证模型对专业制作虚假新闻的检测能力,特别在识别选择性剪辑(F1 88.15%)和合成旁白(F1 87.49%)等高级伪造手段方面具有显著区分度。
背景与挑战
背景概述
FMNV数据集由Yihao Wang、Zhong Qian和Peifeng Li于2025年提出,专注于媒体发布的新闻视频中的虚假新闻检测。随着视频内容在社交媒体中的普及,多模态虚假新闻传播的风险显著增加,而现有数据集主要集中于用户生成的粗糙编辑视频,缺乏对专业制作、高社会危害性媒体虚假新闻视频的研究。FMNV填补了这一空白,包含2,393个由媒体机构发布的新闻视频,并通过大型语言模型(LLMs)进行数据增强,以解决数据不平衡问题。该数据集不仅推动了多模态虚假新闻检测领域的发展,还为研究高影响力虚假新闻提供了重要基准。
当前挑战
FMNV数据集面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,虚假新闻视频检测需解决多模态信息(如标题、视频片段和音频)之间的不一致性,尤其是针对媒体发布的专业制作视频,其欺骗性更强,检测难度更高。构建过程中的挑战包括数据收集的复杂性,需从YouTube和Twitter等平台筛选高质量媒体视频;以及数据标注的难题,通过LLMs生成虚假内容虽解决了人工标注的不足,但需确保生成内容的多样性和真实性。此外,数据不平衡问题(真实视频与虚假视频比例不均)也增加了模型训练的难度。
常用场景
经典使用场景
FMNV数据集在虚假新闻检测领域具有广泛的应用价值,尤其在多模态虚假新闻视频识别方面表现突出。该数据集通过整合新闻媒体发布的视频内容,结合标题、视频片段和音频三种模态信息,为研究者提供了丰富的多模态分析素材。其经典使用场景包括开发基于深度学习的多模态融合模型,用于识别视频中不同模态间的语义不一致性,以及检测专业制作的虚假新闻视频。数据集特别适用于分析政治、公共卫生等高风险领域的虚假信息传播模式。
解决学术问题
FMNV数据集有效解决了当前虚假新闻检测研究中的关键问题。传统数据集多包含用户生成的粗制视频,而FMNV专注于媒体发布的专业制作视频,填补了高影响力虚假新闻检测的数据空白。该数据集通过大语言模型生成的四类虚假视频(上下文不实、选择性剪辑、合成旁白和刻意荒诞),为研究多模态不一致性提供了系统化样本。其提出的双流架构基线模型FMNVD,整合了CLIP和Faster R-CNN的特征提取能力,推动了跨模态矛盾分析方法的创新。
衍生相关工作
FMNV数据集已衍生出多个具有影响力的研究方向。基于其构建的FMNVD基线模型启发了后续改进架构,如引入时空注意力机制的增强版本。数据集提出的四类虚假视频分类法被FakingRecipe等后续研究采纳,发展成为短视频平台检测的理论框架。在跨模态表征学习领域,该数据集推动了大语言模型与计算机视觉模型的协同创新,例如采用Whisper音频转录提升文本模态权重的技术路线。相关成果已延伸至深度伪造检测、政治传播分析等相邻研究领域。
以上内容由遇见数据集搜集并总结生成



