FakeVV

Name: FakeVV
Creator: 中国科学技术大学, 腾讯QQ, 上海创新研究院, 复旦大学
Published: 2025-05-23 00:05:06
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/zfr00/Fact-R1

下载链接

链接失效反馈

官方服务：

资源简介：

FakeVV是迄今为止最大的、最全面标注的新闻领域视频 misinformation 数据集。它具有高质量、生成的视频字幕，专门设计用于支持 misinformation 推理任务。数据集内容丰富，包括视频、标题、字幕和元数据等，数据来源为 BBC News、Guardian News、CNN 和 The New York Times 等官方新闻渠道。数据集创建过程分为数据收集、数据预处理和 misinformation 数据构建三个阶段，旨在解决当前 misinformation 检测领域中存在的规模、多样性和可解释性等问题。

FakeVV is the largest and most comprehensively annotated video misinformation dataset in the news domain to date. It features high-quality generated video captions, and is specifically designed to support misinformation reasoning tasks. The dataset has rich content including videos, headlines, captions, metadata and other related materials, with data sourced from official news outlets such as BBC News, Guardian News, CNN and The New York Times. The construction of the dataset is divided into three stages: data collection, data preprocessing and misinformation data construction, aiming to address the core challenges of scale, diversity and interpretability in the current misinformation detection field.

提供机构：

中国科学技术大学, 腾讯QQ, 上海创新研究院, 复旦大学

创建时间：

2025-05-23

原始信息汇总

Fact-R1数据集概述

基本信息

数据集名称：Fact-R1
当前状态：Under Review（审核中）

补充说明

该数据集目前未提供详细描述信息
无其他可用元数据或使用说明

搜集汇总

数据集介绍

构建方式

FakeVV数据集的构建过程体现了多模态信息处理的复杂性。研究团队从BBC News等四个官方新闻频道收集了12万条原始视频样本，经过内容过滤和去重处理后保留10万条高质量新闻视频。针对新闻视频普遍缺乏字幕的问题，创新性地采用GPT-4o驱动的字幕生成流程，通过关键帧提取和视觉实体识别技术，结合新闻标题和命名实体生成语义丰富的视频描述。为构建具有挑战性的虚假样本，研究提出非随机实体替换策略，利用CLIP模型进行跨模态相似度匹配，对人物、地点、事件和组织四类实体进行语义不一致的替换，最终形成包含5.1万对真假视频的大规模基准数据集。

使用方法

该数据集支持端到端的视频虚假信息检测研究。使用者可基于视频-文本对进行多模态特征提取，利用标注的实体篡改信息指导模型关注语义不一致区域。建议采用三阶段训练流程：首先利用85K链式思维样本进行指令微调，建立基础推理能力；接着通过5K人类偏好数据优化输出一致性；最后采用分组相对策略优化框架，结合验证性奖励函数提升检测性能。评估时应注意区分四种实体篡改类型（人物、地点、事件、组织）的检测难度，并参考提供的标准化解释性指标进行模型行为分析。

背景与挑战

背景概述

FakeVV数据集由来自中国科学技术大学、腾讯QQ等机构的研究团队于2025年创建，旨在解决社交媒体中视频虚假信息检测的挑战。该数据集包含超过10万个视频-文本对，覆盖2006年至2025年的广泛时间范围，并提供了细粒度的可解释标注。FakeVV的创建填补了视频虚假信息检测领域缺乏大规模、多样化数据集的空白，推动了多模态虚假信息检测的研究进展。数据集的核心研究问题是通过深度推理识别视频与文本之间的语义不一致性，特别是在人物、地点、事件和组织等实体层面的不一致。FakeVV已成为视频虚假信息检测领域的重要基准，为开发更强大的检测模型提供了坚实基础。

当前挑战

FakeVV数据集面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，视频虚假信息检测面临多模态异构性、时间动态性和语义复杂性等挑战，现有方法往往难以捕捉跨模态的深层不一致性。在构建过程中，研究人员需要解决大规模视频收集与标注的困难，包括确保主题多样性、时间范围广泛性以及标注的一致性和可解释性。此外，避免模型过拟合到表面视觉模式（如事实核查水印）而非学习有意义的跨模态不一致性也是一个重要挑战。数据集中实体替换策略的设计也需要平衡语义不一致性和表面流畅性，以构建具有挑战性但真实的虚假信息样本。

常用场景

经典使用场景

FakeVV数据集在视频虚假信息检测领域具有广泛的应用场景，特别是在多模态虚假信息检测任务中表现突出。该数据集通过提供大规模的新闻视频和文本对，结合细粒度的注释，为研究人员提供了丰富的实验材料。其经典使用场景包括训练和评估多模态大语言模型（MLLMs）在视频虚假信息检测任务中的性能，尤其是在跨模态推理和深度语义理解方面。

解决学术问题

FakeVV数据集解决了视频虚假信息检测领域中的多个关键学术问题。首先，它填补了大规模、多样化视频虚假信息数据集的空白，为研究提供了可靠的数据支持。其次，通过提供细粒度的注释和标准化的可解释性指标，该数据集促进了研究的一致性和可重复性。此外，数据集中的非随机实体替换策略为模型提供了更具挑战性的虚假信息样本，有助于提升模型的泛化能力。

实际应用

在实际应用中，FakeVV数据集可用于开发自动化虚假信息检测系统，帮助社交媒体平台及时识别和过滤虚假视频内容。其多模态特性使其能够捕捉视频和文本之间的不一致性，从而有效检测出误导性内容。此外，该数据集还可用于培训人工审核员，提升他们在复杂多模态环境中的虚假信息识别能力。

数据集最近研究