FakeVV dataset

github2025-06-04 更新2025-06-05 收录

下载链接：

https://github.com/zfr00/Fact-R1

下载链接

链接失效反馈

官方服务：

资源简介：

这里，我们展示了用于三阶段训练过程的部分数据集。请注意，由于访问限制，第三阶段的训练集（包括fakett和fakesv）未显示。

Here, we present a portion of the dataset intended for the three-phase training process. Note that due to access restrictions, the training set for the third phase (including fakett and fakesv) is not displayed.

创建时间：

2025-05-22

原始信息汇总

Fact-R1数据集概述

数据集基本信息

数据集名称: Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning
子数据集: FakeVV dataset

数据集内容

包含文件:
- data_config/long_cot_random_sampled_data.json
- data_config/dpo_training_data_sampled.json
- data_config/grpo_training_data_sampled.jsonl
未包含内容: 第三阶段训练集(fakett和fakesv)，因访问限制未展示

系统要求

软件要求

Python 3.9+
transformers>=4.49.0
flash-attn>=2.4.3
vllm>=0.7.3

硬件要求(估算)

方法	位数	1.5B模型	3B模型	7B模型
GRPO全量微调	AMP	2*24GB	4*40GB	8*40GB

使用说明

安装

bash cd fact-r1 pip install -e .

GRPO训练

bash bash examples/qwen2_5_vl_7b_fact_r1_grpo.sh

合并Hugging Face格式检查点

bash python3 scripts/model_merger.py --local_dir path_to_your_last_actor_checkpoint

注意事项

本项目不提供Long-CoT指令微调和DPO偏好对齐的脚本
建议使用LLaMA-Factory实现相关需求

致谢

基于EasyR1和veRL项目构建

搜集汇总

数据集介绍

构建方式

FakeVV数据集作为视频虚假信息检测领域的重要资源，其构建过程采用了严谨的三阶段训练框架。数据集通过整合多源异构数据，包括来自[fakett](https://github.com/ICTMCG/FakingRecipe)和[fakesv](https://github.com/ICTMCG/FakeSV)的受限数据，形成了包含长链思维提示、直接偏好优化和梯度惩罚强化学习三种训练模式的完整体系。技术实现上依托Python 3.9+环境和transformers等先进深度学习框架，采用AMP混合精度训练策略，针对1.5B至7B不同规模模型进行了显存占用优化。

特点

该数据集最显著的特征在于其多层次的可解释性检测架构，通过Long-CoT随机采样数据、DPO训练数据和GRPO训练数据的有机组合，实现了从基础特征提取到深度推理的完整认知链条。数据配置采用json和jsonl混合格式存储，既保留了结构化数据的严谨性，又兼顾了大规模数据处理的效率需求。特别值得注意的是，数据集针对视频虚假信息检测中的时序建模和多模态融合等核心挑战，提供了专门的训练样本和评估基准。

使用方法

使用该数据集需配置Python 3.9+运行环境，并安装transformers≥4.49.0、flash-attn≥2.4.3等依赖库。实践应用时可通过执行qwen2_5_vl_7b_fact_r1_grpo.sh脚本启动GRPO训练流程，利用model_merger.py工具完成Hugging Face格式的模型参数融合。对于需要长链思维指令微调和DPO偏好对齐的高级应用场景，建议结合LLaMA-Factory框架进行扩展开发。硬件配置方面需根据模型规模选择2-8块显存容量为24GB-40GB的GPU设备。

背景与挑战

背景概述

FakeVV数据集是面向可解释性视频虚假信息检测领域的专业数据集，由ICTMCG研究团队构建并发布于GitHub平台。该数据集作为Fact-R1项目的重要组成部分，旨在通过三阶段训练过程推动深度推理技术在视频虚假信息检测中的应用。数据集构建融合了多源数据，包括fakett和fakesv等受限访问的专项训练集，体现了跨平台虚假内容检测的研究思路。FakeVV的发布为视频内容真实性验证领域提供了关键的数据支撑，其采用的GRPO训练框架和长链推理技术为后续研究树立了新的技术标杆。

当前挑战

视频虚假信息检测面临内容复杂度高、伪造手段多样的核心挑战。FakeVV数据集针对深度伪造视频的多模态特征提取难题，需要解决时序一致性验证与跨模态对齐的技术瓶颈。数据构建过程中，研究团队需处理受限数据的访问权限问题，平衡不同数据源的分布差异。模型训练阶段面临显存占用优化挑战，7B参数量的全微调需要8块40GB显存显卡的硬件支持。多阶段训练框架的协同优化也增加了算法实现的复杂度，特别是长链推理与偏好对齐的技术整合对计算架构提出了更高要求。

常用场景

经典使用场景

在视频虚假信息检测领域，FakeVV数据集为研究者提供了一个多阶段训练框架下的标准测试平台。该数据集特别适用于探索深度推理模型在识别伪造视频内容时的表现，通过其精心设计的训练集配置，研究人员能够系统地评估模型在不同推理阶段的性能变化。

衍生相关工作

围绕FakeVV数据集已衍生出多个重要研究方向，包括EasyR1框架的优化应用和veRL系统的性能提升。这些工作进一步拓展了数据集在跨模态推理、小样本学习等领域的应用边界，推动了视频真实性检测技术的整体发展。

数据集最近研究