VidGuard-R1数据集
收藏arXiv2025-10-03 更新2025-10-04 收录
下载链接:
https://github.com/microsoft/VIDGUARD-R1
下载链接
链接失效反馈官方服务:
资源简介:
VidGuard-R1数据集是一个包含14万个真实和AI生成的视频对的数据集,旨在用于检测AI生成视频的真实性。该数据集由微软亚洲研究院创建,并使用最先进的视频生成模型进行数据构建,确保了数据集的多样性和区分难度。数据集的创建过程包括收集真实视频,并使用HunyuanVideo和CogVideoX模型生成对应的AI生成视频。此外,数据集还包含了Chain-of-Thought(CoT)标注,用于指导模型进行更深入的视觉内容理解。VidGuard-R1数据集的应用领域主要在于检测和解释AI生成的视频,旨在解决社会风险,如虚假信息的传播和个人声誉损害等问题。
The VidGuard-R1 Dataset is a collection of 140,000 pairs of real and AI-generated videos, purpose-built for detecting the authenticity of AI-generated videos. Developed by Microsoft Research Asia, the dataset is constructed using state-of-the-art video generation models, ensuring its diversity and the challenge of distinguishing between real and AI-generated content. The dataset construction process includes collecting real videos and generating corresponding AI-generated videos via the HunyuanVideo and CogVideoX models. Additionally, the dataset features Chain-of-Thought (CoT) annotations to guide models toward deeper visual content comprehension. The primary application scenarios of the VidGuard-R1 Dataset are detecting and explaining AI-generated videos, aiming to mitigate social risks such as the spread of disinformation and damage to personal reputations.
提供机构:
微软亚洲研究院
创建时间:
2025-10-03
搜集汇总
数据集介绍

构建方式
在人工智能生成视频技术迅猛发展的背景下,VidGuard-R1数据集通过精心设计的构建流程确保了数据质量。该数据集包含14万对真实与生成视频的平衡样本,其中真实视频源自InternVid和ActivityNet数据集,生成视频则采用HunyuanVideo和CogVideoX两种前沿生成模型制作。为确保内容对齐,生成过程以真实视频的首帧图像和文本描述作为条件输入,有效消除了基于内容的偏见。所有视频均经过标准化处理,统一为49帧、8FPS、720×480分辨率的格式,这种严格的质量控制促使模型必须关注视觉内容本质而非表面特征。
特点
该数据集最显著的特征在于其构建的挑战性与解释性并重。通过采用配对设计策略,每对真实与生成视频在视觉内容和语义语境上高度匹配,极大提升了判别难度。数据集特别注重时间一致性与物理合理性等深层特征的体现,为模型提供了丰富的学习信号。此外,通过Qwen-2.5-VL模型生成的链式思维标注,为每个视频提供了涵盖运动一致性、光照协调性、纹理伪影和物理违规四个维度的详细推理依据,这种多层次的注释体系为模型的可解释性研究奠定了坚实基础。
使用方法
该数据集支持分阶段训练范式,首先利用3万样本的链式思维标注子集进行监督微调,建立基础推理能力。随后在10万样本的强化学习子集上应用群组相对策略优化方法,通过设计针对时间伪影和生成复杂度的专用奖励模型进一步提升性能。在实际应用中,模型可同时输出视频真实性判断与多维度解释依据,支持对运动模式、光照特征、纹理质量和物理合理性等要素的联合分析。这种端到端的解决方案为视频真实性检测提供了兼具准确性与可解释性的新范式。
背景与挑战
背景概述
随着人工智能生成视频技术的飞速发展,Sora、Wan和HunyuanVideo等先进模型的出现使得合成视频与真实内容的界限日益模糊,由此引发的虚假信息传播、隐私侵犯等社会风险亟待解决。在此背景下,德克萨斯大学奥斯汀分校与微软亚洲研究院的研究团队于2025年创建了VidGuard-R1数据集,该数据集包含14万对真实与AI生成视频,通过首帧图像与文本描述的条件对齐策略构建高度逼真的对抗样本,旨在推动多模态大语言模型在视频真实性鉴别领域的发展。
当前挑战
该数据集致力于解决开放域多场景视频的生成内容检测难题,其核心挑战在于如何突破传统检测方法对单主体正面人脸的局限,有效捕捉时空一致性之外的语义与因果矛盾。在构建过程中,研究团队面临视频元数据标准化与内容对齐的双重压力,需通过分辨率、帧率等参数的严格统一消除表面线索干扰,同时利用HunyuanVideo与CogVideoX模型生成与真实视频语义匹配的合成内容,迫使模型聚焦于运动连贯性、光影一致性等本质特征的分析。
常用场景
经典使用场景
在人工智能生成视频技术迅猛发展的背景下,VidGuard-R1数据集主要应用于视频真实性鉴别的核心研究领域。该数据集通过构建14万对真实与生成视频的配对样本,为多模态大语言模型提供了系统性的训练基础,使其能够深入分析视频中的运动连贯性、光照一致性、纹理特征和物理合理性等关键维度。这种精心设计的配对机制有效避免了模型依赖视频时长、分辨率等表面特征进行判断,而是促使模型专注于视频内容的本质特征分析,从而在开放域多场景视频的鉴别任务中展现出卓越性能。
解决学术问题
该数据集有效解决了当前AI生成视频检测领域的若干关键学术难题。传统检测方法往往局限于特定场景或依赖单一模态特征,难以应对现代生成模型产生的多样化内容。VidGuard-R1通过引入基于强化学习的多模态大语言模型训练框架,突破了传统方法在语义理解和因果推理方面的局限。其设计的时序 artifacts奖励机制和生成质量评估体系,使模型能够捕捉视频中细微的时间不一致性和生成痕迹,为视频真伪鉴别提供了可解释的推理过程,显著提升了检测系统的透明度和可信度。
衍生相关工作
基于VidGuard-R1数据集的研究工作推动了多模态大语言模型在视频理解领域的深度发展。其创新的GRPO训练框架为后续研究提供了重要借鉴,催生了多个专注于视频时序分析和生成质量评估的新方法。该数据集建立的评估基准激发了针对不同生成模型的专项检测研究,包括对Sora、Wan等先进生成系统的针对性检测方案。同时,其可解释性推理机制也促进了视频取证领域的透明化研究,为构建可信赖的人工智能检测系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



