ViF-CoT-4K

Name: ViF-CoT-4K
Creator: 清华大学
Published: 2025-12-18 02:48:26
License: 暂无描述

arXiv2025-12-18 更新2025-12-19 收录

下载链接：

https://github.com/JoeLeelyf/Skyra

下载链接

链接失效反馈

官方服务：

资源简介：

ViF-CoT-4K是由清华大学团队构建的首个大规模AI生成视频人工标注数据集，包含4000条精细标注的样本。该数据集涵盖十余种前沿视频生成模型（如Sora-2、Wan2.2等）的生成内容，通过分层标注体系对视频中的物理异常和低阶伪造痕迹进行系统分类。数据来源包括真实视频（采集自Panda-70M等公开数据集）和AI生成视频，经过严格的语义对齐和人工标注流程构建。该数据集专为可解释AI视频检测任务设计，通过提供时空定位的伪造证据，支持模型在内容安全、数字取证等领域的应用。

ViF-CoT-4K is the first large-scale manually annotated dataset of AI-generated videos developed by the Tsinghua University research team, consisting of 4000 finely annotated samples. This dataset covers the generated content from over ten cutting-edge video generation models such as Sora-2, Wan2.2 and others, and systematically classifies physical anomalies and low-level forgery traces in videos via a hierarchical annotation framework. Its data sources include real videos (collected from public datasets including Panda-70M) and AI-generated videos, and it is constructed through rigorous semantic alignment and manual annotation pipelines. This dataset is specifically tailored for explainable AI video detection tasks, and supports model applications in fields such as content security and digital forensics by providing spatially and temporally localized forgery evidence.

提供机构：

清华大学

创建时间：

2025-12-18

原始信息汇总

Skyra数据集概述

数据集名称

ViF-CoT-4K

数据集简介

ViF-CoT-4K是一个专为可解释的AI生成视频检测而构建的大规模数据集。它旨在解决现有数据集中缺乏详细伪影标注的问题，为模型的监督微调（SFT）提供支持。

核心特征

规模：包含约4,000个视频。
视频来源：包含来自Sora-2、Wan2.1、Kling等模型的高质量AI生成视频样本。
标注内容：提供细粒度的人工标注，包括伪影类型、文本解释、时间戳和边界框。
数据设计：生成的视频与真实视频在语义上对齐，构成“真实-伪造”配对，以防止模型进行捷径学习。

构建目的

该数据集用于训练Skyra模型，这是一个专注于“基于伪影的推理”的多模态大语言模型（MLLM），旨在通过识别人类可感知的视觉伪影，为AI生成视频检测提供可解释的依据。

获取方式

训练数据ViF-CoT-4K可从以下地址下载：https://huggingface.co/datasets/JoeLeelyf/ViF-CoT-4K

许可证

ViF-CoT-4K数据集在CC BY 4.0许可证下发布。使用者必须遵守其源数据集（Kinetics-400, Panda-70M, HD-VILA-100M）的条款。

搜集汇总

数据集介绍

构建方式

在人工智能生成视频检测领域，构建高质量标注数据集是提升模型可解释性与检测精度的关键。ViF-CoT-4K数据集通过系统化的流程构建，首先从Panda-70M、Kinetics-400等公开数据集中采集真实视频，并利用多种前沿文本到视频与图像到视频生成模型合成对应的AI生成视频。为确保语义与格式对齐，研究团队采用多模态大语言模型生成详细视频描述，并经过人工质量检查后转化为生成提示，同时利用GPT-4o-mini进行自动过滤以保障数据一致性。在此基础上，领域专家制定了层次化的人工可感知伪影分类体系，并开发了专用标注平台，由专业标注员对AI生成视频中的伪影进行细粒度标注，包括类型、文本解释、时间戳与边界框，并对真实视频中的对应区域进行验证性标注。最后，通过Gemini-2.5-Pro模型结合提示工程策略，将人工标注转化为链式思维推理数据，从而构建出首个大规模、细粒度标注的AI生成视频伪影数据集。

特点

ViF-CoT-4K数据集在AI生成内容检测领域展现出多方面的显著特点。其核心在于引入了层次化、细粒度的人工可感知伪影分类体系，涵盖低层级伪造与物理逻辑违规两大高层类别，并进一步细分为纹理异常、色彩光照异常、物体不一致性、违反常识等八类，最终具体化为可观测的第三层伪影类型，如形状扭曲、异常物体出现等。这种结构化的分类方式为模型提供了清晰的学习目标。数据集在样本构成上注重真实性与多样性，不仅覆盖了十余种最新的开源与商业视频生成模型，还通过严格的语义对齐流程减少了真实与生成视频在时长、帧率及风格分布上的差异，有效缓解了模型对虚假关联的依赖。此外，数据集首次提供了大规模的人工标注链式思维推理数据，每条标注均包含伪影的类型、解释、时空定位信息，为训练可解释的检测模型奠定了坚实基础。

使用方法

ViF-CoT-4K数据集主要用于支持可解释AI生成视频检测模型的监督微调训练。研究人员可以基于该数据集对预训练的多模态大语言模型进行冷启动初始化，通过标准的交叉熵损失函数，训练模型根据输入的视频帧序列生成包含链式思维推理过程的响应。模型被要求遵循特定的输出格式，在思考块中逐步分析视频内容，主动搜寻或验证伪影，并使用数据集中定义的标签结构对发现的证据进行类型、时间区间和空间位置的标注。在初步监督微调后，数据集还可与强化学习策略结合，通过设计非对称准确率奖励与检查奖励，进一步激励模型自主探索判别性伪影并提升检测与解释质量。此外，数据集的层次化伪影分类体系与标注规范也可为其他检测方法提供可靠的评估基准与模型可解释性研究的参考框架。

背景与挑战

背景概述

随着基于扩散模型和多模态生成模型的飞速演进，合成视频的真实性已达到前所未有的水平，其滥用对社会安全构成日益严峻的威胁。在此背景下，清华大学自动化系的研究团队于2025年构建了ViF-CoT-4K数据集，旨在为可解释的AI生成视频检测提供关键支持。该数据集是首个大规模、具有细粒度人工标注的AI生成视频伪影数据集，专门用于支持多模态大语言模型的监督微调。其核心研究问题聚焦于如何系统性地识别并利用人类可感知的视觉伪影，作为检测与解释的可靠证据，从而推动该领域从传统的二元分类向可解释、基于证据的推理范式转变，对提升AI生成内容检测的透明度和可信度具有深远影响。

当前挑战

ViF-CoT-4K数据集致力于解决AI生成视频检测领域的关键挑战，即如何超越简单的二元分类，实现可解释的、基于伪影的检测。具体挑战包括：1）领域问题挑战：现有方法普遍缺乏对检测过程的解释能力，且难以捕捉复杂时空动态中细微的生成伪影，导致模型在面对高质量或新型生成器时泛化能力不足。2）构建过程挑战：数据收集需平衡真实与生成视频在时长、帧率、语义和风格上的差异，以避免模型学习到虚假的捷径信号。同时，建立一套清晰、无歧义且层次化的伪影分类体系，并获取高质量、细粒度的人工时空标注，是确保数据集有效性的核心难点，这需要克服标注成本高昂、标准统一困难以及伪影本身定义模糊等障碍。

常用场景

经典使用场景

在人工智能生成视频检测领域，ViF-CoT-4K数据集作为首个大规模、细粒度人工标注的生成视频伪影数据集，其经典使用场景在于为多模态大语言模型提供监督微调的训练基础。该数据集通过构建层次化的伪影分类体系，涵盖了从低层视觉伪造到物理规律违反的八类主要异常，并辅以精确的时空定位标注。研究者利用该数据集对基础模型进行冷启动初始化，使其获得识别生成视频中人类可感知伪影的核心能力，从而支撑后续的强化学习阶段，最终实现检测与解释一体化的专用模型训练。

衍生相关工作

ViF-CoT-4K数据集的发布直接催生了Skyra这一专用多模态大语言模型，并推动了可解释AIGC视频检测领域的系列经典工作。以该数据集为基础的两阶段训练策略——监督微调与强化学习——已成为后续研究如VidGuard-R1、BusterX++等模型改进的核心范式。其构建的层次化伪影分类体系被广泛采纳为行业标准，启发了DAVID-XR1等研究对标注粒度的进一步细化。同时，配套的ViF-Bench评估基准为超过十种前沿视频生成模型提供了公平测试平台，促进了检测方法与生成技术之间的协同演进与对抗性提升。

数据集最近研究