ViF-CoT-4K
收藏github2025-12-16 更新2025-12-18 收录
下载链接:
https://github.com/JoeLeelyf/Skyra
下载链接
链接失效反馈官方服务:
资源简介:
ViF-CoT-4K是一个针对AI生成视频检测的大规模数据集,包含约4,000个视频样本,涵盖了Sora-2、Wan2.1、Kling等高质量来源。数据集提供了细粒度的标注,包括伪影类型、文本解释、时间戳和边界框。生成的视频与真实视频在语义上对齐,以避免捷径学习。
ViF-CoT-4K is a large-scale dataset for AI-generated video detection, containing approximately 4,000 video samples covering high-quality sources such as Sora-2, Wan2.1, Kling, and others. The dataset provides fine-grained annotations including artifact types, textual explanations, timestamps, and bounding boxes. The generated videos are semantically aligned with real-world videos to avoid shortcut learning.
创建时间:
2025-12-12
原始信息汇总
Skyra数据集概述
数据集基本信息
- 数据集名称: ViF-CoT-4K
- 核心用途: 用于支持可解释的AI生成视频检测模型(Skyra)的训练与评估,专注于提供细粒度的人工标注。
- 构建目的: 解决现有数据集中缺乏详细伪影标注的问题。
数据集规模与内容
- 数据量: 约4,000个视频。
- 视频来源: 包含来自Sora-2、Wan2.1、Kling等的高质量样本。
- 数据特点: 包含生成视频及其语义对齐的真实视频对,以防止捷径学习。
数据标注信息
- 标注粒度: 细粒度标注。
- 标注内容:
- 伪影类型。
- 文本解释。
- 时间戳。
- 边界框。
相关数据集
- 评估数据集: ViF-Bench,用于模型性能评估。
数据获取与使用
- 训练数据获取地址: https://huggingface.co/datasets/JoeLeelyf/ViF-CoT-4K
- 评估数据获取地址: https://huggingface.co/datasets/JoeLeelyf/ViF-Bench
- 数据准备: 需下载数据集并按照指定格式(如
test_index.json)配置本地路径。
许可信息
- 许可证: CC BY 4.0。
- 使用要求: 用户必须遵守源数据集(Kinetics-400, Panda-70M, HD-VILA-100M)的条款。
搜集汇总
数据集介绍

构建方式
在人工智能生成视频检测领域,高质量标注数据的稀缺性制约了模型的可解释性发展。ViF-CoT-4K数据集通过系统化采集与精细标注构建而成,其视频样本来源于Sora-2、Wan2.1、Kling等前沿生成模型的高质量输出,并精心匹配语义对齐的真实视频作为对照。标注过程采用多层次人工标注框架,针对每段视频不仅标注其真伪类别,更深入标注了视觉伪影的具体类型、时空位置(时间戳与边界框)以及基于思维链的文本解释,从而形成了首个大规模、细粒度的人工智能生成视频伪影标注数据集。
特点
该数据集的核心特征在于其开创性的结构化标注体系与高质量的样本构成。数据集包含约四千个视频样本,覆盖了多种主流视频生成模型,确保了技术泛化性。其标注体系构建了层次化的伪影分类法,将生成错误划分为低层级伪造与物理规律违背两大类,并进一步细分为纹理抖动、色彩异常、物理不一致等具体类别。每个样本均配备精确的时空定位信息与自然语言解释,形成了“伪影感知-定位-推理”的完整证据链,为可解释检测模型提供了坚实的训练基础。
使用方法
数据集主要用于支持Skyra模型的两阶段训练流程。在监督微调阶段,研究者需将数据集配置于LLaMA-Factory框架中,通过执行训练脚本启动模型的基础能力学习。在强化学习阶段,则需基于verl平台与特定的非对称奖励设计进行策略优化。对于评估环节,用户需预先下载并按照指定格式配置评估数据集路径,随后通过提供的推理脚本生成模型预测与解释,最终利用评估脚本计算检测准确率等性能指标。整个流程强调环境依赖的严格配置与数据路径的准确映射。
背景与挑战
背景概述
随着人工智能生成视频技术的迅猛发展,其潜在的滥用风险引发了广泛的社会关切,亟需开发可靠且可解释的检测方法。在此背景下,研究团队于2025年推出了ViF-CoT-4K数据集,旨在填补现有数据在细粒度人工标注方面的空白。该数据集由Skyra项目构建,核心研究聚焦于通过可感知的视觉伪影进行多模态推理,以提升AI生成视频检测的可解释性与准确性。作为首个大规模、具备精细标注的AI生成视频伪影数据集,ViF-CoT-4K不仅为监督微调提供了关键支撑,更推动了可解释人工智能检测领域的方法创新与基准建立。
当前挑战
在AI生成视频检测领域,核心挑战在于超越简单的二分类框架,实现具备人类可理解解释的细粒度鉴别。具体而言,模型需精准感知视频中违反物理规律或呈现低层级伪造的时空伪影,并据此进行归因推理。在数据集构建层面,挑战主要体现为如何大规模收集高质量生成视频并与真实视频进行语义对齐,以避免模型陷入捷径学习;同时,对伪影类型、时间戳及边界框进行精细化人工标注,亦是一项耗费巨大人力与专业知识的艰巨任务。
常用场景
经典使用场景
在人工智能生成视频检测领域,ViF-CoT-4K数据集主要用于支持可解释性检测模型的监督微调。该数据集通过提供细粒度的人工标注,包括伪影类型、时空定位及文本解释,使得模型能够学习识别视频中的视觉异常,如物理规律违背或纹理抖动。这一过程不仅提升了模型对AI生成内容的判别能力,还赋予了其生成详细推理链的能力,为后续的强化学习阶段奠定了坚实基础。
实际应用
在实际应用中,ViF-CoT-4K数据集为构建可靠的AI生成视频检测系统提供了核心训练资源。基于该数据集训练的模型可部署于内容审核平台,自动识别并解释社交媒体或新闻媒体中疑似伪造的视频内容,辅助人工审核。此外,在数字取证与网络安全领域,此类技术有助于追溯虚假信息的源头,遏制深度伪造技术的滥用,维护信息生态的真实性与安全性。
衍生相关工作
围绕ViF-CoT-4K数据集,衍生出了一系列专注于可解释视频检测的经典研究工作。其中,Skyra模型利用该数据集进行两阶段训练,首次实现了基于扎根伪影推理的检测与解释一体化框架。后续研究在此基础上进一步探索了多模态提示学习、时空伪影增强感知等方向,推动了如ViF-Bench等评估基准的建立,为领域内模型性能的标准化比较提供了重要依据。
以上内容由遇见数据集搜集并总结生成



