AEGIS
收藏arXiv2025-08-14 更新2025-08-16 收录
下载链接:
https://huggingface.co/datasets/Clarifiedfish/AEGIS
下载链接
链接失效反馈官方服务:
资源简介:
AEGIS数据集是一个专门为评估AI生成视频序列真实性而设计的大型基准数据集。该数据集包含超过10,000个经过严格筛选的真实和合成视频,由多种最先进的生成模型生成,包括Stable Video Diffusion、CogVideoX-5B、KLing和Sora。数据集还提供了丰富的多模态注释,包括语义真实性描述、运动特征和低级视觉特征,以促进真实性检测和支持诸如多模态融合和伪造定位等下游任务。
The AEGIS Dataset is a large-scale benchmark dataset specifically designed for evaluating the authenticity of AI-generated video sequences. It contains over 10,000 rigorously screened real and synthetic videos generated by multiple state-of-the-art generative models, including Stable Video Diffusion, CogVideoX-5B, KLing, and Sora. The dataset also provides rich multimodal annotations, including semantic authenticity descriptions, motion features and low-level visual features, to facilitate authenticity detection and support downstream tasks such as multimodal fusion and forgery localization.
提供机构:
新加坡国立大学, 新加坡高性能计算研究院, 科学技术研究局前沿人工智能研究中心
创建时间:
2025-08-14
原始信息汇总
AEGIS数据集概述
数据集基本信息
- 名称: AEGIS (Authenticity Evaluation on Generated vIdeo Samples)
- 类型: 多模态视频真实性评估基准
- 子集: Hard Test Set
- 样本数量: 436
- 下载大小: 1.51GB
- 数据集大小: 1.51GB
数据集特征
- keyframes: 代表视频语义核心的8个关键帧(图像列表)
- optical_flow: 表示时间运动动态的两张图像(图像列表)
- frequency_spectrum: 第一帧的频域信号(单图像)
- description: 视频内容文本摘要(字符串)
- reason: 真实性推理指导说明(字符串)
- meta_data: 包含标签、分辨率等信息的JSON格式字符串
- framediff_analysis: 每帧差异指标的序列化JSON
相关数据集
- AEGIS-Full: 完整数据集,包含所有分割(训练、验证、硬测试)、原始片段和中间特征
- AEGIS-Baseline: 用于复现基线方法的训练和验证子集
基准评估结果
| 模型 | 设置 | 准确率(全部) | 准确率(真实) | 准确率(AI) | Macro F1 |
|---|---|---|---|---|---|
| Qwen2.5-VL 3B | Zero-shot | 0.52 | 0.80 | 0.23 | 0.48 |
| Qwen2.5-VL 7B | Zero-shot | 0.59 | 0.89 | 0.22 | 0.52 |
| Video-LLaVA-HF 7B | Zero-shot | 0.50 | 0.00 | 1.00 | 0.33 |
| Qwen2.5-VL 3B | Reasoning-Prompt | 0.47 | 0.58 | 0.35 | 0.46 |
| Qwen2.5-VL 7B | Reasoning-Prompt | 0.57 | 0.97 | 0.16 | 0.48 |
| Video-LLaVA-HF 7B | Reasoning-Prompt | 0.46 | 0.29 | 0.63 | 0.45 |
| Qwen2.5-VL 3B | LoRA Fine-tuning | 0.56 | 0.14 | 0.97 | 0.47 |
| Qwen2.5-VL 7B | LoRA Fine-tuning | 0.61 | 0.99 | 0.24 | 0.55 |
许可信息
- 类型: 自定义学术使用许可
- 限制: 仅限非商业学术研究用途
- 引用要求: 必须引用AEGIS数据集及其构建来源数据集(TIP-I2V和Vript)
- 禁止再分发: 未经版权所有者许可,不得对数据集内容进行任何形式的传播或修改
数据来源
搜集汇总
数据集介绍

构建方式
AEGIS数据集通过多阶段系统化流程构建,整合了真实视频与合成视频两大来源。真实视频采集自Vript数据集、DVF数据集及补充YouTube素材,经过严格人工审核与标准化处理确保真实性;合成视频则采用TIP-I2V数据集及自主生成的KLing、Sora模型内容,通过GPT-4o优化提示词增强语义细节。数据过滤遵循真实性(剔除非写实内容)、难度(筛除易检测样本)、多样性(覆盖多场景/分辨率)三原则,最终形成包含5,199合成视频与5,271真实视频的平衡数据集,并划分为训练集、验证集及专为高难度样本设计的硬测试集。
特点
AEGIS的核心价值在于其前所未有的真实性与复杂性。数据集聚焦超写实视频,排除动画风格等易检测内容,通过整合7种前沿生成模型(包括Stable Video Diffusion、Sora等开源/商业系统)确保生成多样性。特别设计的硬测试集采用GPT-4o精修提示词生成高语义复杂度样本,配合多模态标注体系(含语义真实性描述、光流运动特征、频域视觉特征),为检测模型提供细粒度分析维度。实验表明,现有视觉语言模型在硬测试集上准确率不足25%,凸显其作为评估基准的严苛性。
使用方法
该数据集支持三种典型应用范式:零样本推理可直接测试模型基础检测能力;结构化推理提示通过多步骤视觉维度分析(如频域伪影、物理合理性)提升模型解释性;低秩自适应(LoRA)微调允许模型针对特定任务优化。使用时需加载多模态标注文件,其中语义描述支持提示工程,运动与视觉特征可用于辅助分类器构建。官方提供标准化的训练/验证/测试划分方案,建议优先在硬测试集评估模型泛化性,其性能差距能有效反映真实场景应对能力。
背景与挑战
背景概述
AEGIS(Authenticity Evaluation Benchmark for AI-Generated Video Sequences)是由新加坡国立大学和新加坡科技研究局高性能计算研究所的研究团队于2025年提出的一个专注于AI生成视频真实性检测的大规模基准数据集。该数据集旨在应对当前AI生成内容(AIGC)技术快速发展所带来的社会信任危机和数字完整性威胁。AEGIS包含超过10,000个经过严格筛选的真实和合成视频样本,涵盖了包括Stable Video Diffusion、CogVideoX-5B、KLing和Sora在内的多种先进生成模型。该数据集的创新性在于其特别构建的挑战性子集,这些子集通过GPT-4o优化的提示词生成,创造了前所未有的真实场景,为视频真实性检测研究提供了重要的评估基准。
当前挑战
AEGIS数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,AEGIS致力于解决高度逼真的AI生成视频检测这一关键问题,但现有检测模型在面对由先进生成技术(如Sora、KLing等)创建的超现实视频时表现不佳,尤其是在处理时间一致性、真实运动动态和跨帧语义一致性等视频特定特征时存在显著困难。在构建过程中,研究团队需要克服数据收集的复杂性,包括确保合成视频的多样性和真实性,同时保持真实视频的高质量和代表性。此外,为每个视频提供丰富的多模态注释(如语义真实性描述、运动特征和低层次视觉特征)也带来了额外的技术挑战。这些挑战使得AEGIS成为一个极具价值但也极具难度的研究资源。
常用场景
经典使用场景
AEGIS数据集在AI生成视频检测领域具有广泛的应用价值,尤其在评估和提升视频真实性检测模型的性能方面表现突出。该数据集通过整合多种先进的生成模型(如Stable Video Diffusion、CogVideoX-5B、KLing和Sora)生成的视频,覆盖了从静态物体到复杂动态场景的多样化内容。其经典使用场景包括训练和测试视频真实性检测算法,特别是在零样本学习和少样本学习环境下,模型能够通过AEGIS提供的多模态标注(如语义真实性描述、运动特征和低层次视觉特征)进行高效训练和验证。
实际应用
AEGIS数据集在实际应用中具有广泛的前景,特别是在社交媒体内容审核、数字取证和网络安全领域。例如,社交媒体平台可以利用AEGIS训练的模型检测和过滤AI生成的虚假视频,从而减少错误信息的传播。在数字取证领域,AEGIS提供的多模态特征可以帮助专家更准确地识别视频篡改痕迹。此外,网络安全公司可以通过该数据集开发的工具,实时监控和阻断恶意伪造视频的传播,保护公众免受深度伪造技术的侵害。
衍生相关工作
AEGIS数据集的发布推动了多项相关研究工作的开展。例如,基于AEGIS的挑战性子集,研究人员开发了多种新型视频检测模型,如结合光学流和频域分析的混合模型。此外,AEGIS的多模态标注也激发了跨模态学习的研究,例如利用语义描述和视觉特征联合训练的检测算法。这些衍生工作不仅提升了视频真实性检测的准确性和鲁棒性,还为多模态AI技术的发展提供了新的思路和工具。
以上内容由遇见数据集搜集并总结生成



