five

AIGC视频取证数据集|视频取证数据集|AI生成内容检测数据集

收藏
arXiv2024-05-07 更新2024-08-06 收录
视频取证
AI生成内容检测
下载链接:
http://arxiv.org/abs/2405.04133v1
下载链接
链接失效反馈
资源简介:
本数据集由四川大学网络空间安全学院创建,旨在为AI生成视频的检测提供基准。数据集包含1000个自然视频样本及其对应的1000个AI生成的负面样本,每个负面样本包含24帧。数据集利用多种先进的基于扩散的视频生成算法创建,确保了空间和时间内容的多样性。此外,还考虑了网络传输中的典型视频有损操作,以生成质量下降的样本,用于评估鲁棒性。该数据集主要应用于视频取证领域,旨在解决AI生成视频的检测问题,为未来研究提供基线和挑战。
提供机构:
四川大学网络空间安全学院
创建时间:
2024-05-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集采用先进的扩散式视频生成算法,结合各种语义内容构建视频数据集。此外,通过在网络上传输视频时采用典型的视频损失操作,生成退化的样本。通过分析当前AI生成的视频的局部和全局时间缺陷,构建了一个新的检测框架,通过自适应学习局部运动信息和全局外观变化来揭示假视频。
特点
该数据集的特点包括:1) 多样性内容:使用多种文本提示确保生成的视频在空间和时间内容上的多样性;2) 多种视频生成器:包括基于视频扩散模型和零样本文本到视频生成模型;3) 视频损失操作:考虑了三种视频后处理操作,以生成具有质量退化的视频,用于鲁棒性评估。
使用方法
使用该数据集时,可以将其分为训练、验证和测试三个部分,用于训练和评估不同方法的检测性能。此外,可以模拟真实世界的取证场景,评估不同方法在跨生成器和视频损失操作下的泛化能力和鲁棒性。
背景与挑战
背景概述
在人工智能生成内容(AIGC)迅猛发展的背景下,视频生成技术取得了显著进步,尤其在生成逼真视频方面。然而,随着这种技术被用于制作假视频,对公共安全构成了严重威胁。为了应对这一新兴风险,Peisong He等人构建了AIGC视频取证数据集,该数据集采用先进的扩散式视频生成算法,并包含各种语义内容。该数据集的创建填补了AI生成视频领域基准数据集的空白,为视频取证研究提供了重要资源。主要研究人员来自四川大学网络科学与工程学院、卡内基梅隆大学电气与计算机工程系以及香港城市大学计算机科学系。该数据集的核心研究问题是如何有效地检测AI生成的假视频,并提高检测算法的泛化能力和鲁棒性。AIGC视频取证数据集的构建对视频取证领域具有重要的影响力,为未来研究提供了基础。
当前挑战
AIGC视频取证数据集在研究过程中面临的主要挑战包括:1) AI生成视频的检测问题,由于AI生成视频与真实视频在时间依赖性上存在差异,因此需要开发新的检测框架和方法;2) 构建过程中的挑战,如如何确保数据集的多样性和覆盖性,以及如何模拟视频在网络传输过程中可能遇到的损耗操作。为了应对这些挑战,研究人员提出了一个基于局部和全局时间缺陷的新型检测框架,并进行了广泛的实验评估,以检验检测算法在不同生成器和损耗操作下的泛化能力和鲁棒性。
常用场景
经典使用场景
在视频取证领域,AIGC视频取证数据集被广泛用于训练和评估深度学习模型,以区分真实视频和由AI生成的视频。该数据集包含了多种视频生成算法生成的假视频样本,以及网络传输过程中常见的视频损耗操作产生的退化样本。研究人员可以利用这些数据来训练和测试检测算法,以识别AI生成的视频,并评估算法在不同生成器和视频损耗操作下的泛化能力和鲁棒性。
解决学术问题
AIGC视频取证数据集解决了视频取证领域中AI生成视频的检测问题。随着AI技术的不断发展,AI生成视频越来越逼真,给视频取证带来了新的挑战。该数据集提供了多种AI生成视频样本,以及网络传输过程中常见的视频损耗操作产生的退化样本,为研究人员提供了一个基准数据集,可以用于训练和评估检测算法,并评估算法在不同生成器和视频损耗操作下的泛化能力和鲁棒性。
衍生相关工作
AIGC视频取证数据集的建立推动了视频取证领域中AI生成视频检测技术的发展。基于该数据集,研究人员可以开发出更加准确和鲁棒的检测算法,用于识别和鉴别AI生成的视频。此外,该数据集还可以用于研究AI生成视频的生成原理和特征,为视频取证技术的研究和发展提供参考。例如,研究人员可以利用该数据集来研究不同AI生成视频算法的特征,以及视频损耗操作对视频特征的影响,从而开发出更加有效的检测算法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录