AI-generated video dataset

Name: AI-generated video dataset
Creator: 中国科学院计算技术研究所
Published: 2025-02-11 15:43:47
License: 暂无描述

arXiv2025-02-11 更新2025-02-13 收录

下载链接：

https://github.com/Siaaaaaa1/video-source-bias

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由中国科学院计算技术研究所构建的，包含由两种最先进的开源视频生成模型生成的13000个视频，旨在评估AI生成内容对视频检索模型的影响。数据集包括9000个训练视频和四个各含1000个视频的测试集。这些视频是基于MSR-VTT数据集生成的，并且通过多种策略确保生成的视频在语义上与原始视频相同。该数据集用于研究AI生成视频在检索模型中的排名偏置问题。

This dataset, developed by the Institute of Computing Technology, Chinese Academy of Sciences, contains 13,000 videos generated by two state-of-the-art open-source video generation models. It is designed to evaluate the impact of AI-generated content on video retrieval models. The dataset comprises 9,000 training videos and four test sets, each with 1,000 videos. All videos are generated based on the MSR-VTT dataset, and multiple strategies are employed to guarantee that the generated videos are semantically consistent with their original counterparts. This dataset is utilized to investigate the ranking bias issue of AI-generated videos in retrieval models.

提供机构：

中国科学院计算技术研究所

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

为了研究AI生成视频在视频检索中的影响，研究团队构建了一个包含真实视频和AI生成视频的基准数据集。该数据集包含13000个视频，其中9000个用于训练，4000个用于测试。视频由两个最先进的开源视频生成模型CogVideoX和OpenSora V1.2生成，并利用了MSR-VTT数据集作为基础。为了保证生成视频与真实视频在语义上的等价性，研究团队采用了多种策略，包括文本条件生成、图像条件生成和视频扩展生成。为了评估数据集的质量，研究团队使用了CLIP模型计算真实视频和生成视频之间的语义相似度，结果显示平均相似度超过0.72，表明生成视频具有较高的质量。此外，研究团队还设计了一系列严格的标准来评估数据集的偏差，包括MixR和𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?Δ等指标，以确保评估的公平性和全面性。

特点

AI-generated video dataset具有以下特点：1. 包含真实视频和AI生成视频，可以用于研究AI生成内容对视频检索模型的影响。2. 采用了多种生成策略，确保生成视频在语义上与真实视频等价。3. 包含了严格的标准来评估数据集的偏差，包括MixR和𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?Δ等指标。4. 生成的视频具有较高的质量，平均相似度超过0.72。5. 提供了多种评估指标，可以全面评估数据集的偏差。6. 数据集规模较大，包含13000个视频，其中9000个用于训练，4000个用于测试。

使用方法

AI-generated video dataset可以用于以下研究：1. 研究AI生成内容对视频检索模型的影响。2. 评估视频检索模型的偏差，包括视觉偏差和时间偏差。3. 研究如何减轻视频检索模型中的偏差。4. 开发AI生成视频的检测方法。5. 研究视频生成模型的特点和性能。6. 研究视频检索模型的设计和优化。7. 开发基于视频的推荐系统。8. 研究视频内容生态系统的特点和规律。9. 研究如何提高视频检索的准确性和效率。10. 研究如何提高视频检索的公平性和透明度。

背景与挑战

背景概述

随着人工智能生成内容（AIGC）的快速发展，高质量人工智能生成视频的创建变得更快、更容易，导致互联网上充斥着各种视频内容。然而，这些视频对内容生态系统的影响尚未得到充分探索。视频信息检索仍然是访问视频内容的基本方法。基于观察，检索模型在即席检索和图像检索任务中往往偏爱人工智能生成的内容，我们研究在具有挑战性的视频检索上下文中是否存在类似的偏见，其中时间和视觉因素可能会进一步影响模型的行为。为了探索这个问题，我们首先构建了一个包含真实和人工智能生成视频的综合基准数据集，以及一套公平和严格的指标来评估偏见。这个基准数据集由两个最先进的开源视频生成模型生成的13,000个视频组成。我们精心设计了一套严格的指标来准确衡量这种偏好，考虑了AIGC视频有限的帧率和次优质量可能引起的潜在偏差。然后，我们在混合数据集上应用了三种现成的视频检索模型进行检索任务。我们的研究结果表明，在检索中明显偏爱人工智能生成的视频。进一步的调查表明，将人工智能生成的视频纳入检索模型的训练集会加剧这种偏差。与在图像模态中观察到的偏好不同，我们发现视频检索偏差源于未见的视觉和时序信息，这使得视频偏差的根本原因成为这两个因素的复杂相互作用。为了减轻这种偏差，我们使用对比学习方法对检索模型进行微调。这项研究的结果突出了人工智能生成视频对检索系统的潜在影响，并为该领域的未来研究提供了宝贵的见解。我们的数据集和代码在https://github.com/Siaaaaaa1/video-source-bias上公开可用。

当前挑战

该数据集面临的挑战包括：1) 在视频检索中解决领域问题的挑战，即如何处理人工智能生成视频的检索；2) 构建过程中的挑战，例如创建语义上等同于真实视频的人工智能生成视频的困难性，评估视频检索模型偏差的复杂性，以及确定偏差来源的挑战。此外，该数据集还面临构建过程中所遇到的挑战，包括视频生成对齐的挑战、视频生成质量的挑战以及无偏见的偏差评估指标的挑战。

常用场景

经典使用场景

该数据集被用于评估文本视频检索模型在处理AI生成的视频时的表现，特别关注AI生成的视频对检索结果的影响。数据集包含了13,000个视频，其中9,000个用于训练，4个测试集，每个包含1,000个视频。这些视频由两个最先进的开源视频生成模型生成，并使用一组公平和严格的指标来评估偏差。研究结果表明，文本视频检索模型倾向于优先检索AI生成的视频，即使它们的相关性水平相同。此外，将AI生成的视频纳入检索模型的训练集中会加剧这种偏差。研究还发现，视频检索偏差源于视频生成编码器嵌入的额外视觉和时序信息。为了缓解这种偏差，研究人员采用了一种对比学习方法来微调检索模型。

解决学术问题

该数据集解决了视频检索模型中存在的源偏差问题，特别是AI生成的视频对检索结果的影响。研究结果表明，AI生成的视频包含额外的视觉和时序信息，导致检索模型倾向于优先检索它们。此外，研究还发现，将AI生成的视频纳入检索模型的训练集中会加剧这种偏差。为了解决这个问题，研究人员提出了一种基于对比学习的偏差缓解方法，可以有效地减少对AI生成视频的偏差。

衍生相关工作

该数据集衍生了关于AI生成内容对检索系统影响的研究。例如，研究人员可以使用该数据集来研究AI生成的图像和文本对图像检索和文本检索模型的影响。此外，该数据集还可以用于开发更公平和准确的检索模型，这些模型可以有效地减少对AI生成内容的偏差。此外，该数据集还可以用于开发检测AI生成内容的方法，这对于识别和防止虚假信息传播非常重要。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集