five

AI-generated video dataset|人工智能数据集|视频检索数据集

收藏
arXiv2025-02-11 更新2025-02-13 收录
人工智能
视频检索
下载链接:
https://github.com/Siaaaaaa1/video-source-bias
下载链接
链接失效反馈
资源简介:
该数据集是由中国科学院计算技术研究所构建的,包含由两种最先进的开源视频生成模型生成的13000个视频,旨在评估AI生成内容对视频检索模型的影响。数据集包括9000个训练视频和四个各含1000个视频的测试集。这些视频是基于MSR-VTT数据集生成的,并且通过多种策略确保生成的视频在语义上与原始视频相同。该数据集用于研究AI生成视频在检索模型中的排名偏置问题。
提供机构:
中国科学院计算技术研究所
创建时间:
2025-02-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了研究AI生成视频在视频检索中的影响,研究团队构建了一个包含真实视频和AI生成视频的基准数据集。该数据集包含13000个视频,其中9000个用于训练,4000个用于测试。视频由两个最先进的开源视频生成模型CogVideoX和OpenSora V1.2生成,并利用了MSR-VTT数据集作为基础。为了保证生成视频与真实视频在语义上的等价性,研究团队采用了多种策略,包括文本条件生成、图像条件生成和视频扩展生成。为了评估数据集的质量,研究团队使用了CLIP模型计算真实视频和生成视频之间的语义相似度,结果显示平均相似度超过0.72,表明生成视频具有较高的质量。此外,研究团队还设计了一系列严格的标准来评估数据集的偏差,包括MixR和𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?Δ等指标,以确保评估的公平性和全面性。
特点
AI-generated video dataset具有以下特点:1. 包含真实视频和AI生成视频,可以用于研究AI生成内容对视频检索模型的影响。2. 采用了多种生成策略,确保生成视频在语义上与真实视频等价。3. 包含了严格的标准来评估数据集的偏差,包括MixR和𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?Δ等指标。4. 生成的视频具有较高的质量,平均相似度超过0.72。5. 提供了多种评估指标,可以全面评估数据集的偏差。6. 数据集规模较大,包含13000个视频,其中9000个用于训练,4000个用于测试。
使用方法
AI-generated video dataset可以用于以下研究:1. 研究AI生成内容对视频检索模型的影响。2. 评估视频检索模型的偏差,包括视觉偏差和时间偏差。3. 研究如何减轻视频检索模型中的偏差。4. 开发AI生成视频的检测方法。5. 研究视频生成模型的特点和性能。6. 研究视频检索模型的设计和优化。7. 开发基于视频的推荐系统。8. 研究视频内容生态系统的特点和规律。9. 研究如何提高视频检索的准确性和效率。10. 研究如何提高视频检索的公平性和透明度。
背景与挑战
背景概述
随着人工智能生成内容(AIGC)的快速发展,高质量人工智能生成视频的创建变得更快、更容易,导致互联网上充斥着各种视频内容。然而,这些视频对内容生态系统的影响尚未得到充分探索。视频信息检索仍然是访问视频内容的基本方法。基于观察,检索模型在即席检索和图像检索任务中往往偏爱人工智能生成的内容,我们研究在具有挑战性的视频检索上下文中是否存在类似的偏见,其中时间和视觉因素可能会进一步影响模型的行为。为了探索这个问题,我们首先构建了一个包含真实和人工智能生成视频的综合基准数据集,以及一套公平和严格的指标来评估偏见。这个基准数据集由两个最先进的开源视频生成模型生成的13,000个视频组成。我们精心设计了一套严格的指标来准确衡量这种偏好,考虑了AIGC视频有限的帧率和次优质量可能引起的潜在偏差。然后,我们在混合数据集上应用了三种现成的视频检索模型进行检索任务。我们的研究结果表明,在检索中明显偏爱人工智能生成的视频。进一步的调查表明,将人工智能生成的视频纳入检索模型的训练集会加剧这种偏差。与在图像模态中观察到的偏好不同,我们发现视频检索偏差源于未见的视觉和时序信息,这使得视频偏差的根本原因成为这两个因素的复杂相互作用。为了减轻这种偏差,我们使用对比学习方法对检索模型进行微调。这项研究的结果突出了人工智能生成视频对检索系统的潜在影响,并为该领域的未来研究提供了宝贵的见解。我们的数据集和代码在https://github.com/Siaaaaaa1/video-source-bias上公开可用。
当前挑战
该数据集面临的挑战包括:1) 在视频检索中解决领域问题的挑战,即如何处理人工智能生成视频的检索;2) 构建过程中的挑战,例如创建语义上等同于真实视频的人工智能生成视频的困难性,评估视频检索模型偏差的复杂性,以及确定偏差来源的挑战。此外,该数据集还面临构建过程中所遇到的挑战,包括视频生成对齐的挑战、视频生成质量的挑战以及无偏见的偏差评估指标的挑战。
常用场景
经典使用场景
该数据集被用于评估文本视频检索模型在处理AI生成的视频时的表现,特别关注AI生成的视频对检索结果的影响。数据集包含了13,000个视频,其中9,000个用于训练,4个测试集,每个包含1,000个视频。这些视频由两个最先进的开源视频生成模型生成,并使用一组公平和严格的指标来评估偏差。研究结果表明,文本视频检索模型倾向于优先检索AI生成的视频,即使它们的相关性水平相同。此外,将AI生成的视频纳入检索模型的训练集中会加剧这种偏差。研究还发现,视频检索偏差源于视频生成编码器嵌入的额外视觉和时序信息。为了缓解这种偏差,研究人员采用了一种对比学习方法来微调检索模型。
解决学术问题
该数据集解决了视频检索模型中存在的源偏差问题,特别是AI生成的视频对检索结果的影响。研究结果表明,AI生成的视频包含额外的视觉和时序信息,导致检索模型倾向于优先检索它们。此外,研究还发现,将AI生成的视频纳入检索模型的训练集中会加剧这种偏差。为了解决这个问题,研究人员提出了一种基于对比学习的偏差缓解方法,可以有效地减少对AI生成视频的偏差。
衍生相关工作
该数据集衍生了关于AI生成内容对检索系统影响的研究。例如,研究人员可以使用该数据集来研究AI生成的图像和文本对图像检索和文本检索模型的影响。此外,该数据集还可以用于开发更公平和准确的检索模型,这些模型可以有效地减少对AI生成内容的偏差。此外,该数据集还可以用于开发检测AI生成内容的方法,这对于识别和防止虚假信息传播非常重要。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69&deg54′22″N - 68&deg27′12″N,99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。

国家对地观测科学数据中心 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录