five

Señorita-2M

收藏
arXiv2025-02-11 更新2025-02-12 收录
下载链接:
https://senorita.github.io
下载链接
链接失效反馈
资源简介:
Señorita-2M是一个高质量的视频编辑数据集,由香港中文大学等研究机构创建。该数据集包含约200万个视频编辑对,原始数据来源于互联网。数据集通过构建四种高质量的视频编辑专家模型(全局风格化器、局部风格化器、文本引导的视频修补器和对象移除器)并使用这些模型生成编辑样本。此外,数据集还经过了专门的过滤管道以确保样本质量。Señorita-2M旨在为通用视频编辑提供高质量的指令基础数据集,解决端到端方法中训练数据质量不足的问题。
提供机构:
香港中文大学, 香港理工大学, 清华大学, IntelliFusion Inc., 香港大学, 电子科技大学
创建时间:
2025-02-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
Señorita-2M数据集是通过精心设计和训练四种高质量、专业的视频编辑模型构建而成的。这些模型分别专注于全局样式化、局部样式化、文本引导的视频修复和对象移除任务。使用CogVideoX作为基础模型,并结合ControlNet架构,专家模型能够根据文本提示进行精确的视频编辑。此外,为了确保数据集的质量,我们设计了一个筛选流程,通过使用CLIP视觉编码器和多个分类器来识别并移除编辑失败的样本、文本对齐不良的视频和对原始视频进行细微修改的视频对。通过这种方式,我们构建了一个包含约200万对高质量视频编辑样本的Señorita-2M数据集。
特点
Señorita-2M数据集的主要特点包括其规模庞大、高质量的编辑样本以及多样化的编辑任务。数据集包含大约200万对视频,涵盖了18种不同的视频编辑任务,包括样式转换、对象定位和条件生成等。这些样本具有不同的分辨率和帧长,能够满足各种视频编辑需求。此外,Señorita-2M数据集还包括一个由大型语言模型生成的清晰的编辑指令集,这些指令能够帮助视频编辑器准确地理解和执行编辑任务。
使用方法
使用Señorita-2M数据集的方法包括准备数据、应用专家模型进行视频编辑、生成编辑指令以及通过筛选流程去除失败的样本。首先,将原始视频进行标注和预处理,然后使用Nvidia 4090 GPU对专家模型进行推理,包括局部样式化、全局样式化、修复和移除对象等。接下来,使用大型语言模型LLM将源视频和目标视频的物体名称或编辑提示转换为清晰的指令。最后,通过筛选流程去除编辑失败的样本、文本对齐不良的视频和对原始视频进行细微修改的视频对,从而获得高质量的编辑视频样本。Señorita-2M数据集和基于此数据集训练的模型将开源,以便进一步研究和应用。
背景与挑战
背景概述
随着视频生成技术的快速发展,视频编辑技术也取得了显著进步。然而,现有的视频编辑方法仍面临一些挑战。基于反转的方法虽然训练自由且灵活,但在推理过程中耗时较长,难以处理细粒度的编辑指令,并且会产生伪影和抖动。另一方面,端到端方法依赖于编辑的视频对进行训练,推理速度更快,但由于缺乏高质量的训练视频对,通常会产生较差的编辑结果。为了弥补端到端方法的这一差距,研究人员引入了Señorita-2M,这是一个高质量的视频编辑数据集。Señorita-2M由大约200万个视频编辑对组成,由视频专家精心构建,每个模型都由研究团队专门设计和训练,以实现最先进的编辑结果。此外,研究人员还提出了一种过滤管道来消除质量较差的编辑视频对。他们还探讨了常见的视频编辑架构,以识别基于当前预训练生成模型的最有效结构。广泛的实验表明,他们的数据集可以帮助产生非常高水平的视频编辑结果。
当前挑战
Señorita-2M数据集的构建过程中遇到的挑战包括:1)如何解决细粒度编辑指令的问题,2)如何消除编辑过程中产生的伪影和抖动,3)如何提高端到端方法的推理速度,4)如何确保高质量的训练视频对的数量和质量。这些挑战需要研究人员进一步探索和研究,以推动视频编辑技术的发展。
常用场景
经典使用场景
Señorita-2M数据集为视频编辑领域提供了一个高质量的指令式视频编辑数据集。它由大约200万个视频编辑对组成,涵盖了局部编辑和全局编辑两大类,包括风格迁移、物体定位、条件生成等多种视频编辑任务。该数据集由专业的视频编辑模型构建,每个模型都在其特定任务上达到了最先进的性能。Señorita-2M数据集的构建过程包括数据收集、专家模型的推理过程以及过滤管道,确保了数据的质量和多样性。
解决学术问题
Señorita-2M数据集的提出解决了视频编辑领域中数据不足的问题。现有的视频编辑数据集要么专注于局部编辑(如RACCooN和VIVID-10M),要么是合成生成的(如InsV2V)。相比之下,Señorita-2M数据集包含了200万个视频对,原始数据来源于互联网。此外,Señorita-2M数据集的构建过程采用了多种过滤算法,保证了数据的质量和多样性。通过使用大型语言模型将编辑提示转换为精确的编辑指令,Señorita-2M数据集为视频编辑领域的研究提供了重要的数据基础。
衍生相关工作
Señorita-2M数据集的提出推动了视频编辑领域的研究。基于Señorita-2M数据集,研究人员可以训练出高质量的指令式视频编辑模型,实现视频中的物体替换、风格迁移、局部编辑等功能。此外,Señorita-2M数据集还可以用于视频生成、视频修复等领域,为视频处理技术的发展提供了重要的数据支持。Señorita-2M数据集的提出和应用,为视频编辑领域的研究和应用提供了新的思路和方法,具有重要的学术价值和应用价值。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作