Señorita-2M

Name: Señorita-2M
Creator: 香港中文大学, 香港理工大学, 清华大学, IntelliFusion Inc., 香港大学, 电子科技大学
Published: 2025-02-11 01:58:22
License: 暂无描述

arXiv2025-02-11 更新2025-02-12 收录

下载链接：

https://senorita.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

Señorita-2M是一个高质量的视频编辑数据集，由香港中文大学等研究机构创建。该数据集包含约200万个视频编辑对，原始数据来源于互联网。数据集通过构建四种高质量的视频编辑专家模型（全局风格化器、局部风格化器、文本引导的视频修补器和对象移除器）并使用这些模型生成编辑样本。此外，数据集还经过了专门的过滤管道以确保样本质量。Señorita-2M旨在为通用视频编辑提供高质量的指令基础数据集，解决端到端方法中训练数据质量不足的问题。

Señorita-2M is a high-quality video editing dataset created by research institutions including The Chinese University of Hong Kong. This dataset contains approximately 2 million video editing pairs, with its raw data sourced from the Internet. The dataset generates editing samples by constructing four high-quality video editing expert models (global stylizer, local stylizer, text-guided video inpainter, and object remover) and utilizing these models. In addition, the dataset has undergone a dedicated filtering pipeline to ensure sample quality. Señorita-2M aims to provide a high-quality instruction-based dataset for general video editing, addressing the issue of insufficient training data quality in end-to-end methods.

提供机构：

香港中文大学, 香港理工大学, 清华大学, IntelliFusion Inc., 香港大学, 电子科技大学

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

Señorita-2M数据集是通过精心设计和训练四种高质量、专业的视频编辑模型构建而成的。这些模型分别专注于全局样式化、局部样式化、文本引导的视频修复和对象移除任务。使用CogVideoX作为基础模型，并结合ControlNet架构，专家模型能够根据文本提示进行精确的视频编辑。此外，为了确保数据集的质量，我们设计了一个筛选流程，通过使用CLIP视觉编码器和多个分类器来识别并移除编辑失败的样本、文本对齐不良的视频和对原始视频进行细微修改的视频对。通过这种方式，我们构建了一个包含约200万对高质量视频编辑样本的Señorita-2M数据集。

特点

Señorita-2M数据集的主要特点包括其规模庞大、高质量的编辑样本以及多样化的编辑任务。数据集包含大约200万对视频，涵盖了18种不同的视频编辑任务，包括样式转换、对象定位和条件生成等。这些样本具有不同的分辨率和帧长，能够满足各种视频编辑需求。此外，Señorita-2M数据集还包括一个由大型语言模型生成的清晰的编辑指令集，这些指令能够帮助视频编辑器准确地理解和执行编辑任务。

使用方法

使用Señorita-2M数据集的方法包括准备数据、应用专家模型进行视频编辑、生成编辑指令以及通过筛选流程去除失败的样本。首先，将原始视频进行标注和预处理，然后使用Nvidia 4090 GPU对专家模型进行推理，包括局部样式化、全局样式化、修复和移除对象等。接下来，使用大型语言模型LLM将源视频和目标视频的物体名称或编辑提示转换为清晰的指令。最后，通过筛选流程去除编辑失败的样本、文本对齐不良的视频和对原始视频进行细微修改的视频对，从而获得高质量的编辑视频样本。Señorita-2M数据集和基于此数据集训练的模型将开源，以便进一步研究和应用。

背景与挑战

背景概述

随着视频生成技术的快速发展，视频编辑技术也取得了显著进步。然而，现有的视频编辑方法仍面临一些挑战。基于反转的方法虽然训练自由且灵活，但在推理过程中耗时较长，难以处理细粒度的编辑指令，并且会产生伪影和抖动。另一方面，端到端方法依赖于编辑的视频对进行训练，推理速度更快，但由于缺乏高质量的训练视频对，通常会产生较差的编辑结果。为了弥补端到端方法的这一差距，研究人员引入了Señorita-2M，这是一个高质量的视频编辑数据集。Señorita-2M由大约200万个视频编辑对组成，由视频专家精心构建，每个模型都由研究团队专门设计和训练，以实现最先进的编辑结果。此外，研究人员还提出了一种过滤管道来消除质量较差的编辑视频对。他们还探讨了常见的视频编辑架构，以识别基于当前预训练生成模型的最有效结构。广泛的实验表明，他们的数据集可以帮助产生非常高水平的视频编辑结果。

当前挑战

Señorita-2M数据集的构建过程中遇到的挑战包括：1)如何解决细粒度编辑指令的问题，2)如何消除编辑过程中产生的伪影和抖动，3)如何提高端到端方法的推理速度，4)如何确保高质量的训练视频对的数量和质量。这些挑战需要研究人员进一步探索和研究，以推动视频编辑技术的发展。

常用场景

经典使用场景

Señorita-2M数据集为视频编辑领域提供了一个高质量的指令式视频编辑数据集。它由大约200万个视频编辑对组成，涵盖了局部编辑和全局编辑两大类，包括风格迁移、物体定位、条件生成等多种视频编辑任务。该数据集由专业的视频编辑模型构建，每个模型都在其特定任务上达到了最先进的性能。Señorita-2M数据集的构建过程包括数据收集、专家模型的推理过程以及过滤管道，确保了数据的质量和多样性。

解决学术问题

Señorita-2M数据集的提出解决了视频编辑领域中数据不足的问题。现有的视频编辑数据集要么专注于局部编辑（如RACCooN和VIVID-10M），要么是合成生成的（如InsV2V）。相比之下，Señorita-2M数据集包含了200万个视频对，原始数据来源于互联网。此外，Señorita-2M数据集的构建过程采用了多种过滤算法，保证了数据的质量和多样性。通过使用大型语言模型将编辑提示转换为精确的编辑指令，Señorita-2M数据集为视频编辑领域的研究提供了重要的数据基础。

衍生相关工作

Señorita-2M数据集的提出推动了视频编辑领域的研究。基于Señorita-2M数据集，研究人员可以训练出高质量的指令式视频编辑模型，实现视频中的物体替换、风格迁移、局部编辑等功能。此外，Señorita-2M数据集还可以用于视频生成、视频修复等领域，为视频处理技术的发展提供了重要的数据支持。Señorita-2M数据集的提出和应用，为视频编辑领域的研究和应用提供了新的思路和方法，具有重要的学术价值和应用价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集