FiVE

Name: FiVE
Creator: 哈佛大学
Published: 2025-03-18 03:47:41
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

https://sites.google.com/view/five-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

FiVE数据集是由哈佛大学等机构创建的一个细粒度视频编辑基准，包含74个真实世界视频和26个生成视频，共有6种细粒度编辑类型，420个对象级编辑提示对及其对应的遮罩。该数据集旨在为评估新兴的扩散和修正流模型在细粒度视频编辑方面的性能提供一个丰富的测试平台。

The FiVE Dataset is a fine-grained video editing benchmark created by Harvard University and other institutions. It includes 74 real-world videos and 26 generated videos, covering 6 fine-grained editing categories, along with 420 object-level editing prompt pairs and their corresponding masks. This dataset aims to provide a rich testbed for evaluating the performance of emerging diffusion and correction flow models in fine-grained video editing.

提供机构：

哈佛大学

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

FiVE数据集的构建过程涵盖了从真实世界视频的筛选到生成视频的创建。首先，从DAVIS数据集中精心挑选了74个适合细粒度编辑的真实世界视频，并通过GPT-4o生成详细的视频描述，涵盖对象类别、动作、背景和摄像机运动等信息。为了增强数据集的多样性，使用T2V模型生成了26个高度逼真的合成视频。每个视频都生成了6种细粒度编辑任务，共420个高质量编辑提示对，并提供了相应的编辑区域掩码。通过这种方式，FiVE数据集为视频编辑方法提供了一个丰富且具有挑战性的测试平台。

特点

FiVE数据集的特点在于其多样性和细粒度编辑任务的复杂性。数据集包含74个真实世界视频和26个生成视频，涵盖了多种场景和编辑场景。它提供了6种细粒度编辑类型，包括颜色变化、材质修改、对象替换（有无非刚性变形）、对象添加和移除。每个编辑任务都配备了高质量的编辑提示对和相应的掩码，确保编辑的精确性和背景的保留。此外，FiVE数据集还引入了FiVE-Acc评估指标，利用视觉语言模型（VLMs）来评估细粒度对象编辑的成功率，进一步提升了评估的准确性。

使用方法

FiVE数据集的使用方法主要包括视频编辑和编辑结果的评估。首先，用户可以根据提供的编辑提示对视频进行编辑，生成目标视频。编辑任务涵盖了颜色变化、材质修改、对象替换等多种类型。编辑完成后，使用FiVE-Acc评估指标对编辑结果进行定量评估。FiVE-Acc通过视觉语言模型（VLMs）分析编辑后的视频，提出Yes/No问题和多项选择题，评估编辑的准确性和语义对齐。通过这种方式，FiVE数据集为视频编辑方法提供了一个标准化的评估框架，帮助研究人员全面评估模型的性能。

背景与挑战

背景概述

FiVE（Fine-grained Video Editing Benchmark）是由哈佛大学、香港理工大学等机构的研究团队于2025年提出的一个细粒度视频编辑基准数据集。该数据集旨在解决当前文本到视频（T2V）编辑领域缺乏标准化评估基准的问题，特别是针对细粒度视频编辑任务。FiVE包含74个真实世界视频和26个生成视频，涵盖了6种细粒度编辑类型，共计420个对象级编辑提示对及其对应的掩码。该数据集的提出为评估新兴的扩散模型和修正流模型在细粒度视频编辑中的表现提供了一个全面的测试平台。FiVE的引入不仅推动了视频编辑领域的研究进展，还为模型在超参数敏感性、背景保留、时间一致性等方面的评估提供了统一的标准。

当前挑战

FiVE数据集面临的挑战主要体现在两个方面。首先，细粒度视频编辑任务本身具有较高的复杂性，要求模型在保持视频上下文和时间一致性的同时，精确地修改特定对象。例如，将视频中的大象替换为犀牛，或为大象添加帽子等操作，都需要模型具备强大的语义理解和生成能力。其次，数据集的构建过程中也面临诸多挑战，包括如何生成高质量的真实和合成视频、如何设计多样化的编辑提示对、以及如何确保编辑任务的多样性和复杂性。此外，FiVE还引入了基于视觉语言模型（VLM）的FiVE-Acc评估指标，以更准确地衡量编辑的成功率，这对模型的语义对齐能力提出了更高的要求。

常用场景

经典使用场景

FiVE数据集主要用于评估细粒度视频编辑任务，特别是在对象级别的修改中，如颜色变化、材质替换、对象替换（包括刚性和非刚性变形）以及对象的添加和移除。该数据集通过提供多样化的视频和编辑提示对，为研究人员提供了一个标准化的基准，用于测试和比较不同视频编辑模型的性能。

衍生相关工作

FiVE数据集的推出催生了一系列相关研究工作，特别是在基于Rectified Flow（RF）模型的视频编辑领域。例如，Pyramid-Edit和Wan-Edit是基于FiVE数据集开发的两种高效视频编辑方法，它们通过引入FlowEdit技术，实现了无需训练和反演的编辑过程。这些方法在FiVE基准上的表现显著优于传统的基于扩散模型的方法，展示了RF模型在细粒度视频编辑中的潜力。

数据集最近研究