E-Bench DB

Name: E-Bench DB
Creator: 北京大学电子与计算机工程学院，鹏城实验室
Published: 2024-08-21 17:49:32
License: 暂无描述

arXiv2024-08-21 更新2024-08-23 收录

下载链接：

https://github.com/littlespray/E-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

E-Bench DB是由北京大学电子与计算机工程学院和鹏城实验室联合创建的视频质量评估数据集，专门用于文本驱动视频编辑的质量评估。该数据集包含169个多样化的源视频，涵盖了真实世界、计算机图形渲染和AI生成内容等多种场景，以及多种编辑提示和编辑结果。数据集的创建过程中，邀请了24名人类注释者对每个视频进行主观评分，以确保评估的准确性和可靠性。E-Bench DB主要应用于AI生成内容的视频编辑质量评估，旨在解决现有评估方法与人类主观感知不一致的问题。

E-Bench DB is a video quality assessment dataset jointly created by the School of Electronic and Computer Engineering, Peking University and Peng Cheng Laboratory, which is specifically designed for text-driven video editing quality assessment. This dataset contains 169 diverse source videos covering various scenarios including real-world content, computer graphics renderings, and AI-generated content, as well as multiple editing prompts and their corresponding edited results. During the dataset construction process, 24 human annotators were invited to conduct subjective scoring for each video to ensure the accuracy and reliability of the assessment. E-Bench DB is primarily applied to the video editing quality assessment of AI-generated content, aiming to resolve the inconsistency between existing assessment methods and human subjective perception.

提供机构：

北京大学电子与计算机工程学院，鹏城实验室

创建时间：

2024-08-21

原始信息汇总

E-Bench 数据集概述

数据集名称

E-Bench

数据集描述

E-Bench 是用于评估文本驱动视频编辑质量主观对齐基准套件的官方实现。

搜集汇总

数据集介绍

构建方式

E-Bench DB数据集的构建涉及四个主要阶段：源视频收集、提示语设计、视频编辑方法的选择和执行，以及主观实验。源视频收集阶段从DAVIS、Kinetics-700、Sintel、Spring、Sora和Kling等数据集中精心挑选了169个视频，涵盖了真实世界场景、计算机渲染场景和文本驱动AIGC视频，确保了内容的多样性。提示语设计阶段将提示语分为风格编辑、语义编辑和结构编辑三大类，并为每个视频设计了具体的提示语。视频编辑方法的选择和执行阶段选取了8种不同的视频编辑方法，包括0-shot和微调技术，以及不同的Stable Diffusion基础模型和编辑方法，以生成多样化的编辑结果。主观实验阶段邀请了24名人类标注者对每个视频进行评分，以获得Mean Opinion Scores (MOS)。

特点

E-Bench DB数据集具有以下特点：首先，它是一个主观对齐的基准数据集，收集了多样化的源视频，包括真实世界场景、计算机渲染场景和文本驱动AIGC视频，以及多种类型的编辑提示和编辑结果。其次，该数据集包含了24位人类标注者对每个视频的MOS评分，为视频编辑质量的评估提供了丰富的主观反馈。最后，E-Bench DB是第一个专门用于评估文本驱动视频编辑质量的视频质量评估数据集，为研究者和开发者提供了宝贵的资源。

使用方法

使用E-Bench DB数据集的方法包括以下步骤：首先，从数据集中选择合适的视频和编辑结果。然后，可以使用E-Bench QA网络对编辑结果进行评估，该网络从视频与提示的匹配度、编辑视频与原始视频的相关性以及编辑视频的质量三个方面进行评估。E-Bench QA网络采用了视频-文本对齐、源-目标关系建模和视觉质量评估等技术，以实现对编辑视频质量的主观对齐评估。最后，可以根据评估结果对视频编辑方法进行调整和优化，以提高视频编辑质量。

背景与挑战

背景概述

随着AI生成内容(AIGC)趋势的兴起，越来越多的文本驱动视频编辑方法正在获得动力，并在日常生活中得到广泛应用。然而，目前缺乏合适的定量指标来评估视频编辑质量。目前，主要的评估方法涉及成本高昂且结果不可重复的主观实验。为了解决这一问题，我们引入了E-Bench，这是一个定制的基准套件，用于评估文本驱动视频编辑。该套件包括EBench DB，这是一个视频质量评估(VQA)数据库，用于视频编辑。EBench DB包括一组具有各种运动和主题的源视频，以及多个不同的编辑提示、来自8个不同模型的编辑结果以及24个人注释者的相应平均意见分数(MOS)。基于EBench DB，我们进一步提出了EBench QA，这是一个针对文本驱动视频编辑任务的定量人类对齐测量方法。除了传统VQA方法强调的美学、失真和其他视觉质量指标外，EBench QA还侧重于文本-视频对齐以及源视频和编辑视频之间的相关性建模。它提出了一个新的视频编辑评估网络，该网络在人类偏好对齐方面取得了优异的性能。据我们所知，EBench为视频编辑引入了第一个质量评估数据集，并为该领域引入了一个有效的主观对齐定量指标。所有数据和代码都将公开可用。

当前挑战

尽管文本驱动视频编辑技术取得了快速发展，但评估编辑后的视频仍然是一个相当大的挑战。目前的度量标准往往无法与人类感知相匹配，而有效的视频编辑定量度量标准仍然明显缺失。为了解决这个问题，我们提出了E-Bench，这是一个定制的基准套件，用于评估文本驱动视频编辑。E-Bench DB包括一组具有各种运动和主题的源视频，以及多个不同的编辑提示、来自8个不同模型的编辑结果以及24个人注释者的相应平均意见分数(MOS)。E-Bench QA侧重于文本-视频对齐和源视频与编辑视频之间的相关性建模，以解决传统VQA方法无法充分评估AIGC视频编辑任务的问题。

常用场景

经典使用场景

E-Bench DB 数据集主要用于评估由文本驱动的视频编辑质量。该数据集包含了各种动作和主题的源视频，以及多个不同的编辑提示、8 种不同模型的编辑结果和 24 位人类标注者的对应 Mean Opinion Scores (MOS)。通过这些数据，研究者可以评估不同模型的编辑效果，以及与人类主观感知的一致性。

解决学术问题

E-Bench DB 数据集解决了当前视频编辑质量评估中缺乏主观感知对齐的问题。现有的定量指标往往无法与人类感知相匹配，而 E-Bench DB 通过收集人类标注者的 MOS 分数，为研究者提供了一个与人类主观感知对齐的评估基准。此外，E-Bench DB 还涵盖了各种类型的视频编辑场景，如风格编辑、语义编辑和结构编辑，使得研究者可以更全面地评估视频编辑质量。

衍生相关工作

E-Bench DB 数据集的发布推动了文本驱动的视频编辑质量评估领域的研究。基于 E-Bench DB，研究者们开发了各种新的评估指标和方法，如 E-Bench QA。这些工作进一步提高了视频编辑质量评估的准确性和有效性，为视频编辑技术的发展和应用提供了重要的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集