VEFX-Dataset

Name: VEFX-Dataset
Creator: 德克萨斯农工大学; Visko平台; Abaka AI
Published: 2026-04-18 01:28:24
License: 暂无描述

arXiv2026-04-18 更新2026-04-21 收录

下载链接：

https://xiangbogaobarry.github.io/VEFX-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

VEFX-Dataset是由德克萨斯农工大学、Visko平台和Abaka AI联合构建的大规模视频编辑评估数据集，包含5,049条人工标注的编辑样本，覆盖9大类32子类任务。数据来源于开源视频库（如Open-Sora）和私有素材，经质量筛选后通过商业系统、开源模型及智能编辑流水线生成编辑结果。每个样本从指令遵循度、渲染质量和编辑排他性三个维度进行4级评分，标注过程经过严格的跨检查验证（标注一致率达91%以上）。该数据集专为AI辅助视频编辑系统的多维度质量评估而设计，填补了该领域缺乏标准化评估资源的空白。

The VEFX-Dataset is a large-scale video editing evaluation dataset jointly constructed by Texas A&M University, Visko Platform and Abaka AI. It includes 5,049 manually annotated editing samples covering 9 major categories and 32 sub-categories of tasks. The data is sourced from open-source video repositories (e.g., Open-Sora) and proprietary materials, and the editing results are generated via commercial systems, open-source models and intelligent editing pipelines after strict quality screening. Each sample is rated on a 4-level scale across three core dimensions: instruction adherence, rendering quality and editing exclusivity. The annotation process underwent rigorous cross-check validation, with an inter-annotator agreement rate of over 91%. This dataset is specifically designed for multi-dimensional quality evaluation of AI-assisted video editing systems, filling the gap caused by the lack of standardized evaluation resources in this field.

提供机构：

德克萨斯农工大学; Visko平台; Abaka AI

创建时间：

2026-04-18

原始信息汇总

VEFX-Bench 数据集概述

数据集简介

VEFX-Bench 是一个用于评测通用视频编辑和视觉效果的基准数据集。该数据集旨在解决视频编辑模型质量评估的难题。

数据集构成

VEFX-Dataset：包含 5,049 个人工标注的视频编辑示例。
源视频：来源于 1,419 个源视频。
类别覆盖：涵盖 9 个主要类别和 32 个子类别。
VEFX-Bench：包含 300 个精心策划的配对，用于标准化比较。
评测系统：涉及 10 个编辑系统（模型）。

质量评估维度

每个编辑后的视频均按1-4分制在三个独立维度上进行评分：

指令遵循 (Instruction Following, IF)：评估编辑是否忠实执行了给定的指令，衡量语义准确性。
渲染质量 (Rendering Quality, RQ)：评估输出是否视觉清晰、无伪影，衡量时间一致性、空间保真度和整体视觉质量。
编辑排他性 (Edit Exclusivity, EE)：评估无关区域是否被保留，衡量模型是否只改变了被要求修改的部分，而未产生意外的副作用。

关键发现

模型表现：Kling o3 Omni (GeoAgg: 3.057) 和 Kling o1 (GeoAgg: 2.985) 在排行榜上领先。UniVideo (GeoAgg: 2.516) 是最强的开源模型，表现优于多个商业系统。
质量维度差异：所有模型的RQ分数 consistently 高于IF分数，表明产生视觉上合理的编辑比忠实遵循编辑指令要容易得多。
局部性挑战：EE分数显示出最广泛的分布 (1.180–3.376)，证实了过度编辑和意外的场景变化（如在VACE和Luma Ray 2等当前系统中）仍然是一个主要的失败模式。

引用信息

标题：VEFX-Bench: Benchmarking Generic Video Editing and Visual Effects
作者：Xiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu
期刊：arXiv preprint arXiv:2604.16272
年份：2026

相关资源

论文：https://xiangbogaobarry.github.io/VEFX-Bench/
代码：https://xiangbogaobarry.github.io/VEFX-Bench/
数据集：https://xiangbogaobarry.github.io/VEFX-Bench/
实时排行榜：https://vefx-leaderboard.com/

搜集汇总

数据集介绍

构建方式

在人工智能辅助视频创作日益普及的背景下，VEFX-Dataset的构建旨在填补视频编辑领域缺乏大规模人工标注数据集的空白。该数据集通过精心设计的数据收集流程构建而成：首先从Open-Sora、OpenVid-1M等开源视频数据集中筛选出1,419个高质量源视频，涵盖自然、人物、街景等多种场景类别；随后利用Gemini 3 Flash模型分析视频内容，自动生成与视频内容相匹配的编辑指令，覆盖9个主要编辑类别和32个子类别；最后通过商业系统、开源模型和智能编辑流程的多样化组合，为每个（源视频，指令）对生成编辑后的视频，形成完整的编辑三元组。每个样本均由经过培训的标注者按照四点评分标准，在指令遵循、渲染质量和编辑排他性三个独立维度上进行人工标注，最终构建出包含5,049个视频编辑样本的高质量数据集。

特点

VEFX-Dataset的显著特点体现在其多维度的评估框架和高质量的人工标注上。该数据集首次将视频编辑质量分解为三个正交维度：指令遵循评估编辑结果是否满足语义要求，渲染质量衡量视觉清晰度、时间一致性和伪影缺失程度，编辑排他性则检测对非目标区域的无意修改。这种解耦设计能够精准捕捉不同失败模式，避免单一综合分数掩盖关键缺陷。数据集覆盖了从相机运动调整到视觉特效添加等九大编辑类别，确保了任务类型的广泛代表性。标注过程中采用双盲交叉验证机制，三个维度的标注者间一致性分别达到93.5%、97.2%和91.7%，保证了标注结果的可靠性。数据集的样本分布呈现出明显的维度差异性，例如指令遵循得分呈现两极分化，而渲染质量得分则普遍较高，这反映了当前视频编辑系统在视觉保真度与语义准确性之间的能力差距。

使用方法

VEFX-Dataset为视频编辑质量评估提供了标准化的基准测试平台。研究人员可利用该数据集训练专用的奖励模型，如基于该数据集开发的VEFX-Reward模型，该模型通过序数回归目标预测三维质量分数，在标准图像质量评估指标和成对偏好评估中均显示出优于通用视觉语言模型裁判的性能。在实际应用中，该数据集支持对商业和开源视频编辑系统进行系统性评测，用户可将待评估模型的编辑输出与数据集中的人工标注进行对比，分析不同编辑任务上的性能差异。数据集的三维评分体系特别适用于细粒度的模型优化，开发者可针对特定维度的薄弱环节进行针对性改进。此外，基于该数据集构建的VEFX-Bench包含300个精选视频-提示对，为不同编辑系统提供了标准化的比较基准，支持覆盖调整和逆概率加权等统计方法，确保评估结果的公平性和可比性。

背景与挑战

背景概述

随着人工智能辅助视频创作技术的迅猛发展，指令引导的视频编辑已成为优化生成或拍摄素材以满足专业需求的关键环节。然而，该领域长期以来缺乏大规模人工标注的完整编辑示例数据集以及用于系统比较的标准化评估工具。现有资源往往受限于规模较小、缺少编辑后输出或缺乏人类质量标签，而当前评估多依赖昂贵的人工检查或非专门针对编辑质量的通用视觉语言模型。在此背景下，VEFX-Dataset应运而生，由德克萨斯农工大学、Visko平台及Abaka AI的研究团队于2026年4月联合发布。该数据集包含5,049个视频编辑示例，涵盖9个主要编辑类别和32个子类别，每个示例均沿指令遵循、渲染质量和编辑排他性三个解耦维度进行标注，为核心研究问题——即如何系统评估视频编辑质量——提供了重要数据基础，对推动视频编辑技术的标准化评测与模型优化具有深远影响。

当前挑战

VEFX-Dataset致力于解决视频编辑质量评估这一复杂领域问题，其面临的挑战主要体现在两个方面。在领域问题层面，视频编辑评估需同时考量指令语义执行的准确性、视觉渲染的连贯性以及非目标内容保留的完整性，这三者相互独立且常存在权衡，构建能够精准捕捉多维度质量的评估框架极具挑战性。在数据集构建过程中，挑战同样显著：首先，收集高质量源视频并生成覆盖广泛编辑类别且与内容匹配的编辑指令需要精细的策划与自动化辅助；其次，通过多样化商业系统、开源模型及智能编辑流程生成编辑后视频，以确保数据集的代表性与质量跨度，涉及复杂的流程集成与质量控制；此外，设计可靠的人工标注协议以实现三个维度间的高一致性评分，并确保标注结果在不同任务类型和视频格式上具有统计稳健性，亦是构建过程中的关键难点。

常用场景

经典使用场景

在人工智能辅助视频创作领域，VEFX-Dataset作为首个大规模人工标注的视频编辑数据集，其最经典的使用场景在于为指令引导的视频编辑系统提供标准化评估基准。该数据集涵盖了9个主要编辑类别和32个子类别，每个示例均包含源视频、编辑指令和编辑后的视频，并沿指令遵循度、渲染质量和编辑排他性三个维度进行精细标注。研究人员利用这一数据集训练专门的奖励模型VEFX-Reward，该模型能够自动评估编辑结果与人类判断的一致性，从而为不同编辑系统的性能比较提供了可靠且可复现的衡量标准。

衍生相关工作

以VEFX-Dataset为基础，研究社区催生了一系列专注于视频编辑评估与优化的经典工作。核心衍生成果VEFX-Reward模型开创了针对视频编辑场景的专用奖励建模范式，其架构设计启发了后续研究对多模态联合推理的深入探索。该数据集的多维度标注框架也被后续基准（如IVE-Bench、OpenVE-3M）所借鉴，推动了评估协议的统一。此外，基于VEFX-Bench的模型对比分析揭示了当前系统在视觉合理性与指令忠实性之间的普遍差距，这一发现直接促进了新一代编辑模型在语义理解与局部控制方面的算法创新，例如在扩散模型中引入更强的时空注意力机制与内容保持约束。

数据集最近研究