VEFX-Bench

github2026-04-20 更新2026-04-23 收录

视频编辑

视觉特效

数据链接：

https://github.com/Visko-Platform/VEFX-Bench 数据链接链接失效反馈

官方服务：

资源简介：

VEFX-Bench是一个全面的基准测试，用于评估文本驱动的视频编辑和视觉效果。它包括5,049个标注示例，涵盖9个类别和32个子类别，由VEFX-Reward评估——一个基于VLM的奖励模型，在1-4的尺度上对编辑的三个维度进行评分。

VEFX-Bench is a comprehensive benchmark designed for evaluating text-driven video editing and visual effects. It consists of 5,049 annotated examples spanning 9 main categories and 32 subcategories, and is evaluated by VEFX-Reward—a VLM-based reward model that scores three core dimensions of video editing on a 1-4 Likert scale.

创建时间：

2026-04-20

原始信息汇总

VEFX-Bench 数据集概述

数据集基本信息

数据集名称：VEFX-Bench
核心用途：评估文本驱动的视频编辑和视觉特效
数据规模：包含 5,049 个标注样本
源视频数量：1,419 个
评估系统：涵盖 10 个编辑系统

数据分类体系

类别数量：9 个主要类别
子类别数量：32 个子类别

评估框架

评估模型：VEFX-Reward（基于视觉语言模型的奖励模型）
评估维度：三个维度，采用 1-4 分制评分
- 指令遵循度：评估编辑结果是否准确反映编辑指令
- 渲染质量：评估视觉清晰度、时间一致性和物理合理性
- 编辑排他性：评估是否仅修改了目标区域而未产生副作用
综合指标：GeoAgg（IF权重α=2，RQ权重β=1，EE权重γ=1）

模型与资源

VEFX-Reward-4B 模型：基于 Qwen3-VL-4B-Instruct 架构，参数量 4B，可通过 https://huggingface.co/datasets/xiangbog/VEFX-Bench 获取
VEFX-Reward-32B 模型：基于 Qwen3-VL-32B-Instruct 架构，参数量 32B（即将发布）

使用方式

安装要求：Python ≥ 3.10，CUDA GPU，约 10 GB VRAM（bfloat16）
主要功能：
- 单视频编辑评分
- 批量视频编辑评分
- 多 GPU 并行评分
输入格式：原始视频、编辑后视频、文本指令
输出格式：包含 IF、RQ、EE 和 Overall 分数的字典

演示示例

属性变更：更改工业拖车的颜色
对象移除：移除画面右侧背灰色背包的女性
风格迁移：将黑白场景恢复为自然彩色
摄像机运动：对远处的雪山进行平滑变焦

引用信息

论文标题：VEFX-Bench: Benchmarking Generic Video Editing and Visual Effects
预印本：arXiv:2604.16272
年份：2026

许可信息

许可证：Apache License 2.0

搜集汇总

数据集介绍

构建方式

在视频编辑与视觉特效领域，构建一个全面且具有代表性的评测基准对于推动技术进步至关重要。VEFX-Bench数据集通过精心设计，涵盖了9个主要类别和32个子类别，共包含5,049个经过人工标注的样本。其构建过程基于1,419个源视频，并整合了10种不同的视频编辑系统所生成的编辑结果，确保了数据来源的多样性和广泛性。每个样本都关联了具体的文本编辑指令，并由专门的奖励模型VEFX-Reward从三个核心维度进行量化评分，从而形成了一个结构严谨、覆盖范围广泛的高质量评估体系。

特点

该数据集的核心特点在于其多维度的评估框架与精细化的任务分类。它不仅从指令遵循、渲染质量与编辑排他性三个独立维度对视频编辑效果进行1至4分的量化评分，还通过几何聚合分数提供综合性能排名。数据集囊括了从属性修改、物体移除到风格迁移、相机运动等多种编辑任务，反映了真实世界视频编辑的复杂性。此外，数据集附带的VEFX-Reward奖励模型，基于先进的视觉语言模型构建，为自动化、可复现的评估提供了可靠工具，显著提升了评测的客观性与效率。

使用方法

研究人员可通过安装提供的Python包并加载预训练的VEFX-Reward模型来使用该数据集进行评测。使用流程清晰简便：用户需准备原始视频、编辑后的视频以及对应的文本指令，通过调用模型的`score`函数即可获得三个维度的详细分数及总分。该工具支持单样本评分、批量CSV文件处理以及多GPU并行计算，以适应不同规模的评估需求。数据集本身可作为基准，用于比较不同视频编辑模型在多样化任务上的性能，其在线排行榜持续追踪最新模型的进展，为领域研究提供了动态的参照标准。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，文本驱动视频编辑与视觉特效领域正经历深刻变革。VEFX-Bench作为一项综合性基准测试，由Xiangbo Gao等研究人员于2026年提出，旨在系统评估通用视频编辑与视觉特效模型的性能。该数据集涵盖了5,049个标注样本，跨越9个主要类别与32个子类别，其核心研究问题聚焦于如何客观、多维度地衡量模型对编辑指令的遵循程度、渲染质量以及编辑的排他性。通过引入基于视觉语言模型的奖励机制VEFX-Reward，该数据集为相关领域提供了标准化的评估框架，显著推动了视频编辑技术向更高精度与可控性演进。

当前挑战

在视频编辑领域，模型需精准理解复杂文本指令并生成时空一致的视觉内容，这构成了核心的技术挑战。VEFX-Bench所针对的挑战包括：模型在遵循编辑指令时可能产生语义偏差，难以保持视频的时序连贯性与物理合理性，以及在修改特定区域时避免引发非预期的副作用。数据构建过程中，挑战同样显著，例如需要采集大量多样化的源视频并设计精细的标注体系，确保涵盖从属性变更到相机运动等多种编辑场景；同时，开发可靠的自动化评估指标以替代主观人工评分，亦是一项艰巨任务，涉及对视觉质量、编辑准确性及排他性的综合量化。

常用场景

经典使用场景

在视频编辑与视觉特效领域，VEFX-Bench数据集作为一项综合性基准测试工具，其经典使用场景在于系统评估文本驱动视频编辑模型的性能。该数据集通过涵盖属性修改、对象移除、风格迁移等九大类别任务，为研究者提供了标准化的测试环境，用以衡量模型在遵循指令、渲染质量与编辑排他性三个维度的表现，从而推动视频生成技术向更高精度与可控性发展。

衍生相关工作

围绕VEFX-Bench数据集，学术界与工业界衍生出一系列经典研究工作。例如，基于其评估框架开发的VEFX-Reward奖励模型，已成为多项视频编辑系统优化的核心组件；同时，该数据集支撑了如UniVideo、VACE等开源模型以及Kling、Runway等商业系统的性能对比与迭代，催生了针对多维度质量提升的新算法探索，并在国际竞赛与排行榜中持续激发技术创新浪潮。

数据集最近研究