VEFX-Bench
收藏github2026-04-20 更新2026-04-23 收录
下载链接:
https://github.com/Visko-Platform/VEFX-Bench
下载链接
链接失效反馈官方服务:
资源简介:
VEFX-Bench是一个全面的基准测试,用于评估文本驱动的视频编辑和视觉效果。它包括5,049个标注示例,涵盖9个类别和32个子类别,由VEFX-Reward评估——一个基于VLM的奖励模型,在1-4的尺度上对编辑的三个维度进行评分。
VEFX-Bench is a comprehensive benchmark designed for evaluating text-driven video editing and visual effects. It consists of 5,049 annotated examples spanning 9 main categories and 32 subcategories, and is evaluated by VEFX-Reward—a VLM-based reward model that scores three core dimensions of video editing on a 1-4 Likert scale.
创建时间:
2026-04-20
原始信息汇总
VEFX-Bench 数据集概述
数据集基本信息
- 数据集名称:VEFX-Bench
- 核心用途:评估文本驱动的视频编辑和视觉特效
- 数据规模:包含 5,049 个标注样本
- 源视频数量:1,419 个
- 评估系统:涵盖 10 个编辑系统
数据分类体系
- 类别数量:9 个主要类别
- 子类别数量:32 个子类别
评估框架
- 评估模型:VEFX-Reward(基于视觉语言模型的奖励模型)
- 评估维度:三个维度,采用 1-4 分制评分
- 指令遵循度:评估编辑结果是否准确反映编辑指令
- 渲染质量:评估视觉清晰度、时间一致性和物理合理性
- 编辑排他性:评估是否仅修改了目标区域而未产生副作用
- 综合指标:GeoAgg(IF权重α=2,RQ权重β=1,EE权重γ=1)
模型与资源
- VEFX-Reward-4B 模型:基于 Qwen3-VL-4B-Instruct 架构,参数量 4B,可通过 https://huggingface.co/datasets/xiangbog/VEFX-Bench 获取
- VEFX-Reward-32B 模型:基于 Qwen3-VL-32B-Instruct 架构,参数量 32B(即将发布)
使用方式
- 安装要求:Python ≥ 3.10,CUDA GPU,约 10 GB VRAM(bfloat16)
- 主要功能:
- 单视频编辑评分
- 批量视频编辑评分
- 多 GPU 并行评分
- 输入格式:原始视频、编辑后视频、文本指令
- 输出格式:包含 IF、RQ、EE 和 Overall 分数的字典
演示示例
- 属性变更:更改工业拖车的颜色
- 对象移除:移除画面右侧背灰色背包的女性
- 风格迁移:将黑白场景恢复为自然彩色
- 摄像机运动:对远处的雪山进行平滑变焦
引用信息
- 论文标题:VEFX-Bench: Benchmarking Generic Video Editing and Visual Effects
- 预印本:arXiv:2604.16272
- 年份:2026
许可信息
- 许可证:Apache License 2.0
搜集汇总
数据集介绍

构建方式
在视频编辑与视觉特效领域,构建一个全面且具有代表性的评测基准对于推动技术进步至关重要。VEFX-Bench数据集通过精心设计,涵盖了9个主要类别和32个子类别,共包含5,049个经过人工标注的样本。其构建过程基于1,419个源视频,并整合了10种不同的视频编辑系统所生成的编辑结果,确保了数据来源的多样性和广泛性。每个样本都关联了具体的文本编辑指令,并由专门的奖励模型VEFX-Reward从三个核心维度进行量化评分,从而形成了一个结构严谨、覆盖范围广泛的高质量评估体系。
特点
该数据集的核心特点在于其多维度的评估框架与精细化的任务分类。它不仅从指令遵循、渲染质量与编辑排他性三个独立维度对视频编辑效果进行1至4分的量化评分,还通过几何聚合分数提供综合性能排名。数据集囊括了从属性修改、物体移除到风格迁移、相机运动等多种编辑任务,反映了真实世界视频编辑的复杂性。此外,数据集附带的VEFX-Reward奖励模型,基于先进的视觉语言模型构建,为自动化、可复现的评估提供了可靠工具,显著提升了评测的客观性与效率。
使用方法
研究人员可通过安装提供的Python包并加载预训练的VEFX-Reward模型来使用该数据集进行评测。使用流程清晰简便:用户需准备原始视频、编辑后的视频以及对应的文本指令,通过调用模型的`score`函数即可获得三个维度的详细分数及总分。该工具支持单样本评分、批量CSV文件处理以及多GPU并行计算,以适应不同规模的评估需求。数据集本身可作为基准,用于比较不同视频编辑模型在多样化任务上的性能,其在线排行榜持续追踪最新模型的进展,为领域研究提供了动态的参照标准。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,文本驱动视频编辑与视觉特效领域正经历深刻变革。VEFX-Bench作为一项综合性基准测试,由Xiangbo Gao等研究人员于2026年提出,旨在系统评估通用视频编辑与视觉特效模型的性能。该数据集涵盖了5,049个标注样本,跨越9个主要类别与32个子类别,其核心研究问题聚焦于如何客观、多维度地衡量模型对编辑指令的遵循程度、渲染质量以及编辑的排他性。通过引入基于视觉语言模型的奖励机制VEFX-Reward,该数据集为相关领域提供了标准化的评估框架,显著推动了视频编辑技术向更高精度与可控性演进。
当前挑战
在视频编辑领域,模型需精准理解复杂文本指令并生成时空一致的视觉内容,这构成了核心的技术挑战。VEFX-Bench所针对的挑战包括:模型在遵循编辑指令时可能产生语义偏差,难以保持视频的时序连贯性与物理合理性,以及在修改特定区域时避免引发非预期的副作用。数据构建过程中,挑战同样显著,例如需要采集大量多样化的源视频并设计精细的标注体系,确保涵盖从属性变更到相机运动等多种编辑场景;同时,开发可靠的自动化评估指标以替代主观人工评分,亦是一项艰巨任务,涉及对视觉质量、编辑准确性及排他性的综合量化。
常用场景
经典使用场景
在视频编辑与视觉特效领域,VEFX-Bench数据集作为一项综合性基准测试工具,其经典使用场景在于系统评估文本驱动视频编辑模型的性能。该数据集通过涵盖属性修改、对象移除、风格迁移等九大类别任务,为研究者提供了标准化的测试环境,用以衡量模型在遵循指令、渲染质量与编辑排他性三个维度的表现,从而推动视频生成技术向更高精度与可控性发展。
衍生相关工作
围绕VEFX-Bench数据集,学术界与工业界衍生出一系列经典研究工作。例如,基于其评估框架开发的VEFX-Reward奖励模型,已成为多项视频编辑系统优化的核心组件;同时,该数据集支撑了如UniVideo、VACE等开源模型以及Kling、Runway等商业系统的性能对比与迭代,催生了针对多维度质量提升的新算法探索,并在国际竞赛与排行榜中持续激发技术创新浪潮。
数据集最近研究
最新研究方向
在视频生成与编辑技术迅猛发展的背景下,VEFX-Bench作为首个全面评估文本驱动视频编辑与视觉效果的基准,正引领该领域的研究前沿。其核心贡献在于构建了一个包含五千余个标注样本、覆盖九大类别与三十二个子类别的多维评估体系,并创新性地引入了基于视觉语言模型的奖励模型VEFX-Reward,从指令遵循、渲染质量与编辑排他性三个维度进行精细化评分。这一框架不仅为当前主流商业与开源模型提供了统一的性能对比平台,如Kling、Runway等系统在榜单上的激烈角逐,更推动了视频编辑技术向更高保真度、更强可控性与更优时序一致性的方向发展。相关研究热点集中于利用此类基准驱动生成模型的迭代优化,以及探索多模态大模型在复杂视频特效任务中的泛化能力,对影视制作、内容创作等产业的智能化升级具有深远意义。
以上内容由遇见数据集搜集并总结生成



