IVEBench

github2025-10-14 更新2025-10-15 收录

下载链接：

https://github.com/RyanChenYN/IVEBench

下载链接

链接失效反馈

官方服务：

资源简介：

IVEBench是一个专门用于评估指令引导视频编辑（IVE）模型的基准数据集，包含600个高质量源视频，涵盖七个语义维度和三十个主题，帧长度从32到1024不等，提供八种主要编辑类别和三十五个子类别，整合了基于MLLM和传统指标的评估协议

IVEBench is a benchmark dataset specifically designed for evaluating Instruction-guided Video Editing (IVE) models. It includes 600 high-quality source videos covering seven semantic dimensions and thirty topics, with frame lengths ranging from 32 to 1024. The dataset provides eight main editing categories and thirty-five subcategories, and integrates evaluation protocols based on both MLLMs and traditional metrics.

创建时间：

2025-10-14

原始信息汇总

IVEBench 数据集概述

数据集简介

IVEBench 是一个用于评估指令引导视频编辑（IVE）模型的综合性基准测试套件，同时兼容传统的源-目标提示方法。

核心特性

数据集规模

包含 600 个高质量源视频
视频帧长度范围：32 到 1,024 帧
涵盖 7 个语义维度和 30 个主题

编辑分类体系

8 个主要编辑类别
35 个子类别
涵盖风格、属性、主体运动、相机运动和视觉效果等多种编辑类型

评估体系

评估维度

视频质量
指令符合度
视频保真度

评估方法

结合传统客观指标
集成多模态大语言模型（MLLM）评估
提供更符合人类感知的全面评估

数据集结构

IVEBench DB Short 子集：32–128 帧视频
IVEBench DB Long 子集：129–1024 帧视频（更高难度）

使用方法

在 IVEBench DB 上运行视频编辑模型生成目标视频数据集
使用评估脚本计算性能得分
评估结果导出为 CSV 文件

数据获取

IVEBench 数据库可通过以下命令下载：

huggingface-cli download --repo-type dataset --resume-download Coraxor/IVEBench --local-dir $YOUR_LOCAL_PATH

引用信息

@article{chen2025ivebenchmodernbenchmarksuite, title={IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment}, author={Yinan Chen and Jiangning Zhang and Teng Hu and Yuxiang Zeng and Zhucun Xue and Qingdong He and Chengjie Wang and Yong Liu and Xiaobin Hu and Shuicheng Yan}, journal={arXiv preprint arXiv:2510.11647}, year={2025} }

搜集汇总

数据集介绍

构建方式

在指令引导视频编辑领域，IVEBench的构建遵循严谨的数据采集与处理流程。研究团队从公开资源中精心筛选出600个高质量源视频，涵盖七种语义维度和三十个主题类别，帧数范围从32到1024帧不等。通过系统化的标注流程，为每个视频配置了源提示词、编辑指令、目标提示词等元数据，并构建了包含八大编辑类别和三十五个子类的完整编辑分类体系，确保数据集的多样性和语义丰富性。

特点

该数据集在视频编辑评估领域展现出独特优势，其核心特点体现在多维度的评估框架设计。IVEBench不仅兼容传统源-目标提示方法，更专门针对指令引导视频编辑模型进行优化，实现了评估范式的全面覆盖。数据集通过整合传统客观指标与基于多模态大语言模型的评估方法，从视频质量、指令遵循度和视频保真度三个维度建立立体评估体系，为模型性能提供更贴近人类感知的综合评判标准。

使用方法

研究人员使用该数据集时需遵循标准化评估流程，首先基于IVEBench数据库运行视频编辑模型生成目标视频集，确保文件名与源视频严格对应。通过配置评估环境并加载预训练模型权重，使用专用评估脚本对目标视频进行多指标量化分析。值得注意的是，数据集按视频长度划分为短序列和长序列两个子集，分别对应32-128帧和129-1024帧范围，用户需分别生成对应子集的目标视频并进行独立评估，以获得完整的性能分析报告。

背景与挑战

背景概述

随着生成式人工智能技术的飞速发展，指令引导视频编辑作为计算机视觉领域的前沿方向，逐渐成为研究热点。IVEBench由浙江大学、腾讯优图实验室等机构的研究团队于2025年联合推出，旨在构建一个系统评估指令引导视频编辑模型的基准测试套件。该数据集包含600个高质量源视频，覆盖七个语义维度和三十个主题类别，帧长范围从32到1024帧，全面涵盖风格转换、属性调整、主体运动等八类编辑操作。通过融合传统指标与多模态大语言模型评估体系，IVEBench为视频编辑技术的标准化评测建立了重要基础。

当前挑战

在视频编辑领域，如何准确理解自然语言指令并实现高质量视觉内容转换始终是核心难题。IVEBench针对指令引导视频编辑任务面临的三大挑战：一是语义对齐难度，需要确保编辑结果与复杂文本指令的精确匹配；二是时序一致性维护，在长视频序列中保持画面流畅性与逻辑连贯性；三是多维度评估体系构建，需平衡视频质量、指令遵循度和视觉保真度的综合评价。在数据集构建过程中，研究人员还面临视频素材语义多样性保障、编辑类别体系设计，以及跨帧长范围样本采集等技术挑战。

常用场景

解决学术问题

IVEBench有效解决了视频编辑领域缺乏统一评估标准的学术难题。通过整合传统客观指标与多模态大语言模型评估，该数据集在视频质量、指令遵循度和视频保真度三个维度建立了综合评价框架。这种多维度评估机制显著提升了模型性能比较的科学性，为指令引导视频编辑技术的标准化发展奠定了重要基础，推动了该研究领域的规范化进程。

衍生相关工作

围绕IVEBench数据集已衍生出多项具有影响力的研究工作，包括InsV2V、AnyV2V、StableV2V等先进视频编辑模型，以及多条件视频编辑框架VACE。这些工作通过在该数据集上的系统评估，不断推进指令引导视频编辑技术的前沿发展。相关研究成果为后续研究提供了重要参考，形成了以IVEBench为核心的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集