IVEBench

Name: IVEBench
Creator: 浙江大学、腾讯优图实验室、上海交通大学、奥克兰大学、新加坡国立大学
Published: 2025-10-14 01:27:08
License: 暂无描述

arXiv2025-10-14 更新2025-10-15 收录

下载链接：

https://huggingface.co/datasets/Coraxor/IVEBench

下载链接

链接失效反馈

官方服务：

资源简介：

IVEBench是一个现代基准测试套件，专为指令引导的视频编辑评估设计。该数据集包含600个高质量的源视频，涵盖七个语义维度，视频长度从32帧到1,024帧不等。IVEBench包括8个类别的编辑任务，共35个子类别，其提示通过大型语言模型和专家评审生成和精炼。IVEBench建立了一个三维评估协议，包括视频质量、指令符合性和视频保真度，结合了传统指标和多模态大型语言模型评估。

IVEBench is a modern benchmark suite specifically designed for instruction-guided video editing evaluation. This dataset contains 600 high-quality source videos spanning seven semantic dimensions, with video lengths ranging from 32 to 1,024 frames. IVEBench encompasses 8 categories of editing tasks, totaling 35 subcategories, whose prompts are generated and refined via large language models and expert reviews. IVEBench establishes a three-dimensional evaluation protocol covering video quality, instruction compliance, and video fidelity, integrating traditional metrics and multimodal large language model-based assessments.

提供机构：

浙江大学、腾讯优图实验室、上海交通大学、奥克兰大学、新加坡国立大学

创建时间：

2025-10-14

原始信息汇总

IVEBench数据集概述

数据集基本信息

数据集名称: IVEBench DB
许可证: MIT
官方数据集页面: https://ryanchenyn.github.io/projects/IVEBench/

数据集配置

配置名称: prompt
数据文件:
- short_prompt分割: ivebenchdb_prompt_short.json (32–128帧)
- long_prompt分割: ivebenchdb_prompt_long.json (129–1024帧)

文件说明

IVEBench-DB_name_mapping.csv: 源视频名称到有序名称和原始下载URL的映射
ivebench_prompt_short.json: 短子集元数据
ivebench_prompt_long.json: 长子集元数据

数据特征

视频数量: 600个高质量多样化视频
帧数范围: 32-1024帧
数据分割: 短子集(32–128帧)和长子集(129–1024帧)

使用方式

bash huggingface-cli download --repo-type dataset --resume-download Coraxor/IVEBench --local-dir $YOUR_LOCAL_PATH

重要声明

仅包含公开可访问的视频URL和元数据，不包含原始视频内容
所有原始视频归各自版权持有者和托管平台所有
仅用于学术研究和教育目的

引用信息

bibtex @article{chen2025ivebenchmodernbenchmarksuite, title={IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment}, author={Yinan Chen and Jiangning Zhang and Teng Hu and Yuxiang Zeng and Zhucun Xue and Qingdong He and Chengjie Wang and Yong Liu and Xiaobin Hu and Shuicheng Yan}, journal={arXiv preprint arXiv:2510.11647}, year={2025} }

搜集汇总

数据集介绍

构建方式

在指令引导视频编辑领域快速发展的背景下，IVEBench通过系统化流程构建了高质量的评估数据集。研究团队从Pexels、Mixkit等平台收集了超过2000个原始视频样本，基于七个语义维度的分类体系进行人工筛选，最终形成包含600个高质量视频的语料库。视频长度覆盖32至1024帧，分为短序列和长序列两个子集，每个视频均通过多模态大语言模型生成结构化描述，为后续编辑任务奠定基础。

使用方法

研究人员可通过官方提供的代码库加载数据集，按照标准化的评估流程对指令引导视频编辑模型进行测试。使用过程中需将源视频、编辑指令和生成的目标视频输入评估系统，系统将自动计算12个具体指标在三个维度的得分。数据集支持对不同长度视频的分别评估，并提供了详细的评分权重配置，确保评估结果的全面性和可比性。

背景与挑战

背景概述

IVEBench作为指令引导视频编辑评估的现代基准套件，由浙江大学、腾讯优图实验室等机构于2025年联合推出，旨在解决现有视频编辑基准在语义多样性、任务覆盖度和评估维度上的局限性。该数据集构建了包含600个高质量源视频的语料库，涵盖7个语义维度的多样化场景，并设计了8大类35个子类的编辑任务，通过大语言模型与专家审核生成精细化指令。其三维评估协议整合了视频质量、指令遵循度与视频保真度指标，显著推动了视频编辑领域向细粒度、人性化评估范式的演进。

当前挑战

IVEBench针对的领域挑战在于传统视频编辑基准难以支撑复杂指令引导的编辑任务评估，存在源视频语义覆盖狭窄、编辑指令类型单一、评估维度不完整等问题。在构建过程中，团队需克服多模态数据采集与标注的复杂性，包括从海量视频中筛选符合7大语义维度的高质量样本，通过混合自动与人工流程确保内容适用性，并利用大语言模型生成兼顾多样性与合理性的编辑指令，同时建立融合传统指标与多模态大语言模型的三维评估体系以保障评估效度。

常用场景

经典使用场景

在指令引导视频编辑技术快速发展的背景下，IVEBench作为专门设计的评估基准套件，其经典使用场景聚焦于系统化评测各类视频编辑模型在自然语言指令下的综合表现。该数据集通过涵盖7个语义维度的600个高质量源视频，以及8大类35个子类的编辑任务，为研究人员提供了标准化的测试平台，能够全面评估模型在风格转换、主体编辑、运动调整等复杂场景下的编辑能力。

解决学术问题

针对现有视频编辑基准存在的源视频多样性不足、任务覆盖范围有限和评估指标不完善等核心问题，IVEBench通过构建三维评估协议有效解决了这些学术挑战。该数据集引入的视频质量、指令遵循度和视频保真度三大维度评估体系，结合传统指标与多模态大语言模型评估方法，为指令引导视频编辑领域建立了系统化的评估标准，显著提升了评估结果的客观性和全面性。

实际应用

在实际应用层面，IVEBench为视频编辑工具的开发和优化提供了重要参考依据。创意产业中的视频制作平台可借助该基准测试不同编辑算法的性能表现，确保其能够准确理解用户的语言指令并生成符合预期的编辑效果。教育领域的视频内容制作和影视行业的后期处理流程也可通过该基准选择最适合的编辑工具，提升工作效率和内容质量。

数据集最近研究