RefVIE-Bench

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/linyq/RefVIE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RefVIE-Bench 是一个全面的评估基准，旨在评估视频编辑模型在遵循指令和参考图像方面的能力。该数据集包含源视频、参考图像（用于主题和背景编辑）以及自然语言指令。具体来说，数据集包含86个媒体文件，其中54个为参考图像（包括8个背景图像和46个主题图像）和32个源视频。数据集的结构包括配置文件（refvie_bench.yaml）、参考图像目录（ref_images/background/ 和 ref_images/subjects/）以及源视频目录（source_videos/）。该数据集主要用于视频编辑模型的评估和测试，特别适用于基于指令和参考图像的视频编辑任务。

RefVIE-Bench is a comprehensive evaluation benchmark designed to assess the capabilities of video editing models in following instructions and leveraging reference images. This dataset contains source videos, reference images (for subject and background editing), and natural language instructions. Specifically, the dataset consists of 86 media files in total, among which 54 are reference images (including 8 background images and 46 subject images) and 32 are source videos. The structure of the dataset includes a configuration file (refvie_bench.yaml), reference image directories (ref_images/background/ and ref_images/subjects/), and a source video directory (source_videos/). This dataset is primarily used for the evaluation and testing of video editing models, and is particularly suitable for video editing tasks based on instructions and reference images.

创建时间：

2026-03-05

原始信息汇总

RefVIE-Bench 数据集概述

数据集简介

RefVIE-Bench 是一个综合性评估基准，源自论文《Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance》。该基准专门设计用于评估视频编辑模型遵循指令和参考信息的能力，其数据构成包括源视频、参考图像（针对主体和背景）以及自然语言指令。

数据集构成

媒体文件统计

总参考媒体文件数：86
参考图像总数：54
- 背景图像：8
- 主体图像：46
源视频总数：32

目录结构

refvie_bench.yaml：配置文件，包含指令、参考图像和源视频的映射关系。
ref_images/background/：用于背景引导编辑的参考图像。
ref_images/subjects/：用于主体引导编辑的参考图像。
source_videos/：原始视频序列。

使用说明

样本使用

要使用官方 Kiwi-Edit 框架在此基准上运行推理，可使用以下命令： bash python infer.py --ckpt_path path_to_ckpt --bench refvie --max_frame 81 --max_pixels 921600 --save_dir ./infer_results/exp_name/

注意事项

配置文件 refvie_bench.yaml 中的文件路径相对于此发布目录保持不变。

引用信息

若在您的工作中使用本代码，请引用以下论文： bibtex @misc{kiwiedit, title={Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance}, author={Yiqi Lin and Guoqiang Liang and Ziyun Zeng and Zechen Bai and Yanzhe Chen and Mike Zheng Shou}, year={2026}, eprint={2603.02175}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.02175}, }

搜集汇总

数据集介绍

构建方式

在视频编辑领域，评估模型对指令与参考图像的遵循能力是推动技术发展的关键环节。RefVIE-Bench的构建基于严谨的学术研究框架，通过整合32段源视频、46张主体参考图像及8张背景参考图像，形成了一套包含86项媒体资源的评测集合。其配置映射文件系统性地关联了自然语言指令、参考图像与源视频，确保了数据结构的清晰性与可扩展性，为多模态视频编辑任务提供了标准化的评估基础。

特点

该数据集的核心特点在于其专注于指令与参考引导的双重评估维度，不仅涵盖主体替换，还涉及背景编辑等复杂场景。其媒体资源经过精心筛选，覆盖多样化的视觉内容与语义指令，能够全面检验模型在跨模态对齐与时空一致性方面的性能。数据集结构设计简洁高效，通过分目录存储参考图像与源视频，便于研究者快速访问与集成，为视频生成领域的基准测试设立了新的规范。

使用方法

使用RefVIE-Bench时，研究者可通过官方提供的Kiwi-Edit框架执行推理任务。运行命令需指定模型检查点路径、评测基准名称及输出目录，系统将自动加载配置文件中的指令与媒体映射关系。用户需确保文件路径的相对一致性，并依据硬件条件调整帧数与像素限制参数，以适配不同的计算环境。该流程设计兼顾了灵活性与可重复性，支持高效的大规模视频编辑实验验证。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，视频编辑领域正经历从传统手动操作向智能化、指令驱动范式的深刻转型。在此背景下，由Show Lab研究团队于2026年提出的RefVIE-Bench应运而生，作为其创新框架Kiwi-Edit的重要组成部分。该数据集旨在系统评估视频编辑模型在遵循自然语言指令与参考图像双重引导下的综合性能，其核心研究问题聚焦于如何精准实现基于指令与参考的多模态视频内容可控编辑。通过提供结构化的源视频、参考图像（涵盖主体与背景）及文本指令三元组，RefVIE-Bench为衡量模型在复杂语义理解与视觉一致性保持方面的能力建立了标准化测试基准，对推动指令参考式视频编辑技术的规范化发展与性能提升具有显著影响力。

当前挑战

RefVIE-Bench所针对的指令参考式视频编辑任务，其核心挑战在于如何实现跨模态的精准对齐与高保真生成。具体而言，模型必须同时理解自然语言指令的复杂语义意图，并将参考图像中的视觉特征（如特定主体外观或背景风格）无缝迁移至动态视频序列中，同时确保时间维度上的连贯性与空间细节的真实性。在数据集构建过程中，挑战主要体现于高质量多模态数据对的精心设计与采集。这需要确保源视频具有丰富的编辑潜力，参考图像在主体与背景类别上具备足够的多样性与代表性，而对应的文本指令则需精确、无歧义地描述期望的编辑操作，三者之间必须构成逻辑严谨、可评估的对应关系，以构建一个全面且无偏的评测基准。

常用场景

经典使用场景

在视频编辑领域，RefVIE-Bench作为一项综合性评估基准，其经典使用场景集中于评测视频编辑模型在遵循指令与参考图像方面的能力。该数据集通过提供源视频、参考图像及自然语言指令，构建了一个多模态交互环境，使研究者能够系统性地评估模型在主体替换、背景转换等复杂编辑任务中的表现，从而推动指令引导式视频编辑技术的发展。

实际应用

在实际应用中，RefVIE-Bench可服务于影视制作、广告创意及社交媒体内容生成等领域。基于其评估框架开发的视频编辑模型，能够高效实现个性化视频定制，例如根据用户提供的参考图像自动调整视频主体或背景，显著降低专业编辑门槛，提升内容生产效率，为创意产业注入新的技术动力。

衍生相关工作

围绕RefVIE-Bench，学术界已衍生出多项经典研究工作，特别是以Kiwi-Edit为代表的指令与参考引导视频编辑框架。这些工作进一步拓展了多模态融合、时序一致性保持等关键技术，推动了视频生成与编辑模型的迭代升级，为后续研究如动态场景合成、交互式视频创作奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集