RefVIE

Name: RefVIE
Creator: 新加坡国立大学·Show Lab
Published: 2026-03-03 02:46:28
License: 暂无描述

arXiv2026-03-03 更新2026-03-04 收录

下载链接：

https://github.com/showlab/Kiwi-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

RefVIE是由新加坡国立大学Show Lab团队构建的大规模指令-参考视频编辑数据集，包含47.7万条高质量四元组样本。该数据集通过自动化流水线从370万原始样本中筛选生成，涵盖局部对象修改和背景替换两大任务类型，视频时长集中在80-110帧以保持时序连贯性。数据生成过程分为四阶段：源数据聚合过滤、目标区域定位分割、参考图像合成（基于Qwen-VL和SAM3模型）以及质量控制去重。作为首个开源的参考引导视频编辑数据集，RefVIE旨在解决现有方法因视觉参考数据稀缺导致的精确控制难题，推动可控视频生成技术的发展。

RefVIE is a large-scale instruction-reference video editing dataset constructed by the Show Lab team at the National University of Singapore, which contains 477,000 high-quality quadruple samples. This dataset is generated by screening from 3.7 million raw samples via an automated pipeline, covering two major task types: local object modification and background replacement. The video durations are concentrated between 80 and 110 frames to maintain temporal coherence. The data generation process is divided into four stages: source data aggregation and filtering, target region localization and segmentation, reference image synthesis (based on Qwen-VL and SAM3 models), and quality control and deduplication. As the first open-source reference-guided video editing dataset, RefVIE aims to address the precise control challenges faced by existing methods due to the scarcity of visual reference data, and promote the development of controllable video generation technologies.

提供机构：

新加坡国立大学·Show Lab

创建时间：

2026-03-03

原始信息汇总

Kiwi-Edit 数据集概述

数据集基本信息

数据集名称: Kiwi-Edit 训练数据
数据集地址: https://huggingface.co/datasets/linyq/kiwi_edit_training_data
关联项目: Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance
项目地址: https://github.com/showlab/Kiwi-Edit
论文地址: https://arxiv.org/abs/2603.02175

数据集用途

该数据集用于训练 Kiwi-Edit 视频编辑框架，该框架基于 MLLM 编码器和视频 DiT 构建，支持：

指令视频编辑
参考图像 + 指令视频编辑

数据集格式与内容

所有训练元数据使用 CSV 格式。仓库中提供了演示数据，具体包括：

图像阶段训练集: 包含 src_video, tgt_video, prompt 字段。示例文件：demo_data/image_demo_training_set.csv
视频阶段训练集: 包含 src_video, tgt_video, prompt 字段。示例文件：demo_data/video_demo_training_set.csv
参考视频阶段训练集: 包含 src_video, tgt_video, ref_image, prompt 字段。示例文件：demo_data/video_ref_demo_training_set.csv

完整数据训练的详细信息请参阅 DATASET.md。

关联模型与训练

训练基于以下模型组合：

视觉语言模型: Qwen2.5-VL-3B-Instruct
视频生成模型: Wan2.2-TI2V-5B

训练分为多个阶段，各阶段脚本、参数及生成的模型权重如下：

训练脚本	模型规模	训练阶段（数据）	最大分辨率	帧数	学习率	步数	模型权重
run_wan2.2_ti2v_5b_qwen25vl_3b_stage1_img_1024x1024_1f.sh	Qwen2.5-VL-3B + Wan2.2-TI2V-5B	阶段 1（图像）	1024x1024	1	1e-5	30K	wan2.2_ti2v_5b_qwen25vl_3b_stage1_img_only
run_wan2.2_ti2v_5b_qwen25vl_3b_stage2_img_vid_600x600_81f.sh	Qwen2.5-VL-3B + Wan2.2-TI2V-5B	阶段 2（图像 + 视频）	600x600	81	1e-5	20K	wan2.2_ti2v_5b_qwen25vl_3b_stage2_img_vid_600x600_81f
run_wan2.2_ti2v_5b_qwen25vl_3b_stage2_img_vid_720x1280_81f.sh	Qwen2.5-VL-3B + Wan2.2-TI2V-5B	阶段 2（图像 + 视频）	720x1280	81	1e-5	20K	wan2.2_ti2v_5b_qwen25vl_3b_stage2_img_vid_720x1280_81f
run_wan2.2_ti2v_5b_qwen25vl_3b_stage3_img_vid_refvid_720x1280_81f.sh	Qwen2.5-VL-3B + Wan2.2-TI2V-5B	阶段 3（图像 + 视频 + 参考视频）	720x1280	81	5e-6	15K	wan2.2_ti2v_5b_qwen25vl_3b_stage3_img_vid_refvid_720x1280_81f
run_wan2.2_ti2v_5b_qwen25vl_3b_stage3_refvid_720x1280_81f.sh	Qwen2.5-VL-3B + Wan2.2-TI2V-5B	阶段 3（参考视频）	720x1280	81	5e-6	30K	wan2.2_ti2v_5b_qwen25vl_3b_stage3_refvid_only_720x1280_81f_pad_first

评估基准

模型在以下基准上进行评估：

OpenVE
RefVIE

评估脚本示例：

eval_openve_gemini.py
eval_refvie_gemini.py

数据来源致谢

Kiwi-Edit 的训练使用了以下开源数据集：

搜集汇总

数据集介绍

构建方式

在视频编辑领域，现有方法多依赖纯文本指令，难以精确传达复杂视觉细节，而高质量参考图像-视频配对数据的稀缺制约了参考引导编辑的发展。为突破这一瓶颈，RefVIE数据集通过一个可扩展的自动化流水线构建而成。该流程从公开的指令编辑数据集（如Ditto-1M、ReCo、OpenVE-3M）中汇集了370万原始样本，首先基于EditScore进行严格质量筛选，保留高分样本。随后，利用Qwen3-VL-32B等视觉语言模型解析编辑指令，在目标视频帧中定位编辑区域，并通过SAM3生成精确分割掩码。核心步骤是借助Qwen-Image-Edit-2511等先进图像编辑模型，根据掩码合成高质量的参考图像：对于背景替换任务，提取并移除前景物体后对背景进行修复；对于局部编辑，则提取目标物体并置于简洁背景上。最后，通过多模态大语言模型进行语义一致性验证，并执行基于CLIP特征的全局去重，最终从初始池中蒸馏出47.7万个高质量的四元组（源视频、指令、参考图像、目标视频）。

使用方法

RefVIE数据集主要用于训练和评估参考引导的视频编辑模型。研究者可利用该数据集训练能够同时理解文本指令和视觉参考的统一架构，例如论文中提出的Kiwi-Edit模型。在训练过程中，模型学习将源视频、文本指令和参考图像作为多模态条件输入，并生成与之对齐的编辑后视频。为了系统评估模型性能，该工作还配套建立了RefVIE-Bench基准，包含110个经过人工验证的样本，专门用于评估模型在主体参考和背景替换任务上的参考保真度、指令遵循度以及时序一致性。评估时可采用自动化评判框架，例如使用Gemini3等多模态大语言模型，从身份一致性、时序保真度、物理整合等多个维度进行打分。该数据集及其基准为开发更精准、可控的视频编辑系统提供了坚实的数据基础和评估标准。

背景与挑战

背景概述

随着社交媒体、娱乐和广告领域对视频内容定制化需求的激增，可访问的视频编辑工具面临着前所未有的发展机遇。近年来，基于指令的视频编辑技术取得了显著进展，用户能够通过自然语言命令修改视频内容。然而，单纯依赖文本指令存在固有局限，自然语言在描述精确的视觉细节（如特定纹理、精确物体身份或细微风格特征）时往往显得模糊不清。为了弥合这一鸿沟，新加坡国立大学Show实验室的研究团队于2026年3月发布了RefVIE数据集。该数据集旨在解决参考图像引导的视频编辑领域高质量配对训练数据稀缺的核心研究问题，通过创新的数据生成流程，将现有的视频编辑对转化为包含源视频、编辑指令、参考图像和目标视频的高保真训练四元组，为可控视频编辑研究提供了关键资源。

当前挑战

RefVIE数据集致力于解决参考图像引导的视频编辑这一领域核心挑战，即如何让模型在遵循文本指令的同时，精确地理解和复现用户提供的视觉参考内容，从而实现超越文本描述能力的精细控制。在构建过程中，研究团队面临多重技术挑战：首要挑战在于如何自动化、规模化地生成与编辑意图高度一致的高质量参考图像，这需要精准的视觉区域定位与高保真图像合成能力；其次，从海量初始数据中筛选出语义对齐、视觉逼真且无冗余的高质量四元组样本，涉及复杂的多阶段质量控制和去重流程；此外，确保生成的参考图像与目标视频中的编辑内容在身份、纹理和风格上保持一致性，也对评估与过滤机制提出了极高要求。

常用场景

经典使用场景

在可控视频编辑领域，RefVIE数据集主要服务于指令-参考引导的视频编辑任务。该数据集通过提供源视频、文本指令、参考图像和目标视频构成的高质量四元组，为模型训练提供了精准的视觉控制信号。其经典使用场景在于训练和评估模型如何同时理解自然语言指令并精确复现参考图像中的视觉细节，例如将视频中人物的服装替换为参考图像中的特定款式，或将背景更改为参考图像中的特定场景，从而实现对视频内容进行细粒度、高保真的编辑。

解决学术问题

RefVIE数据集有效解决了指令引导视频编辑研究中长期存在的视觉控制精度不足问题。自然语言指令在描述复杂纹理、特定对象身份或微妙风格特征时存在固有模糊性，而该数据集通过引入参考图像这一模态，为模型提供了明确的视觉范例，从而弥合了用户意图与模型输出之间的语义鸿沟。它填补了大规模、高质量参考-指令-视频配对数据在公开研究领域的空白，推动了从纯文本控制到多模态精确控制的研究范式转变，对提升视频编辑的可控性和用户意图的忠实度具有关键意义。

实际应用

RefVIE数据集支撑的技术在实际应用中展现出广泛前景。在社交媒体内容创作中，用户可通过上传心仪的服装图片并结合简单指令，一键替换视频中人物的着装。在影视后期与广告制作领域，它能够高效实现特定品牌元素植入或场景风格转换，例如将产品原型图无缝融入动态视频。此外，在教育与模拟培训中，该技术可用于快速生成包含特定器械或环境的演示视频，极大降低了高质量视频内容的制作门槛与成本，推动了个性化与定制化视频生成的普及。

数据集最近研究